jueves, 19 de noviembre de 2009

Planteamientos rigurosos con modales atinados


fuente: http://www.facebook.com/notes/eduard-punset/la-delicadeza-de-darwin/158490496777

Dice Charles Darwin en su carta:
«Aunque soy un fuerte defensor de la libertad de pensamiento en todos los ámbitos, soy de la opinión, sin embargo –equivocadamente o no–, que los argumentos esgrimidos directamente contra el cristianismo y la existencia de Dios apenas tienen impacto en la gente; es mejor promover la libertad de pensamiento mediante la iluminación paulatina de la mentalidad popular que se desprende de los adelantos científicos. Es por ello que siempre me he fijado como objetivo evitar escribir sobre la religión limitándome a la ciencia».
Read more...

martes, 3 de noviembre de 2009

Más libros gratis

Read more...

Allan Berryman: Population Analysis System (PAS)

The Population Analysis System (PAS) consists of a series of microcomputer programs designed to help you construct models and analyze the dynamics of populations of organisms inhabiting variable environments.


One-species Analysis
Pressing [2] in the PAS Main Menu will access programs for modeling and analysis of populations consisting of a single species. All other species are relegated to the environment of the subject population. The programs are:
  • P1a - Analyzes and models population census (time series) data.
  • P1b - Builds logistic population models and simulates dynamics.

Two-species Analysis
Pressing [3] in the PAS Main Menu will access programs for modeling and analysis of the interaction between two covarying populations such as predators and their prey, competitors or cooperators. The programs are:
  • P2a - Analyzes census data collected at equal time intervals on two coexisting species.
  • P2b - Models and simulates the dynamics of two interacting populations.

Applications
Pressing [4] in the PAS Main Menu will access programs that use models created by other PAS routines. They are mainly self-explanatory and no user manuals are provided. Clicking on the programs below show examples of them in action:
  • P1i - Interprets the biological meaning of model parameters in P1a or P1b.
  • P1s - Evaluates the sensitivity and stability of single-species models.
  • P2p - Forecasts future population densities and probabilities of outbreak or extinction.
  • P2m - Plays management games and tests harvesting or pest control strategies.

Lessons
Pressing [5] in the Main Menu will access programs for learning the theory of population dynamics and how it can be applied to real-life data. They are mainly self-explanatory and no user manuals are provided. Clicking on the programs below show examples of them in action:
  • PL1 - Exponential growth and the limits to growth.
  • PL2 - Predator-prey interactions in time and space.
  • PL3 - Competition between species.
  • PL4 - Interaction between plants and herbivores and pest management.
  • PL5 - Predator-prey cycles and pest management.

Games
Pressing [6] in the Main Menu will access programs for studying simple artificial life systems, like cellular automata. They are mainly self-explanatory and no user manuals are provided. Clicking on the programs below show examples of them in action:
  • PG1 - The Game of Life.
  • PG2 - Logistic growth of cellular automata.
  • PG3 - Predator-prey automata.

System


Read more...

Ingresar y preparar datos con R

Ingresar/Preparar los datos
  • Lectura
    • read.table
    • Datos:
      • data types are integer, numeric (real numbers), logical (TRUE or FALSE), and character (alphanumeric strings)
      • data frame is a table of data that combines vectors (columns) of different types (e.g.
        character, factor, and numeric data). hybrid of two simpler data structures: lists, which can mix arbitrary types of data but have no other structure, and matrices, which have rows and columns but usually contain only one data type (typically numeric).
  • Organización o forma
    • stack and unstack are simple but basic functions — stack converts from wide to long format and unstack from long to wide; they aren’t
    • reshape is very flexible and preserves more information than stack/unstack,
      but its syntax is tricky: if long and wide are variables holding the
      data in the examples above, then
    • library(reshape): melt, cast, and recast functions, which are similar to reshape but sometimes easier to use
  • Chequeo
    • ˆ Is there the right number of observations overall? Is there the right number of observations in each level for factors?
    • Do the summaries of the numeric variables — mean, median, etc. — look reasonable? Are the minimum and maximum values about what you expected?
    • Are there reasonable numbers of NAs in each column? If not (especially if you have extra mostly-NA columns), you may want to go back a few steps and look at using count.fields or ill=FALSE to identify rows with extra fields . . .
      • str: tells you about the structure of an R variable
      • class: prints out the class (numeric, factor, Date, logical,etc.) of a variable.
      • head: prints out the beginning of a data frame;
      • table: command for cross-tabulation
      • NAs: identificarlos
Análisis exploratorio de los datos
Read more...

domingo, 13 de septiembre de 2009

Indice (en construcción)

Estructura


  • Diseño estadístico experimental y control de calidad.

  • AplicacionesEstadística computacional




  • Modelos y métodos estadísticos espacio-temporales




  • Análisis de series temporales




  • Simulación de procesos estocásticos e inferencia estadística




  • Técnicas estadísticas multivariantes y aplicaciones




  • Ecología numérica








    • Diseño y Análisis de Experimentos
    1. Introducción. Principios y directrices del diseño de experimentos
    2. Análisis de la varianza de una sóla via
    3. Regresión lineal simple y múltiple
    4. Diseños por bloques aleatorizados completos e incompletos
    5. Diseños de cuadrado latino y grecolatino
    6. Diseños factoriales
    7. Diseños factoriales fraccionarios
    8. Diseños jerárquicos
    9. Métodos y diseños de superficies de respuesta
    Biblio:
    • Box, G. E., Hunter, J.S. y Hunter, W.G. (2008). Estadística para investigadores. Diseño, Innovación y descubrimiento. Editorial Reverté.
    ISBN 13: 978-84-291-5044-5.
    • Brenton, R. C. (2008). Linear models: the theory and applications of analysis of variance. ISBN: 978-0-470-0566-6.
    • Clarke, G. M. (1994). Statistical and experimental design: an introduction for biologists and biochemists. Edward Arnold.
    • Davis, Ch. S. (2002). Statistical methods for the analysis of repeated measurements. Springer.
    • Dobson, A.J. y Barnett, A.G. (2008). An introduction to generalized linear models. Series: Chapman & Hall/CRC texts in statistical science.
    • Fisher, R.A. (2003). Statistical methods, experimental design, and scientific inference. ISBN: 978-0-19-852229-4.
    • Gutiérrez P.H. (2003). Análisis y diseño de experimentos. McGraw-Hill.
    • Hocking, R. R. (2003). Methods and applications of linear models: regression and the analysis of variance. Wiley Series in Probability and Statistics. ISBN: 978-0-471-23222-3.
    • Kish, L. (2004). Statistical design for research. Wiley Interscience.
    • Lindman, H. R. (1992). Analysis of variance in experimental design. Springer-Verlag.
    • Kuehl, R. O. (2001). Diseño de experimentos. Principios estadísticos del diseño y análisis de investigación. Thomson Learning.
    • Peña, D. (2002). Regresión y diseño de experimentos. Alianza.
    • Montgomery, D. C. (2002). Diseño y análisis de experimentos. Limusa-Wiley.
    • Scheiner, S.M. (2001). Design and analysis of ecological experiments. Oxford UniversityPress.
    • Toutenburg, H. (2002). Statistical analysis of designed experiments. Springe


    • Estadística Computacional
    1. Computación Estadística y Estadística Computacional. Evolución histórica.
    2. Lenguajes de programación: Visual Basic.
    3. Metodología del Análisis Estadístico Computacional con SPSS.
    4. Metodología del Análisis Estadístico Computacional con los entornos de análisis y
    programación estadística R y S+.
    5. Casos prácticos: análisis estadístico de datos reales. Comparación de software.
    6. Resolución práctica de problemas clásicos de la Estadística con R y S+.
    • Contrastes de hipótesis e intervalos de confianza paramétricos y no
    paramétricos.
    • Análisis de Regresión: estimación paramétrica.
    • Estimación no paramétrica de curvas notables: regresión y densidad.
    • Métodos multivariantes.
    Biblio:
    1. Arriaza Gómez, J., Fernández Palacín, F., López Sánchez, M.A., Muñoz
    Márquez, M., Pérez Plaza, S. y Sánchez Nava, S. (2008). Estadística Básica
    con R y R-Commander. Disponible libremente on-line
    (http://knuth.uca.es/ebrcmdr).
    2. Ceballos, F.J. (1996). Enciclopedia de Visual Basic. Ed. Rama
    3. Crawley, M.J. (2007). The R book. John Wiley & Sons Inc.
    4. Faraway, J.J. (2002). Practical Regression and Anova using R. Ed. el autor.
    5. Gentle, J.E. (2002). Elements of Computational Statistics. Springer-Verlag,
    New York, Inc.
    6. Harriger, A.R., Lisack, S.K., Gotwals, J.K., y Lutes, K.D. (2004). Introduction to
    computer programming with Visual Basic 6. A Problem-Solving Approach.
    Series in Programming and Development. E&T.
    7. Lizasoan, L. y Joaristi, L. (1999). SPSS para Windows. Ed. Rama
    8. Pérez, C. (2004). Técnicas de Análisis Multivariante de Datos. Aplicaciones
    con SPSS. Ed. Pearson.Prentice Hall.
    9. Pérez, C. (2001). Técnicas estadísticas con SPSS. Ed. Prentice.
    10. Spector, P. (2008). Data Manipulation with R. Springer Science+Business
    Media, LLC.
    11. Visual Basic. Manual del usuario.
    12. SPSS para Windows. Manual del usuario.


    • Modelos y Métodos estadísticos espacio-temporales. Aplicaciones
    1. Conceptos básicos y fundamentos.
    2. Modelos geoestadísticos espacio-temporales.
    3. Estimación de parámetros. Estimación, inter/extrapolación y filtrado.
    4. Procesos puntuales.
    5. Análisis de valores extremos.
    6. Diseño de redes de observación.
    7. Simulación y aplicaciones.
    Biblio:
    1. Chilès, J.P. y Delfiner, P. (1999) Geostatistics: Modeling Spatial Uncertainty.
    Wiley.
    2. Christakos G. (1992) Random Field Models in Earth Sciences. Academic Press.
    3. Christakos G. (2000) Modern Spatiotemporal Geostatistics. Oxford University
    Press.
    4. Cressie, N. (1993, 2ª ed.) Statistics for Spatial Data. Wiley.
    5. Diggle, P.J., Ribeiro, P.J. (2007). Model-Based Geostatistics. Springer.
    6. Le, N.D., Zidek, J.V. (2006) Statistical Analysis of Environmental Space-Time
    Processes. Springer.
    7. Ripley, B. (2004) Spatial Statistics. Wiley.
    8. Stein, M.L. (1999) Interpolation of Spatial Data. Some Theory for Kriging.
    Springer.
    9. Webster, R. (2004) Geostatistics for Environmental Scientists. Wiley.
    10. Yaglom, A.M. (1987) Correlation Theory of Stationary and Related Random
    Functions (I, II). Springer-Verlag.


    • Análisis de Series Temporales
    1. Introducción y fundamentos. Predicción.
    2. Modelos ARIMA.
    3. Análisis espectral de series temporales.
    4. Causalidad. Modelos de regresión dinámica.
    5. Modelos de series temporales múltiples.
    6. Modelos de espacio de estados. Filtrado de Kalman.
    7. Modelos condicionalmente heteroscedásticos. Análisis de volatilidades.
    8. Modelos fraccionarios. Dependencias de largo rango.
    Biblio:
    1. Brockwell, Peter and Davis, Richard (2002). Introduction to Time Series
    and Forecasting. Springer-Verlag
    2. Cryer, Jonathan D. and Chang, Kung-Sik (2008). Time Series Analysis with
    Applicantions in R. Springer-Verlag.
    3. Jaén García, Manuel y López Ruiz, Estefanía (2001). Modelos
    Econométricos de Series Temporales. Teoría y Práctica. Septem
    Ediciones.
    4. Kirchgässner, Gebhard (2007). Introduction to Modern Time Series
    Analysis. Springer-Verlag.
    5. Luetkepohl, Helmut (Editor) (2004). Applied Time Series Econometrics.
    Cambridge University Press.
    6. Shumway, Robert and Stoffer, David (2006). Time Series Analysis and its
    Applications. Springer-Verlag.


    • Simulación de Procesos Estocásticos e Inferencia Estadística
    1. Métodos de generación de variables aleatorias discretas y continuas.
    2. Generación de recorridos aleatorios, movimiento Browniano y proceso de Poisson.
    3. Generación de procesos markovianos.
    4. Generación de procesos puntuales y procesos relacionados.
    5. Principios de la simulación Monte Carlo.
    6. Simulación Monte Carlo de procesos estocásticos. Procesos en finanzas.
    7. Métodos Monte Carlo para la inferencia estadística.
    8. Métodos MCMC y algoritmos de optimización para la inferencia probabilística.
    Biblio:
    • Binder, K., Kinder, K. y Heermann, D.W. (2002). Monte carlo Simulation in Statistical Physics: An Introduction. Springer.
    • Chang, H.S., Hu J., Fu, M.C., y Marcus S.I. (2007). Simulation-Based Algorithms for Markov Decision Processes. Springer-Verlag.
    • Davison, A.C. y Hinkley, D.V. (1997). Bootstrap Methods and their Application. Cambridge University Press.
    • Efron, B. y Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall.
    • Evans, M.J. y Swartz, T. (2000). Approximating Integrals via Monte Carlo and Deterministic Methods. Oxford University Press.
    • Fishman, G.S. (1996). Monte Carlo. Concepts, Algorithms, and Applications. Springer-Verlag.
    • Gentle, J.E. (2003). Random Number Generation and Monte Carlo methods. Springer.
    • Gilks, W.R., Richardson, S. y Spiegelhalter, D.J. (1996). Markov Chain Monte Carlo in Practice. Chapman & Hall.
    • Glasserman, P. (2004). Monte Carlo Methods in Financial Engineering. Springer.
    • Iacus, S.M. (2008). Simulation and Inference for Stochastic Differential Equations: with R Examples. Springer.
    • Manly, B. F. J. (1998). Randomization, bootstrap and Monte Carlo Methods in Biology. Chapman and Hall.
    • McLeish, Don L. (2005). Monte Carlo Simulation and Finance. Wiley.
    • Richardson, S. y Gilks, W. R. (1996). Markov Chain Monte Carlo in Practice. Chapman and Hall.
    • Ripley, B.D. (2006). Stochastic Simulation. John Wiley.
    • Robert, C.P. y Casella, G. (2004). Monte Carlo Statistical Methods. Springer-Verlag.
    • Ross, S.M. (1990). A Course in Simulation. Macmillan.
    • Rubinstein, R.Y. y Melamed, B. (1998). Modern Simulation and Modeling. Wiley.
    • Shedler, G.S. (1993). Regenerative Stochastic Simulation. Academic Press.


    • Análisis Multivariante de datos
    1 Análisis de Componentes Principales
    2 Análisis Factorial.
    3 Análisis Discriminante.
    4 Análisis Cluster.
    5 Análisis de Correspondencias.
    6 Otras técnicas multivariantes paramétricas.
    Biblio:
    1. Anderson, TW. (1984). An Introduction to Multivariate Statistical Analysis, second Edition, Wiley & Sons.
    2. Basilevsky, A. (1994). Statistical Factor Analysis and Related Methods. Theory and Applications, Wiley & Sons.
    3. Gutiérrez-Sánchez, R. (2004). Análisis Estadístico Multivariante con SPSS. Curso Básico.
    4. Gutiérrez, R and González, A. (1991). Estadística Multivariante. Introducción al Análisis Multivariante. Volumen 1.
    5. Hair, JF., Anderson, E. Tatham, L. and Black, C. (1999). Análisis Multivariante. 5ª Edición. Prentice-Hall. 1999.
    6. Johnson, RA. and Wichern, DW. (1988) Applied Multivariate Statistical Analysis, Second Edition, Prentice-Hall.
    7. Pérez, C. (2004). Técnicas de Análisis Multivariante de Datos. Aplicaciones con SPSS. Ed. Pearson, Prentice Hall.
    8. Sharma, S (1996) Applied Multivariate Techniques, Wiley & Sons.
    9. SPSS para Windows. Manual del usuario.


    • Ecología numérica
    1 Crecimiento poblacional ilimitado (Stevens)
    2 Crecimiento poblacional denso-dependiente (Stevens)
    3 Competencia interespecífica (Stevens)
    4 Comunidades (datos, clasificación, ordenación, interpretación) (Ludwig & Reynolds_1988)
    5 Análisis de patrones espaciales (Ludwig & Reynolds_1988)
    6 Relaciones especies-abundancia (Ludwig & Reynolds_1988)
    7 Afinidad de las especies (Ludwig & Reynolds_1988)
    8 No-linealidad y estocasticidad en dinámica poblacional (Takeuchi)

    Read more...

    La 18º letra del abecedario

    Read more...

    sábado, 12 de septiembre de 2009

    Gratis! Libros para descargar

    Read more...

    Análisis de varianza de una sola vía

    ###   Un ejemplo ######

    ##Data

    A_15=c(7,7,15,11,9); B_20=c(12,17,12,18,18);C_25=c(14,18,18,19,19);D_30=c(19,25,22,19,23);E_35=c(7,10,11,15,11)
     
    ##Examen gráfico
     scores=data.frame(A_15,B_20,C_25,D_30,E_35)
     boxplot(scores)
     library(PASWR)
     scores2=stack(scores) #preparación de los datos
     X<-scores2[,1]
     INDEX<-scores2[,2]
     oneway.plots(X,INDEX) #dotplot, boxplot y design plot (means)

     ## FIXED MODEL
    # Las medias de los tratamientos son o no iguales: Ho: mu1=mu2=...=mua  vs Ha: mui!=muj
    # Cuando la Ho es cierta, se puede evaluar una afirmación equivalente en término de los efectos de los tratamientos:  Ho: tau1=tau2=...=taua  vs Ha: taui!=0
    ##Camino corto: equivalente al siguiente camino largo
    summary(aov(X~INDEX))
    model.tables(aov(X~INDEX),type="means")

    ##Camino largo
    #Estimaciones: E(MSerror)=sigma^2 y E(MStrat)=sigma^2 + sum((ni*taui^2)/(a-1))
    #Prueba:
    TreatMean<-tapply(X,INDEX,FUN=mean)
    a<-length(TreatMean)
    N<-length(X)
    dft<-a-1
    dfe<-N-a
    GrandMean<-mean(X)
    ni<-nrow(scores)
    SStreat<-ni*sum((TreatMean-GrandMean)^2)
    SStot<-sum((X-GrandMean)^2)
    SSerror<-SStot-SStreat
    MStreat<-SStreat/dft
    MSerror<-SSerror/dfe
    Fobs<-MStreat/MSerror
    pvalue<-1-pf(Fobs,dft,dfe)

    ##Chequeo de supuestos; 3 supuestos en el componente de ERROR (se utilizan los residuales como su estimador): independencia, distribución normal y varianza constante
    mod.aov<-aov(X~INDEX)
    library(MASS)
    r<-stdres(mod.aov)
    n<-length(X)
    #Chequeo de independencia de errores
    par(pty="s")
    plot(1:n,r,ylab="Standardized Residual",xlab="Ordered Value")
    #Chequeo de normalidad: qqplot y shapiro.test()
    par(pty="s")
    qqnorm(r)
    abline(a=0,b=1)
    shapiro.test(r)
    #Chequeo de varianza constante: plot de residuos (estandarizdos) vs valores ajustados; Levene
    tm<-fitted(mod.aov)
    plot(tm,r,xlab="Fitted Value",ylab="Standardized Residual")
    med<-tapply(X,INDEX,median)
    ZIJ<-abs(X-med[INDEX])
    summary(aov(ZIJ~INDEX))
    library(PASWR)
    checking.plots(mod.aov) ##package PASWR
     
    ##comparación múltiple de medias: cuando la Ho del ANOVA es rechazada, analizamos cuáles son los tratamientos que producen  efectos diferentes en la variable respuesta
    #Ho: Ho1 intersección Ho2 intersección ...HoK
    library(multcomp)
    library(multcompView)
    CI<-TukeyHSD(aov(X~INDEX,which="INDEX"))
    plot(CI,las=1)
     
    INDEX.aov<-aov(X~INDEX)
    MSE<-summary(aov(INDEX.aov))[[1]][2,3]
    alpha.c<-0.05
    ybari<-TreatMean
    TcritLSD<-qt(1-alpha.c/2,dfe)
    nn<-rep(ni,a)
    LSD<-TcritLSD*sqrt(MSE)*sqrt(sum(1/nn))
    TcritTUK<-qtukey(1-alpha.c/2,a,dfe)/sqrt(2)
    HSD<-TcritTUK*sqrt(MSE)*sqrt(sum(1/nn)) #nn es un vector de ni y nj, con el length=número de tratamientos
    library(gregmisc)
    NS<-tapply(X,INDEX,length)
    SE<-sqrt(MSE)/sqrt(NS)
    t.v<-qt(.95,dfe)
    ci.l<-ybari-t.v*SE
    ci.u<-ybari+t.v*SE
    barplot2(ybari,plot.ci=T,ci.l=ci.l,ci.u=ci.u,col="skyblue",ci.lwd=2)
    title(main="Mean X por INDEX \n con CI individual 95%")
    #multcompBoxplot(X~INDEX)  Su gráfico no es fácilmente interpretable

     ##RANDOM MODEL
    ##supuestos: eijNID(0,sigma), taui~NID(0,sigma), taui y eij son independientes
    #Ho: sigma-subtau^2=0 vs Ha: sigma-subtau^2>0
    #Estimaciones:
          #cuando los a tratamientos tienen igual tam de muestreo: sig2=estim(sigma)^2=MSerror y sig2tau=estim(sigma)-subtau^2=(MStreat-MSerror)/n
          #cuando los tamaños muestrales son desiguales, n se reemplaza por n`=1/(a-1)*sum(ni)-(sum(ni^2)/sum(ni))
    summary(aov(X~INDEX))
    MSC<-summary(aov(X~INDEX))[[1]][1,3]
    MSE<-summary(aov(X~INDEX))[[1]][2,3]
    #Estimación de los componentes de varianza
    sig2tau<-(MSC-MSE)/n #nº de tratamientos
    Read more...

    viernes, 11 de septiembre de 2009

    Regresión lineal simple [SIMPLE!]

    (en construcción)


    Coeficientes del modelo: estimaciones robussssstas

    Del mismo modo que ocurre con la media y el desvío estándar, la estimación habitual de los coeficientes del modelo por cuadrados mínimos (LM-CM) se ve afectada por la presencia de outliers. Frente a la presencia de outliers bivariados, existen varias alternativas robustas para la estimación de los coeficientes de la regresión. Dos de estas alternativas son: 1) cuadrados medios-truncados (LQS-CMT) y 2) una regresión robusta utilizando un estimador M (RLM-CMM).
    Las curvas correspondientes a los métodos de cuadrados mínimos-truncados (LQS) y la línea robusta con estimador M (RLM), producen curvas que otorgan relativamente poca importancia a los outliers. Esto es aún más marcado cuando se considera las estimaciones para los coeficientes de regresión por cuadrados mínimos (LM) sin considerar estos outliers, en comparación con sus estimaciones por LQS y RLM.

    [Sign]ificación de la regresión
    La significación de la regresión fue evaluada mediante el análisis de ausencia/presencia de una relación lineal, o lo que es lo mismo, la ausencia/presencia de relación causal entre las variables. En este sentido, se utilizó la tabla de análisis de la varianza (ANOVA), para refutar o no la hipótesis nula de ausencia se relación lineal entre la variable independiente y la variable dependiente analizada, según el p-valor (o significancia) del estadístico es menor o mayor al valor estándar de alfa (0.05), respectivamente. A pesar de que la tabla ANOVA se asocia naturalmente con el análisis de varianza, la partición de la suma de cuadrados es común al ANOVA, regresión y muchos otros modelos lineales generalizados (McCullag & Nelder, 1989).

    Calidad de ajuste
    La calidad del ajuste de una regresión lineal simple, permite verificar la calidad con la que el modelo planteado permite hacer estimaciones. Se necesita conocer qué tanta variabilidad en Y fue explicada por el modelo, si se cumplen los supuestos de normalidad en los residuos y si la variación no tiene ningún patrón fuera de lo usual.
    La presentación de varios criterios para evaluar la calidad del modelo tiene el propósito de destacar que los buenos modelos se construyen a medida que cumplen más criterios de calidad de ajustes. El no cumplimiento de alguno de los criterios, no hará necesariamente inviable el modelo desde el punto de vista práctico. Entre los criterios que utilizamos para la evaluación de la calidad del ajuste, se encuentran:

    Verificación de los supuestos
    La evaluación de la normalidad de los residuales, se analiza formalmente a través de la prueba de Shapiro-Wilks y una combinación de pruebas gráficas (gráficos Q-Q normal). A su vez, el supuesto de varianza constante de los residuos se evalúa graficando los residuales estandarizados respecto a los valores de Y pronosticados por el modelo.
    La verificación del supuesto de independencia se analiza mediante el gráfico de los residuos contra el orden en que se obtuvieron los datos. Para que se cumpla el supuesto de independencia, los datos no deben seguir ningún patrón bien definido en este gráfico. Un contraste formal para esta evaluación, se consigue mediante la prueba de Durbin-Watson, que permite diagnosticar la presencia de correlación (autocorrelación) entre los residuos consecutivos (ordenados en el tiempo), que es una posible manifestación de falta de independencia. La dificultad de este estadístico, es que no detecta la correlación entre residuos no consecutivos en el tiempo, que violan el supuesto de independencia. En la gráfica de residuos vs tiempo, se observa correlación positiva cuando los puntos caen encadenados; opuestamente, cuando los puntos se alternan de positivos a negativos, la correlación es negativa.
    Se identifican las observaciones inusuales mediante la evaluación de los residuos estandarizados, con los cuales se realizaron gráficos cuantil-cuantil para la evaluación de su normalidad. Los residuales también son utilizados para la identificación de valores de Y que fueran outliers. Se estudia la distancia de Cook para evaluar la influencia de estos casos en el total de valores ajustados. El gráfico de la distancia de Cook según los valores de Leverage, nos indica qué casos necesitan una evaluación más pormenorizada.
    Read more...

    Análisis Multidimensional

    Relaciones entre 2 atributos:

    1) construcción de tabla de doble entrada y prueba de independencia de chi-cuadrado.
    .Table < −xtabs(∼Survived+Class, data=Datos)
    totPercents(. Table) # Percentage of Total
    .Test <- chisq.test(.Table, correct=FALSE)
    El estadístico no está acotado en un rango de valores que permita interpretar la intensidad de la relación, por lo que se debe recurrir a algún coeficiente derivado que esté acotado. Los más usuales son el coeficiente de contingencia y el coeficiente de Cramer, ambos acotados en el intervalo [0, 1).

    2) coeficiente de contingencia: C= mean(X)^2/(X2+n), donde n es el tamaño muestral.
    ftable(mydata,row.vars,col.vars)

    3) contrastes de hipótesis (más adelante)

    4) para visualizar la relación entre las variables: diagrama de barras
    Tabla <-xtabs(∼ Survived+Class, data=Datos) #tabla de conting.
    barplot(Tabla), beside=TRUE,col=cm.colors(2)) #en valores abs.
    Una alternativa para apreciar la relación existente entre los dos atributos es construir el diagrama de barras de las frecuencias relativas, o porcentajes de supervivencia respecto a cada clase, en lugar de usar las frecuencias absolutas.
    Tabaux <-colPercents(Tabla) #tabla de porcent.,%tot y f marginal
    Tablarel <-Tabaux[1:2][1:4] #tabla de porcent. (solamente)
    barplot(Tablarel), beside=TRUE,col=cm.colors(2)) #en valores %.

    5) Gráfico de mosaico
    mosaicplot(mydata)

    Relaciones entre 2 variables:
    Se construye una función de ajuste (cómo una variable –causa, indep o explicativa- explica el comportamiento de la otra variable –efecto, depend, explicada-). La idea de ajuste implica la selección de un modelo matemático que aproxime lo mejor posible la relación entre las variables, mientras que el concepto de regresión hace referencia a la idea de predecir mediante alguna regla, un valor de la variable dependiente para cada valor de la independiente.
    Predicciones: interpolaciones/extrapolaciones
    Análisis de bondad de ajuste: coeficiente de determinación R2 (para el caso del ajuste lineal, se utiliza el coeficiente de correlación lineal r, r2=R2).
    Análisis de residuos del modelo: (en contrucción)
    Read more...

    univariantes o univariados... datos!

    Existen tres tipos básicos diferentes: categóricos, numéricos discretos y numéricos continuos; y como no podía ser de otra manera, R conoce algunas de sus diferencias. Los métodos para visualizar y resumir los datos dependen de su tipo, por lo que tenemos que saber qué podemos hacer con ellos.

    Una forma simple e intuitiva de probarlo es preguntarnos cuál es su media, claramente... si la pregunta no tiene sentido los datos son categóricos (ej: trabajador y desempleado; (1)), si sí lo tiene, pero su respuesta no es posible (ej: 20.3 años, cuando solo registras números enteros) entonces los datos son discretos, y en caso contrario son continuos.
    • Datos categóricos: utilizamos tablas (table()), o gráficos de barras o sectores (barplot(), pie())
    • Datos numéricos: utilizamos medidas de centralización y dispersión (2), así como medidas resistentes o robustas (útiles cuando existen largas colas o muchos outliers, casi siempre, digamos; ver tabla). En cuanto a gráficos, pordemos utilizar los diagramas de tallos y hojas (stem()), histogramas (hist()), gráficos de cajas (boxplot()), o un gráfico EDA(simple.eda(UsingR)).
    Continuará... histogramas y gráficos de cajas en un mismo gráfico (simple.hist.and.plot()), polígonos de frecuencia (hist() y lines()), densidades (hist(data) y lines(density(data))), etc.

    (1) Seamos claros, los datos categóricos son aquellos que registran categorías. Medir en una escala categórica consiste en observar el resultado de un experimento y asignarle una clase o categoría (no numérica), de entre un número finito de clases posibles. La escala puede ser categórica ordinal, es decir, sus categorías tienen un orden natural, o en caso contrario la escala es categórica nominal.
    (2) ojo! existen diferencias entre summary() y fivenum()! ver ayuda de R para que no queden dudas:
    # mean,median,25th and 75th quartiles,min,max
    summary(mydata)

    # Tukey min,lower-hinge, median,upper-hinge,max
    fivenum(x)


    Otras funciones:
    library(Hmisc)
    describe(mydata)
    # n, nmiss, unique, mean, 5,10,25,50,75,90,95th percentiles
    # 5 lowest and 5 highest scores

    library(pastecs)

    stat.desc(mydata)
    # nbr.val, nbr.null, nbr.na, min max, range, sum,
    # median, mean, SE.mean, CI.mean, var, std.dev, coef.var

    library(psych)

    describe(mydata)
    # item name ,item number, nvalid, mean, sd,
    # median, mad, min, max, skew, kurtosis, se


    #Summary Statistics by Group
    library(psych)
    describe.by(mydata, group,...)

    library(doBy)
    summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
    FUN = function(x) { c(m = mean(x), s = sd(x)) } )
    # produces mpg.m wt.m mpg.s wt.s for each combination of the levels of cyl and vs

    #See also: aggregating data.
    library(Rmcdr) numSummary(mydata,statistics=c(mean,sd))

    library(fBasics)
    kurtosis(mydata)
    skewness(mydata)

    Read more...

    Revistas académicas

    Read more...

    jueves, 3 de septiembre de 2009

    R Libros

    Books about R

    • Baayen, R. H. 2007. Analyzing Linguistic Data: A Practical Introduction to Statistics. Cambridge University Press, New York. (Makes extensive use of R. Preliminary version of text is online.)
    • Crawley, Michael J. 2005. Statistics: An Introduction Using R. Wiley, New York.
    • Crawley, Michael J. 2007. The R Book. Wiley, New York.
    • Dalgaard, Peter. 2002. Introductory statistics with R. Sringer-Verlag, New York.
    • Everitt, Brian S. 2005. An R and S-Plus Companion to Multivariate Analysis. Springer-Verlag, New York.
    • Everitt, Brian and Torsten Hothorn. 2006. A Handbook of Statistical Analyses Using R. Chapman & Hall/CRC Press, Boca Raton, FL.
    • Faraway, Julian J. 2005. Linear Models in R. Chapman & Hall/CRC Press, Boca Raton, FL.
    • Faraway, Julian J. 2005. Extending the Linear Model with R: Generalized Linear, Mixed Effects, and Nonparametric Regression Models. CRC Press, Boca Raton, FL.
    • Fox, John. 2002. An R and S-Plus Companion to Applied Regression. Sage Publications, Thousand Oaks, California.
    • Gelman, Andrew and Jennifer Hill. 2006. Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press, New York.
    • Heiberger, Richard M. and Holland, Burt. 2004 Statistical Analysis and Data Display: An Intermediate Course with Examples in S-Plus, R, and SAS. Springer-Verlag, New York.
    • Maindonald, John and Braun, John. 2003. Data Analysis and Graphics Using R. Cambridge University Press, New York.
    • Murrel, Paul. 2006. R Graphics. Chapman & Hall/CRC Press, Boca Raton, FL.
    • Seefeld, Kimberly and Linder, Ernst. 2005. R for Bioinformatics. O'Reilly Publishing, Cambridge, MA.
    • Venables, William N. and Smith, David M. 2002. An Introduction to R. Network Theory Limited, Bristol, United Kingdom. (available online at http://www.network-theory.co.uk/R/manual/)
    • Verzani, John. 2004. Using R for Introductory Statistics. Chapman & Hall/CRC Press, Boca Raton, FL.
    Read more...

    Libros para descargar (gratis)