viernes, 11 de septiembre de 2009

Regresión lineal simple [SIMPLE!]

(en construcción)


Coeficientes del modelo: estimaciones robussssstas

Del mismo modo que ocurre con la media y el desvío estándar, la estimación habitual de los coeficientes del modelo por cuadrados mínimos (LM-CM) se ve afectada por la presencia de outliers. Frente a la presencia de outliers bivariados, existen varias alternativas robustas para la estimación de los coeficientes de la regresión. Dos de estas alternativas son: 1) cuadrados medios-truncados (LQS-CMT) y 2) una regresión robusta utilizando un estimador M (RLM-CMM).
Las curvas correspondientes a los métodos de cuadrados mínimos-truncados (LQS) y la línea robusta con estimador M (RLM), producen curvas que otorgan relativamente poca importancia a los outliers. Esto es aún más marcado cuando se considera las estimaciones para los coeficientes de regresión por cuadrados mínimos (LM) sin considerar estos outliers, en comparación con sus estimaciones por LQS y RLM.

[Sign]ificación de la regresión
La significación de la regresión fue evaluada mediante el análisis de ausencia/presencia de una relación lineal, o lo que es lo mismo, la ausencia/presencia de relación causal entre las variables. En este sentido, se utilizó la tabla de análisis de la varianza (ANOVA), para refutar o no la hipótesis nula de ausencia se relación lineal entre la variable independiente y la variable dependiente analizada, según el p-valor (o significancia) del estadístico es menor o mayor al valor estándar de alfa (0.05), respectivamente. A pesar de que la tabla ANOVA se asocia naturalmente con el análisis de varianza, la partición de la suma de cuadrados es común al ANOVA, regresión y muchos otros modelos lineales generalizados (McCullag & Nelder, 1989).

Calidad de ajuste
La calidad del ajuste de una regresión lineal simple, permite verificar la calidad con la que el modelo planteado permite hacer estimaciones. Se necesita conocer qué tanta variabilidad en Y fue explicada por el modelo, si se cumplen los supuestos de normalidad en los residuos y si la variación no tiene ningún patrón fuera de lo usual.
La presentación de varios criterios para evaluar la calidad del modelo tiene el propósito de destacar que los buenos modelos se construyen a medida que cumplen más criterios de calidad de ajustes. El no cumplimiento de alguno de los criterios, no hará necesariamente inviable el modelo desde el punto de vista práctico. Entre los criterios que utilizamos para la evaluación de la calidad del ajuste, se encuentran:

Verificación de los supuestos
La evaluación de la normalidad de los residuales, se analiza formalmente a través de la prueba de Shapiro-Wilks y una combinación de pruebas gráficas (gráficos Q-Q normal). A su vez, el supuesto de varianza constante de los residuos se evalúa graficando los residuales estandarizados respecto a los valores de Y pronosticados por el modelo.
La verificación del supuesto de independencia se analiza mediante el gráfico de los residuos contra el orden en que se obtuvieron los datos. Para que se cumpla el supuesto de independencia, los datos no deben seguir ningún patrón bien definido en este gráfico. Un contraste formal para esta evaluación, se consigue mediante la prueba de Durbin-Watson, que permite diagnosticar la presencia de correlación (autocorrelación) entre los residuos consecutivos (ordenados en el tiempo), que es una posible manifestación de falta de independencia. La dificultad de este estadístico, es que no detecta la correlación entre residuos no consecutivos en el tiempo, que violan el supuesto de independencia. En la gráfica de residuos vs tiempo, se observa correlación positiva cuando los puntos caen encadenados; opuestamente, cuando los puntos se alternan de positivos a negativos, la correlación es negativa.
Se identifican las observaciones inusuales mediante la evaluación de los residuos estandarizados, con los cuales se realizaron gráficos cuantil-cuantil para la evaluación de su normalidad. Los residuales también son utilizados para la identificación de valores de Y que fueran outliers. Se estudia la distancia de Cook para evaluar la influencia de estos casos en el total de valores ajustados. El gráfico de la distancia de Cook según los valores de Leverage, nos indica qué casos necesitan una evaluación más pormenorizada.

No hay comentarios:

Publicar un comentario en la entrada

Libros para descargar (gratis)