Independencia de los errores.
La hipótesis de que las observaciones muestrales son independientes es una hipótesis básica en el estudio de los modelos de regresión lineal. Con ello se entiende que los errores
i = 1n son variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente cuando se trabaja con variables aleatorias que se observan a lo largo del tiempo, esto es, cuando se trabaja con series temporales. Por ello, una primera medida para tratar de evitar la dependencia de las observaciones consiste en aleatorizar la recogida muestral.
¿Qué consecuencias tiene la falta de independencia?
La ausencia de aleatoriedad entre las observaciones es muy difícil de corregir y es especialmente grave ya que puede invalidar por completo las conclusiones del análisis estadístico (obteniendo conclusiones erróneas). Todas las expresiones utilizadas para las varianzas son incorrectas y, por tanto, los intervalos de confianza y las pruebas de hipótesis deducidos a partir de ellas, tendrán una confianza o una potencia distinta a la supuesta.
El efecto de la dependencia puede verse en el siguiente ejemplo:
Considérese una variable aleatoria X tal que:
Entonces, bajo dependencia, se mantiene que E(X) =
, pero
Suponiendo que n es grande y, por tanto, (n +
)
1, se obtiene para
= 0'50
El doble que en el supuesto de indepencia
, ya que en este caso el segundo sumando es cero y V ar(X) =
2 n .
Por tanto, V ar(X) es mayor con dependencia positiva
que con independencia. Esto es debido a que la dependencia entre las observaciones hace que las observaciones próximas en el tiempo proporcionen información redundante. Por ello, es importante disponer de gráficos y contrastes estadísticos que permitan identificar la posible dependencia entre las observaciones muestrales.
En el estudio de un modelo de diseño de experimentos es fundamental chequear la hipótesis de independencia. Esto puede hacerse utilizando diferentes gráficos de residuos, estudiando la función de autocorrelación de los residuos o haciendo contrastes acerca de las autocorrelaciones de los residuos como se verá en las dos secciones siguientes.
4.7.1 Gráficos para detectar dependencia.
Hay dos gráficos que ayudar a detectar la dependencia de las observaciones.
Gráfico de los residuos frente al índice (tiempo).
El gráfico de
puede ayudar a detectar las siguientes características.
Dependencia (Correlación) Negativa.En este caso la estructura de dependencia de los residuos se puede modelizar por la siguiente ecuación
Además del sencillo modelo AR
Figura 4.12. Residuos con dependencia negativa.
| ||||
| Cambio en un instante temporal.En el gráfico
Figura 4.13. Salto en los residuos.
| ||||
| No se detecta ningún problema significativo.En el gráfico
Figura 4.14. Residuos independientes.
|
Algunas veces los residuos tienen una alta variabilidad (son muy ruidosos) y en el gráfico
no es fácil detectar la presencia de dependencia. Este problema se puede resolver en parte si se aplica un filtro de suavizado a los residuos.
Suavización de los datos.
En algunas situaciones en que se dispone de muchas observaciones puede ser conveniente “suavizar los datos” para observar tendencias o dependencias en la nube de datos. Ésto evita que una fuerte dispersión de las observaciones o la existencia de datos atípicos no deje ver la tendencia de la nube.
Una técnica sencilla de suavización es la técnica de medias móviles simples (Simple Moving Average). Si se desea suavizar la muestra
i = 1n según la media móvil de orden 2k + 1, se hace como sigue:
“Sustituir el valor de xi por la media aritmética de las 2k+1 observaciones consecutivas cuyo centro es xi. Ésto es, se sustituye xi por
En una primera suavización puede ser suficiente utilizar k = 1 ó 2. También pueden utilizarse medias móviles más complejas en las que se calculan medias aritméticas ponderadas, con pesos simétricos
j que suman 1 y que decrecen según aumenta j,
Si se supone que existen datos atípicos muy influyentes es conveniente utilizar medianas (medianas móviles simples) en lugar de medias.
En la Figura 4.15 se representa una nube de puntos con una fuerte varianza y en la Figura 4.16 se representa la nube de puntos una vez que se ha aplicado medias móviles simples con k = 2 a la variable. En esta segunda figura la tendencia lineal en la muestra es mucho más evidente.
Figura 4.15. Nube de puntos sin suavizar la variable en estudio
.
Si se considera que el conjunto de residuos del modelo
i = 1n es muy variable, se pueden utilizar estas técnicas de suavizado para intentar descubrir posibles tendencias ocultas.
Figura 4.16. Nube de puntos suavizada.
Gráfico de los residuos et+1 frente a et.
Un gráfico alternativo al gráfico
y, en muchas ocasiones, más ilustrativo para detectar dependencias positivas o negativas es el gráfico de
que permite detectar con facilidad fuertes dependencias, sobre todo, si se pueden modelizar según un AR
. siguiente:
| Si existe dependencia positiva tipo AR
Figura 4.17. Gráfico
| |
| Si existe depencia negativa tipo AR
Figura 4.18. Gráfico
| |
| Si existe independencia, en el gráfico
Figura 4.19. Gráfico
|
Además de los gráficos descritos para detectar dependencias en el conjunto de residuos del modelo, existen contrastes de hipótesis para chequear la independencia
4.7.2 Contrastes para detectar dependencias.
Los contrastes para detectar la dependencia se pueden clasificar en dos tipos: los basados en rachas que se utilizan básicamente cuando se dispone de pocas observaciones y los basados en los coeficientes de autocorrelación.
Contrastes basados en rachas.
Considérese una muestra de una variable con dos posibles resultados: E: “dispositivo con error ” y S:“dispositivo sin error”.
Se define una racha (run) “como una sucesión de valores consecutivos repetidos que está entre dos valores adyacentes distintos”.
Por ejemplo, si la muestra resultante es
las rachas serían
El número total de rachas (o las longitudes de las mismas) constituye una medida de lo aleatoriamente que están repartidos los posibles valores a lo largo de la muestra observada:
- - Demasiadas rachas implican excesiva alternancia de valores (dependencia negativa)
- - Pocas rachas indican largas sucesiones de valores contiguos repetidos (dependencia positiva).
Aunque el test del número de rachas está pensado para una distribución con sólo dos posibles valores (E y S), también puede aplicarse a variables continuas. Para ello, se codifican las observaciones con los valores + o -, según que el dato en cuestión quede por arriba o por abajo de la mediana muestral.
El contraste del número total de rachas
Considérese una muestra de tamaño n de una variable con dos posibles resultados
. De las n observaciones hay n1 de tipo
y n2 de tipo
, n1 + n2 = n.
Se denota
Se denota
este número es el estadístico del contraste. Cuando n tiende a infinito y n1/n tienda a una constante, la distribución de R tiende a la de una normal con la siguiente media y varianza:
Ejemplo 4.11.
“Los residuos del ajuste de un diseño de experimentos con un factor son los de la tabla adjunta. Contrastar la aleatoriedad de estos residuos utilizando el contraste del número total de rachas”
| -16'0 | 7'0 | 12'0 | -1'6 | -11,0 | 3'2 | 12'0 | -4'5 | -9'1 | 7'2 |
| 15'7 | -3'3 | -16'6 | 5'8 | -3'9 | 12'0 | 3'8 | -15'4 | 16'6 | -7'6 |
La mediana muestral es
Se codifican los datos según estén por encima o por debajo de la mediana:
El número de rachas es R = 13 con n1 = n2 = 10, E(R) = 11, V ar(R) = 4'737,
Se acepta la aleatoriedad de la muestra
El contraste de rachas ascendentes y descendentes
Cuando la variable es continua, un test mejor que el anterior es el test de las rachas ascendentes y descendentes que utiliza de forma más intensiva la continuidad de la variable. Este contraste se basa en el número total de rachas ascendentes o descendentes.
Se define una racha ascendente o descendente como sigue:
Se define una racha ascendente o descendente como sigue:
“para cada par de datos consecutivos se anota un signo + si están en orden ascendente y - si el orden es descendente. En esta sucesión de signos se define racha ascendente (o descendente) a la sucesión consecutiva de signos + (respectivamente de signos -).”
Con los n datos se forma una sucesión de n - 1 signos + o -, y se cuenta el número total de rachas ascendentes o descendentes: T.
La hipótesis de independencia tenderá a rechazarse si el número de rachas ascendentes y descendentes es muy grande (indicando dependencia negativa) o muy pequeño (dependencia positiva).
La significación estadística de dichos valores grandes o pequeños siempre ha de ser juzgada con respecto a la distribución del estadístico T bajo la hipótesis de independencia. Esta distribución de T está tabulada para tamaños muestrales pequeños (n < 25), y para valores mayores puede aproximarse por una normal de parámetros
Ejemplo 4.12.
“Contrastar la hipótesis de aleatoriedad de los residuos dados en el Ejemplo 4.11 utilizando el contraste de las rachas ascendentes y descendentes”.
Solución.
Las rachas ascendentes o descendentes son:
por tanto, T = 12, E(T) = 13, V ar(T) = 3'233,
Se acepta la aleatoriedad de la muestra.
Contrastes basados en las autocorrelaciones. El correlograma.
El coeficiente de correlación entre dos variables aleatorias X e Y se define como
y es una medida de la dependencia lineal entre las dos variables.
En base a este concepto se puede definir la función de autocorrelación simple, fas
, k
Z, de una sucesión de variables aleatorias
estrictamente estacionarias (todas las variables tienen la misma distribución), como sigue:
esto es, fas
es el coeficiente de correlación entre dos variables separadas k instantes:
t y
t+k . Debe de tenerse en cuenta que por ser la sucesión
estrictamente estacionaria, la fas
no depende del instante t.
En la práctica, esta función no se conoce y se estima a partir de las observaciones muestrales. En particular, en los modelos de diseño de experimentos o regresión la fas
de los errores
se estima a partir de la muestra de pares de residuos
t = 1n - k.
Los estimadores que se utilizan son los siguientes: dada la muestra de residuos e1,e2,...,en, se define el coeficiente de autocorrelación muestral de orden uno como
donde
= 
i = 1nei = 0, es la media muestral de los residuos. Por tanto, fas
= 
= 
mide la correlación entre lo observado en un instante y lo observado un instante después y su estimador es r(1).
La definición general del coeficiente de autocorrelación muestral de orden k (k retardos), es la siguiente
La gráfica de las autocorrelaciones muestrales se denomina correlograma y puede utilizarse para contrastar la independencia, ya que si las observaciones son independientes los coeficientes de autocorrelación serán próximos a cero.
Un inconveniente que presenta el cálculo de r(k) es que se necesita una muestra con tamaño mayor a k + 1, y para que la estimación sea precisa, el tamaño muestral debe ser mucho mayor que este valor. Normalmente, para muestras de tamaño n, se calcula el correlograma hasta el orden k = n/4.
Bajo independencia, cada coeficiente de autocorrelación muestral, r(k), tiene distribución límite normal: N(
,
).
Esto permite contrastar la hipótesis H0 : 
= 0. Graficamente se dibuja el correlograma y si se observa que para todo k se verifica que |r(k)| <
, se puede aceptar la hipótesis de independencia.
Con la muestra simulada MS-3 (son independientes) se obtienen las siguientes autocorrelaciones
| k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| r(k) |
0'008
|
-0'111
|
0'098
|
0'068
|
-0'012
|
0'078
|
0'035
|
-0'127
|
0'099
|
0'098
|
0'098
|
0'097
|
0'097
|
0'096
|
0'095
|
0'095
| |
Figura 4.20. Correlograma de la muestra MS-3.
| k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| r(k) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
Figura 4.21. Correlograma de residuos con dependencia positiva.
| k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| r(k) | - | 0 | - | 0 | - | 0 | - | 0 |
| 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
El test de hipótesis estadístico más utilizado para contrastar la hipótesis de independencia de los residuos es el siguiente:
El contraste de Ljung-Box.
Si los residuos son independientes sus primeras m autocorrelaciones son cero, para cualquier valor de m. Se elige un m suficientemente grande pero que se pueda estimar
m =
(m) de forma razonable, entonces, el contraste de Ljung-Box (chi-cuadrado) contrasta la hipótesis nula de que las primeras m autocorrelaciones son cero. Esto es
El estadístico del contraste de Ljung-Box es el siguiente:
Bajo la hipótesis nula este estadístico se distribuye aproximadamente según una chi-cuadrado con m - 1 grados de libertad. El valor de m puede ser fijado arbitrariamente aunque no debe de ser grande.
Figura 4.20. Correlograma de la muestra MS-3
Figura 4.21. Correlograma de residuos con dependencia positiva.
Figura 4.22. Correlograma de residuos con dependencia negativa.
Ejemplo 4.13.
“Se ha ajustado un modelo de diseño de experimentos con un factor a partir de una muestra de 65 observaciones que han sido recogidas secuencialmente (en el fichero ejemplo-4-13 se recogen los residuos ordenados según se han obtenido los datos). Contrastar la hipótesis de independencia de estos residuos utilizando el contraste de Ljung-Box”.
Solución.
Con estos residuos se obtiene la siguiente tabla
| k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| r(k) | 0 | - | - | - | - | 0 | 0 | 0 |
| 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
| QLB(k) | 1 | 3 | 4 | 9 | 12 | 14 | 15 | 16 |
| p - valor | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
En la Figura 4.23 se representa el correlograma de los residuos del modelo ajustado.
Figura 4.23. Correlograma de los residuos del ejemplo 4.12.
Si en el análisis de los residuos se observa en los gráficos descritos que existe una tendencia muy clara de los residuos
t respecto al índice o el tiempo t de recogida de las observaciones (en el gráfico
), por ejemplo, una relación lineal de los residuos frente al tiempo, se pueden estudiar otros modelos como:
con Xit la covariable tiempo. Este modelo se denomina Modelo de Análisis de la Covarianza.
Ejemplo 4.14. (Meily Lyin, 1985)
Un investigador observó en distintas fiestas de cumpleaños que los globos de una determinada marca resultaban más difíciles de inflar que otros. Lo achacó a diferencias en el color de los globos y diseñó un experimento para determinar si los tiempos necesarios de inflado eran iguales para los globos del mismo color y diferentes para los de distintos colores. Eligió globos de cuatro colores (rosa, amarillo, naranja y azul) y los infló hasta alcanzar un diámetro de 7 pulgadas. Midió los tiempos con un reloj que tenía una precisión de 0'1 segundos.
Figura 4.24. Diagrama de dispersión de los residuos frente al tiempo en el ejemplo 4.13.
En resumen, el incumplimiento de las hipótesis en la aplicación de un modelo ANOVA influye de la siguiente forma:
| La falta de normalidad afecta poco a la tabla ANOVA y a los contrastes de igualdad de medias, pero si afecta a la estimación de | |
| La heterocedasticidad influye en la estimación de la varianza, pero su influencia en la tabla ANOVA y en los contrastes resultantes depende de si existe una diferencia grande entre los tamaños muestrales de cada grupo, a modo orientativo, si máx(ni) < 2 . m | |
| La falta de independencia influye mucho en todo el proceso. Puede tratar de evitarse la dependencia de las observaciones aleatorizando la recogida muestral. |
No hay comentarios:
Publicar un comentario