lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Chequeo del modelo de diseño de experimentos con un factor. 

Independencia de los errores.

La hipótesis de que las observaciones muestrales son independientes es una hipótesis básica en el estudio de los modelos de regresión lineal. Con ello se entiende que los errores {ei}= 1n son variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente cuando se trabaja con variables aleatorias que se observan a lo largo del tiempo, esto es, cuando se trabaja con series temporales. Por ello, una primera medida para tratar de evitar la dependencia de las observaciones consiste en aleatorizar la recogida muestral.
¿Qué consecuencias tiene la falta de independencia?
La ausencia de aleatoriedad entre las observaciones es muy difícil de corregir y es especialmente grave ya que puede invalidar por completo las conclusiones del análisis estadístico (obteniendo conclusiones erróneas). Todas las expresiones utilizadas para las varianzas son incorrectas y, por tanto, los intervalos de confianza y las pruebas de hipótesis deducidos a partir de ellas, tendrán una confianza o una potencia distinta a la supuesta.
El efecto de la dependencia puede verse en el siguiente ejemplo:
Considérese una variable aleatoria  tal que:
              {    2
Cov(Xi, Xt) =    rs   si t = i+ 1
                  0   en otro caso.
Entonces, bajo dependencia, se mantiene que E(X) = m, pero

     --           1  sum 
V ar(X)   =  V ar(n-   iXi)

              1  sum              2   2   sum 
          =  n2-   iE [(Xi - m)] +  n2-  iE [(Xi - m) (Xt-  m)]

             s2    2
          =  ---+  -2(n-  1)rs2.
              n    n
Suponiendo que es grande y, por tanto,  (+ 1
n ~~  1, se obtiene para r = 0'50
             2
V ar(X)  ~~  2 s-.
            n
El doble que en el supuesto de indepencia (r = 0), ya que en este caso el segundo sumando es cero  y V ar(X) = s2 n .
Por tanto, V ar(Xes mayor con dependencia positiva (r > 0)  que con independencia. Esto es debido a que la dependencia entre las observaciones hace que las observaciones próximas en el tiempo proporcionen información redundante. Por ello, es importante disponer de gráficos y contrastes estadísticos que permitan identificar la posible dependencia entre las observaciones muestrales.
En el estudio de un modelo de diseño de experimentos es fundamental chequear la hipótesis de independencia. Esto puede hacerse utilizando diferentes gráficos de residuos, estudiando la función de autocorrelación de los residuos o haciendo contrastes acerca de las autocorrelaciones de los residuos como se verá en las dos secciones siguientes.

 

4.7.1 Gráficos para detectar dependencia.

Hay dos gráficos que ayudar a  detectar la dependencia de las observaciones.
Gráfico de los residuos frente al índice (tiempo).
El gráfico de (t,et) puede ayudar a detectar las siguientes características.
bullet
Existencia de tendencia. 

En la Figura 4.10 se observa que existe una tendencia lineal en los residuos, por tanto, debería incluirse en el modelo la variable índice (o tiempo) como variable explicativa
Graphic: fig4-10
Figura 4.10. Residuos con tendencia lineal.

bulletDependencia (Correlación) Positiva.En algunos casos existe una estructura de dependencia en los residuos que se puede modelizar por la ecuación
et = fet- 1 + at,
(1.18)
donde f es un parámetro tal que  < f {at} una sucesión de variables aleatorias independientes e igualmente distribuídas. Este modelo se denominamodelo autorregresivo de orden uno, AR(1). Este tipo de dependencia provoca muchos problemas ya que si la dependencia es fuerte (f es próximo a 1) la muestra proporciona menos información que si las observaciones son independientes ya que las observaciones próximas en el tiempo toman valores próximos. Este tipo de dependencia se puede observar en el gráfico (t,et) representado en la Figura 4.11, donde se simula una muestra de cien observaciones con f = 0'9y distribución N(0,1) (esta muestra se denota MS-1).
Graphic: fig4-11
 
Figura 4.11. Residuos con dependencia positiva.

bulletDependencia (Correlación) Negativa.En este caso la estructura de dependencia de los residuos se puede modelizar por la siguiente ecuación
et = -het-1 + at,
(1.19)
siendo h un parámetro tal que < h 1También es un modelo AR(1)El gráfico (t,et) asociado a este tipo de dependencia se representa en la Figura 4.12, donde se simula una muestra de cien observaciones con h = 0'y distribución N(0,1)muestra MS-2.
Además del sencillo modelo AR(1) que es muy importante porque se ajusta razonablemente en muchas situaciones, hay otros modelos más complejos que permiten modelizar estructuras de dependencia.
Graphic: fig4-12
Figura 4.12. Residuos con dependencia negativa.
Existen estructuras de dependencia más complejas como las AR(py las ARMA(p,qcuyo análisis puede estudiarse en los textos de series de tiempo (ver, entre otros, Box, Jenkins y Reinsel (1994), Peña, D. (1989)), en cualquier caso el modelo AR(1) es muy importante porque en muchos problemas es válido para ajustar los residuos de un modelo estadístico con dependencia.
bulletCambio en un instante temporal.En el gráfico (t,et) representado en la Figura 4.13 se observa la existencia de un instante t0 en el que se produce un cambio (salto) en los residuos.
Graphic: fig4-13
Figura 4.13. Salto en los residuos.

bulletNo se detecta ningún problema significativo.En el gráfico (t,et) de la Figura 4.14 no se observa ningún problema y, en principio, se puede considerar que los residuos son independientes. Los residuos de este gráfico se obtuvieron por simulación, son 100 observaciones independientes con distribución N(0,1)muestra MS-3.
Graphic: fig4-14
Figura 4.14. Residuos independientes.
Algunas veces los residuos tienen una alta variabilidad (son muy ruidosos) y en el gráfico (t,et) no es fácil detectar la presencia de dependencia. Este problema se puede resolver en parte si se aplica un filtro de suavizado a los residuos.

Suavización de los datos.
En algunas situaciones en que se dispone de muchas observaciones puede ser conveniente “suavizar los datos” para observar tendencias o dependencias en la nube de datos. Ésto evita que una fuerte dispersión de las observaciones o la existencia de datos atípicos no deje ver la tendencia de la nube.
Una técnica sencilla de suavización es la técnica de medias móviles simples (Simple Moving Average). Si se desea suavizar la muestra {xi}= 1n según la media móvil de orden 2+ 1se hace como sigue:
“Sustituir el valor de xi por la media aritmética de las 2k+1 observaciones consecutivas cuyo centro es xiÉsto es, se sustituye xi por 
^x =  xi--k +-...+-xi +-...+-xi+k-, i = k + 1,...,n - (k + 1)”.
 i            2k + 1
En una primera suavización puede ser suficiente utilizar = 1 ó 2También pueden utilizarse medias móviles más complejas en las que se calculan medias aritméticas ponderadas, con pesos simétricos wj que suman y que decrecen según aumenta j,
      sum k                                sum k
^xi =     wjxi+j,     con   wj = w -j,      wj = 1,  wj+1 <  wj.
    j=-k                              j=-k
Si se supone que existen datos atípicos muy influyentes es conveniente utilizar medianas (medianas móviles simples) en lugar de medias.

En la Figura 4.15 se representa una nube de puntos con una fuerte varianza y en la Figura 4.16 se representa la nube de puntos una vez que se ha aplicado medias móviles simples con = 2 a la variableEn esta segunda figura la tendencia lineal en la muestra es mucho más evidente.
Graphic: fig4-15
Figura 4.15. Nube de puntos sin suavizar la variable en estudio (Y ).
Si se considera que el conjunto de residuos del modelo {ei}= 1n es muy variable, se pueden utilizar estas técnicas de suavizado para intentar descubrir posibles tendencias ocultas.
Graphic: fig4-16
Figura 4.16. Nube de puntos suavizada.  
Gráfico de los residuos et+1 frente a et.
Un gráfico alternativo al gráfico (t,et) y, en muchas ocasiones, más ilustrativo para detectar dependencias positivas o negativas es el gráfico de (et,et+1) que permite detectar con facilidad fuertes dependencias, sobre todo, si se pueden modelizar según un AR(1). siguiente:

bulletSi existe dependencia positiva tipo AR(1)la nube de puntos {(et,et+1)}= 11 presenta una tendencia creciente, la nube se ajusta a una recta de pendiente positiva. En la Figura 4.17 se representa el gráfico (e,e   )
  t t+1 de la muestra MS-1. La recta que se ajusta a esta nube de puntos es
e    = 0'788 e ,  con  R2 = 0'627.
 t+1         t
Graphic: fig4-17
Figura 4.17. Gráfico (et,et+1) con dependencia positiva.

bulletSi existe depencia negativa tipo AR(1)en el gráfico de puntos (et,et+1) la nube de puntos se ajusta a una recta con pendiente negativa. El gráfico de la Figura 4.18 se corresponde con los datos de la muestra simulada MS-2. La recta que se ajusta a esta nube de puntos es
         '              2    '
et+1 = - 0921 et,  con  R  = 0 842.
Graphic: fig4-18
Figura 4.18. Gráfico (et,et+1) con dependencia negativa.

bulletSi existe independencia, en el gráfico (et- 1,et), no se observa que la nube de puntos siga una determinada forma funcional. El gráfico de la Figura 4.19 se corresponde con los datos de la muestra simulada MS-3.
Graphic: fig4-19
Figura 4.19. Gráfico (et,et+1) con independencia.
Además de los gráficos descritos para detectar dependencias en el conjunto de residuos del modelo, existen contrastes de hipótesis para chequear la independencia

4.7.2 Contrastes para detectar dependencias.

Los contrastes para detectar la dependencia se pueden clasificar en dos tipos: los basados en rachas que se utilizan básicamente cuando se dispone de pocas observaciones y los basados en los coeficientes de autocorrelación.
Contrastes basados en rachas.
Considérese una muestra de una variable con dos posibles resultados: E: “dispositivo con error ” y S:“dispositivo sin error”.
Se define una racha (run) “como una sucesión de valores consecutivos repetidos que está entre dos valores adyacentes distintos”.
Por ejemplo, si la muestra resultante es 
“E S S S E E S E E S E S”
las rachas serían
E  -SSS - EE -S - EE - S- E -S


El número total de rachas (o las longitudes de las mismas) constituye una medida de lo aleatoriamente que están repartidos los posibles valores a lo largo de la muestra observada:
- Demasiadas rachas implican excesiva alternancia de valores (dependencia negativa)
- Pocas rachas indican largas sucesiones de valores contiguos repetidos (dependencia positiva).
Aunque el test del número de rachas está pensado para una distribución con sólo dos posibles valores (E y S), también puede aplicarse a variables continuas. Para ello, se codifican las observaciones con los valores -, según que el dato en cuestión quede por arriba o por abajo de la mediana muestral.
El contraste del número total de rachas
Considérese una muestra de tamaño de una variable con dos posibles resultados (+ y
-). De las n observaciones hay n1 de tipo (+)  y n2 de tipo (-), n1 n2 n. 
Se denota
R = “número total de rachas
observadas en la muestra ”,
este número es el estadístico del contraste. Cuando tiende a infinito y n1/n tienda a una constante, la distribución de tiende a la de una normal con la siguiente media y varianza:
          2n1n2 2n1n2(2n1n2--n)
E(R) = 1+   n   , V ar(R) =     n2(n- 1)   .
Si los valores n1 n2 son pequeños la distribución de está tabulada. 
Ejemplo 4.11.
“Los residuos del ajuste de un diseño de experimentos con un factor son los de la tabla adjunta. Contrastar la aleatoriedad de estos residuos utilizando el contraste del número total de rachas”










-16'07'012'0-1'6-11,03'212'0-4'5-9'17'2










15'7-3'3-16'65'8-3'912'03'8-15'416'6-7'6










Solución.
La mediana muestral es
        '    '
^M0 =  -1-6+-3-2-= 0'8.
          2
Se codifican los datos según estén por encima o por debajo de la mediana:
-  +  + -  -  +  +  - -  +  +  - -  + -  +  +  - +  - .
El número de rachas es = 13 con n1 n2 = 10E(R) = 11, V ar(R) = 4'737,
R---E(R)--= 0'919 ==> p - valor = 0'358.
  s (R)
Se acepta la aleatoriedad de la muestra

El contraste de rachas ascendentes y descendentes
Cuando la variable es continua, un test mejor que el anterior es el test de las rachas ascendentes y descendentes que utiliza de forma más intensiva la continuidad de la variable. Este contraste se basa en el número total de rachas ascendentes o descendentes. 
Se define una  racha ascendente o descendente como sigue:
“para cada par de datos consecutivos se anota un signo si están en orden ascendente si el orden es descendente. En esta sucesión de signos se define racha ascendente (o descendente) a la sucesión consecutiva de signos (respectivamente de signos -).”
Con los datos se forma una sucesión de signos -, y se cuenta el número total de rachas ascendentes o descendentes: T.
La hipótesis de independencia tenderá a rechazarse si el número de rachas ascendentes y descendentes es muy grande (indicando dependencia negativa) o muy pequeño (dependencia positiva).
La significación estadística de dichos valores grandes o pequeños siempre ha de ser juzgada con respecto a la distribución del estadístico  bajo la hipótesis de independencia. Esta distribución de T está tabulada para tamaños muestrales pequeños (n < 25), y para valores mayores puede aproximarse por una normal de parámetros
E(T ) = 2n---1,   Var(T) = 16n--29.
          3                  90
Ejemplo 4.12.
“Contrastar la hipótesis de aleatoriedad de los residuos dados en el Ejemplo 4.11 utilizando el contraste de las rachas ascendentes y descendentes”.
Solución.
Las rachas ascendentes o descendentes son:
+  +  -  - +  +  -  -  + +  -  -  + -  +  -  -  + - ,
por tanto, = 12E(T) = 13, V ar(T) = 3'233,
T---E(T-)= - 0'556 ==> p - valor = 0'578.
  s(T )
Se acepta la aleatoriedad de la muestra.

Contrastes basados en las autocorrelaciones. El correlograma.
El coeficiente de correlación entre dos variables aleatorias se define como
         Cov-(X,Y-) r(X,Y ) = s (X)
s (Y ),
y es una medida de la dependencia lineal entre las dos variables.
En base a este concepto se puede definir la función de autocorrelación simple, fas(k), k  (-  Z,  de una sucesión de variables aleatorias {et} estrictamente estacionarias (todas las variables tienen la misma distribución)como sigue:
fas(r) = r(et,et+k), k  (-  Z,
esto es, fas(r) es el coeficiente de correlación entre dos variables separadas instantes: et et+k . Debe de tenerse en cuenta que por ser la sucesión {et}estrictamente estacionaria, la fas(k) no depende del instante t.
En la práctica, esta función no se conoce y se estima a partir de las observaciones muestrales. En particular, en los modelos de diseño de experimentos o regresión la fas(k) de los errores (et) se estima a partir de la muestra de pares de residuos {(et,et+k)}= 1k.
Los estimadores que se utilizan son los siguientes: dada la muestra de residuos e1,e2,...,en, se define el coeficiente de autocorrelación muestral de orden uno como
       sum n -1(e- e)(e  - e) sum n
-1e e r(1) = --i=1 sum ni-----i+12-----= --i sum =n1-i-i+21-,
            i=1(ei- e)           i=1ei
donde e = 1- n sum  = 1nei = 0es la media muestral de los residuos. Por tanto,  fas(1) = r(et,et+1) = r(1) mide la correlación entre lo observado en un instante y lo observado un instante después y su estimador es r(1).
La definición general del coeficiente de autocorrelación muestral de orden (retardos), es la siguiente 
        sum n -k   - sum n -k r(k)
= --i=1 sum (eni--e)(ei+k2---e)-=--i sum =n1-eiei2+k.
             i=1(ei- e)           i=1ei
La gráfica de las autocorrelaciones muestrales se denomina correlograma y puede utilizarse para contrastar la independencia, ya que si las observaciones son independientes los coeficientes de autocorrelación serán próximos a cero.
Un inconveniente que presenta el cálculo de r(kes que se necesita una muestra con tamaño mayor a + 1, y para que la estimación sea precisa, el tamaño muestral debe ser mucho mayor que este valor. Normalmente, para muestras de tamaño n, se calcula el correlograma hasta el orden n/4. 
Bajo independencia, cada coeficiente de autocorrelación muestral, r(k), tiene distribución límite normal: N(r(k),1- n)
               1-
r(k) ~ N (r (k) ,n)
Esto permite contrastar la hipótesis H0 r(k) = 0Graficamente se dibuja el correlograma y si se observa que para todo se verifica que |r(k)< 2 V~ --
 n, se puede aceptar la hipótesis de independencia.
Con la muestra simulada MS-3 (son independientes) se obtienen las siguientes autocorrelaciones









k12345678
r(k)
0'008
-0'111
0'098
0'068
-0'012
0'078
0'035
-0'127
s(r(k))
0'099
0'098
0'098
0'097
0'097
0'096
0'095
0'095









El correlograma se representa en la Figura 4.20, donde además de las barras de los coeficientes de correlación muestral, se representan bandas de confianza al 95%.Si alguna barra sobresale de las bandas indica que el coeficiente es significativo (distinto de cero) lo que lleva a rechazar la hipótesis de independencia. En la Figura 4.20 todas las barras están dentro de las bandas como era de esperar.
Figura 4.20. Correlograma de la muestra MS-3.
Para la muestra simulada MS-1 de residuos con dependencia positiva (AR(1)con f = 0'9) se obtiene









k12345678
 r(k)00000000
s(r(k))00000000









El correlograma de la muestra MS-1 se representa en la Figura 4.21. Se observa que los coeficientes de correlación muestral van disminuyendo ya que r(k) = ^fk. Los tres primeros coeficientes de correlación estimados son claramente significativos (sobresalen de las bandas de confianza) y se rechaza la hipótesis de independencia.
Figura 4.21. Correlograma de residuos con dependencia positiva.
Finalmente para la muestra MS2 con dependencia negativa (AR(1)con h -0'9) se obtiene









k12345678
r(k)-0-0-0-0
s(r(k))00000000









El correlograma de MS-2 se representa en la Figura 4.21. Se observa que los coeficientes de correlación muestral van disminuyendo pero cambiando de signo, r(k) = (   )
 - ^hk. En este caso los once primeros son significativos y se rechaza la hipótesis de independencia.
El test de hipótesis estadístico más utilizado para contrastar la hipótesis de independencia de los residuos es el siguiente:
El contraste de Ljung-Box.
Si los residuos son independientes sus primeras autocorrelaciones son cero, para cualquier valor de m. Se elige un suficientemente grande pero que se pueda estimar rm r(mde forma razonable, entonces, el contraste de Ljung-Box (chi-cuadrado) contrasta la hipótesis nula de que las primeras m autocorrelaciones son cero. Esto es 
{
   H0 :  r1 = r2 = ...= rm = 0
   H1 :  ri /= 0 para algún i  (-  {1,2,...,m}
El estadístico del contraste de Ljung-Box es el siguiente:  
                sum m     2
QLB  = n(n + 2)    r(k)- ~ x2m -1,
               k=1 n - k
Bajo la hipótesis nula este estadístico se distribuye aproximadamente según una chi-cuadrado con grados de libertad. El valor de puede ser fijado arbitrariamente aunque no debe de ser grande.
Figura 4.20. Correlograma de la muestra MS-3
Figura 4.21. Correlograma de residuos con dependencia positiva.
Figura 4.22. Correlograma de residuos con dependencia negativa.

Ejemplo 4.13.
“Se ha ajustado un modelo de diseño de experimentos con un factor a partir de una muestra de 65 observaciones que han sido recogidas secuencialmente  (en el fichero ejemplo-4-13 se recogen los residuos ordenados según se han obtenido los datos).  Contrastar la hipótesis de independencia de estos residuos utilizando el contraste de Ljung-Box”.
Solución.
Con estos residuos se obtiene la siguiente tabla









k12345678
r(k)0----000
s(r(k))00000000
QLB(k)134912141516
- valor00000000









Para < se puede aceptar la hipótesis de independencia con a = 0'05 , pero para valores mayores de se tienen ciertas dudas acerca de la aceptación de esta hipótesis.
En la Figura 4.23 se representa el correlograma de los residuos del modelo ajustado.
Figura 4.23. Correlograma de los residuos del ejemplo 4.12.


Si en el análisis de los residuos se observa en los gráficos descritos que existe una tendencia muy clara de los residuos et respecto al índice o el tiempo de recogida de las observaciones (en el gráfico (t,et)), por ejemplo, una relación lineal de los residuos frente al tiempo, se pueden estudiar otros modelos como:  
Yit = m+ ai + gXit + eit, eit i.i.d
N (0,s2)  son v.a.i.i.d.
con Xit la covariable tiempo. Este modelo se denomina Modelo de Análisis de la Covarianza.  
Ejemplo 4.14. (Meily Lyin, 1985)
Un investigador observó en distintas fiestas de cumpleaños que los globos de una determinada marca resultaban más difíciles de inflar que otros. Lo achacó a diferencias en el color de los globos y diseñó un experimento para determinar si los tiempos necesarios de inflado eran iguales para los globos del mismo color y diferentes para los de distintos colores. Eligió globos de cuatro colores (rosa, amarillo, naranja y azul) y los infló hasta alcanzar un diámetro de 7 pulgadas. Midió los tiempos con un reloj  que tenía una precisión de 0'1 segundos.
Figura 4.24. Diagrama de dispersión de los residuos frente al tiempo en el ejemplo 4.13.
La Figura 4.24. muestra el diagrama de dispersión de los residuos generados por el ajuste del modelo matemático asociado a un diseño completamente aleatorizado. De esta figura se deduce que no se verifica la hipótesis de independencia de las observaciones ya que hay un acusado descenso del valor de los residuos a medida que avanza el tiempo.


En resumen, el incumplimiento de las hipótesis en la aplicación de un modelo ANOVA influye de la siguiente forma:

bulletLa falta de normalidad afecta poco a la tabla ANOVA y a los contrastes de igualdad de medias, pero si afecta a la estimación de s2.
bulletLa heterocedasticidad influye en la estimación de la varianza, pero su influencia en la tabla ANOVA y en los contrastes resultantes depende de si existe una diferencia grande entre los tamaños muestrales de cada grupo, a modo orientativo, si máx(ni. m´i n(ni) se considera que la heterocedasticidad influye poco. En caso contrario si influye.
bulletLa falta de independencia influye mucho en todo el proceso. Puede tratar de evitarse la dependencia de las observaciones aleatorizando la recogida muestral.

No hay comentarios:

Publicar un comentario