lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Chequeo del modelo de diseño de experimentos con un factor. 

 Homocedasticidad de los errores.

Es necesario contrastar la hipótesis de homocedasticidadésto es, la varianza de los residuos es constante y no varía en los diferentes niveles del factor. La falta de homocedasticidad se denomina heterocedasticidad.  
Consecuencias de la falta de homocedasticidad
Se ha demostrado que si el diseño es balanceado (ni m,  A = 1,...,I) los niveles de significación de los pruebas de hipótesis y los niveles de confianza de los intervalos apenas se ven afectados por la existencia de heterocedasticidad, a no ser que la varianza de la respuesta para algún tratamiento particular seaconsiderablemente mayor que para otros.
Para tamaños muestrales de los grupos similares, la heterocedasticidad no afecta al F-test ni a los distintos métodos de comparaciones múltiples siempre que:
^S2Max-< 3 ^S2Min
Si los tamaños muestrales son muy distintos, se verifica que:
- Si los tratamientos con tamaños muestrales (ni) pequeños tienen mayor varianza la probabilidad de cometer un error de tipo I en las pruebas de hipótesis será menor de lo que se obtiene y los niveles de confianza de los intervalos serán inferiores a lo que se cree;
- Si los tratamientos con tamaños muestrales (ni) grandes tienen mayor varianza, entonces se tendrá el efecto contrario y las pruebas serán conservadoras.
Para estudiar si se verifica la homocedasticidad de modelo se pueden hacer los siguientes análisis descriptivos y gráficos:
bulletCálculo de la varianza (o desviación típica) de los residuos según los niveles del factor.
bulletEl gráfico de cajas múltiple proporciona una idea de la distribución de los residuos según los niveles del factor.
bulletEl gráfico de los residuos (eij) frente a las predicciones (y i.) es interesante porque, en muchas situaciones, la varianza de los residuos por niveles aumenta con las predicciones. Esto se puede observar en la Figura 4.6.

Graphic: fig4-6

Figura 4.6. Digrama de dispersión de residuos frente a predicciones.
Existen contrastes para detectar heterocedasticidad:
 
El contraste de Cochran, se utiliza si todos los tamaños muestrales son iguales y es útil si la varianza de un tratamiento es mucho mayor que en los otros.
 
El contraste de Bartlett o el  Contraste de Hartley son más generales y más utilizados. Estos contrastes son muy conservadores y muy sensibles a la ausencia de normalidad.
 
El contraste de Levene es muy utilizado, en esencia, consiste en efectuar un análisis de la varianza sobre las diferencias en valor absoluto entre las observaciones y la mediana (u otra medida de tendencia central) manteniendo el diseño original.
 
El contraste de Romero y Zúnica, se basa en una idea análoga, se realiza un análisis de la varianza sobre los cuadrados de los residuos del modelo ajustado con el mismo factor en estudio. Ahora la hipótesis básica a contrastar es que la varianza en todos los grupos es la misma.
Un modelo muy usual de heterocedasticidad es el siguiente modelo multiplicativo
Yij = mieij, j = 1,...,ni,  i =
1,... ,I,
(4.2)
donde los eij son variables aleatorias de media 1 y varianza constante. En este modelo los grupos con mayor media tienen mayor variabilidad. Para corregir este problema se toman logaritmos en el modelo (4.2) y se obtiene el siguiente modelo aditivo que si es homocedástico.
~Y  = lg Y  = lg m + lge  = ~m + ~e
, j = 1,...,n ,  i = 1,... ,I.
 ij     ij      i    ij   i   ij            i
(4.3)
Muchas veces la heterocedasticidad responde al modelo:
si = kmqi k y q constantes
desconocidas,
(4.4)
así el modelo multiplicativo (4.2) sigue una heterocedasticidad del tipo (4.4) con = 1.
Para este tipo de heterocedasticidad es posible transformar los datos para obtener homocedasticidad (en otro caso puede resultar imposible encontrar transformaciones adecuadas). Además la heterocedasticidad del modelo suele ir unida a la falta de normalidad (la distribución de eij es asimétrica) y la transformación de los datos corrige simultáaneamente ambos problemas. Como una primera aproximación, la transformación tomar logaritmos puede proporcionar buenos resultados y es un caso particular de la familia de transformaciones de Box-Cox que es ampliamente utilizada y que se describe en la siguiente sección.

 La familia de transformaciones de Box-Cox.

La familia de transformaciones más utilizada para resolver los problemas de falta de normalidad y de heterocedasticidad es la familia de Box-Cox, cuya definición es la siguiente.
Se desea transformar la variable Y, cuyos valores muestrales se suponen positivos, en caso contrario se suma una cantidad fija tal que M > 0La transformación de Box-Cox depende de un parámetro c por determinar y viene dada por
       {  yc--1- Z (c) =      c si
c /= 0 .
          lg(y)  si c = 0
(4.5)
Si se quieren transformar los datos para conseguir normalidad, el mejor método para estimar el parámetro c es el de máxima verosimilitud y se calcula como sigue: para diferentes valores de c se realiza la transformación
       {  -yc--1- U (c) =   c
y(c-1)  si c /= 0 .
          y lg(y)  si c = 0
(4.6)
siendo y (y1y2...yn)1/n la media geométrica de la variable Y. Para cada cse obtiene el conjunto de valores {Ui (c)}= 1nLa función de verosimilitud es
            ( sum n               )
L(c) = -n-ln    (Ui (c) - U (c))2 .
        2     i=1
(4.7)
Se elige el parámetro c^ que maximiza L(c). En la práctica, se calcula L(c) en un enrejado (grid) de valores de c que permite dibujar aproximadamente la función L(c)y se obtiene el máximo de la misma.
^cMV = c0  /  L (c0) > L(c),  A
c.
Valores muy utilizados del parámetro c son los siguientes:


cTransformación


-1Z(c) = 1/Y


-1/2Z(c) = 1/ V~ --
  Y


0Z(c) = lg (y)


1/2Z(c) =  V~ --
  Y


1Z(c) Y


Un método gráfico sencillo de estimar c es el siguiente:  
  1. Para cada grupo de residuos, según el tratamiento, se calcula la media de la respuesta, y i., y la desviación típica de los residuos, ^s i(e).
  2. Se dibuja el gráfico de los pares de puntos (y i.;^s iy se ajusta una curva del tipo
    ^si = K .yai.
<==> lg ^si = lg K + algyi.
    (un ajuste lineal respecto a los logaritmos de ambas componentes)
  3. Conclusión:
    · Si a = 0 los residuos son homocedásticos.
    · Si a = 1 hay heterocedasticidad y la transformación a realizar es tomar logaritmos.
    · En otro caso, hay heterocedasticidad y se deben transformar los datos según la transformación de Box-Cox con c = 1 a.

Homogeneidad de los errores. Datos atípicos.

Un dato atípico (outlier) es un registro mayor o menor de lo esperado que se detecta por tener un residuo que es un valor “inusual”, muy grande o muy pequeño en relación con la distribución asociada a los residuos. 
Dado que los residuos estandarizados  rit son una muestra aleatoria de una distribución N(0,1), se verifica que aproximadamente un 68% de los  rit deben estar entre-1, y alrededor del 95% entre -y prácticamente todos entre -3. Por ello, un residuo estandarizado que diste más de 3 o 4 unidades del (| rit|>
3) se correponde, potencialmente, con una observación atípica.
Para chequear la existencia de observaciones atípicas se pueden utilizar diferentes gráficos: el histograma de los ritel diagrama de cajas múltiple de los rit por niveles del factor tratamiento como se observa en la Figura 4.7. o el diagrama de dispersión de los puntos {i,rit}.
Graphic: fig4-7
Figura 4.7. Gráfico de cajas múltiple de los residuos estandarizados frente al factor.
 Contrastes no paramétricos acerca de la hipótesis de no existencia de datos atípicos son los siguientes.
Contrastes de valores atípicos
Cuando el tamaño muestral es moderado (no mayor de 20) y se sospecha la presencia de una única observación atípica, un contraste bastante utilizado se basa en calcular el siguiente estadístico que está tabulado:
q= max{       --
--      }
  X(n)--X-,X---X(1)
     S        S max{||      --||            }
 ||X(i)--X-||,i = 1,2,...,n
 |   S    |
 
Ejemplo 4.8.
“El número diario de operaciones a corazón abierto en un hospital es una variable aleatoria. Se ha tomado la siguiente muestra de la misma: 12, 7, 8, 3, 2, 5. En base a ella, contrastar la homogeneidad de dicha muestra”.
Solución.
Dado que = 6como mucho habrá un dato atípico (quizá el 12), se calcula qn:
         {       '      '       }
qn = max   12---61667, 61667---2- = 1'7478.
             3'3375     3'3375
El punto crítico, para a = 0'05, es 1'89 y se acepta la hipótesis de no existencia de datos atípicos.
Si el tamaño muestral es medio o grande, o se espera que pueda haber más de un dato atípico, resulta más adecuado usar el contraste basado en el coeficiente de apuntamiento muestral. Este coeficiente aumenta notablemente al introducir alguna observación muestral que provenga de una distribución de mayor varianza que la del resto de variables de la muestra.
Cuando no existen valores atípicos y el tamaño muestral es moderado o pequeño, la distribución de este estadístico está tabulada, en caso contrario, se debe usar la aproximación por una normal de media cero y varianza 24/n. Si el estadístico es significativamente mayor que el punto crítico de la normal se admitirá la presencia valores atípicos.

Ejemplo 4.9.
“Las cuotas de disco ocupado (en Mbytes) para distintos usuarios de una estación de trabajo son: 35, 45, 47, 50, 31, 30, 25, 33, 35, 40, 45, 47, 49, 42, 40, 50, 46, 55, 42, 46. Contrastar la hipótesis de que la muestra es homogénea.”
Solución.
Se calcula el CAp -0'4786 y su estandarizado: CApS -0'437. Utilizando como distribución aproximada del coeficiente de curtosis estandarizado la de unaN(0,1), el valor = 0'67, y se acepta la hipótesis de no existencia de datos atípicos.
En ocasiones las observaciones atípicas son fruto de errores concretos en el proceso de recogida de los datos, otras veces, en cambio, delatan ausencia de normalidad,  heterocedasticidad o una incorrecta especificación del modelo.
Una vez que se ha identificado la presencia de una observación atípica, se debe investigar su procedencia y si se concluye que se ha generado por errores en el muestreo se debe eliminar. En otro caso, es conveniente repetir el análisis estadístico sin la observación atípica y examinar las nuevas conclusiones. Si dichas conclusiones son semejantes a las obtenidas con ella, la observación puede mantenerse. Si, por el contrario, las conclusiones se modifican drásticamente, la observación atípica se denomina influyente. En este punto, el experimentador debe enjuiciar si es posible su aparición por un error experimental (eliminarlo) o si tal observación podría volver a aparecer (buscar modelos más complejos).
Ejemplo 4.10.
Se ha realizado un experimento para estudiar el rendimiento de las pilas en función del tipo de pila. La Figura 4.8. muestra la nube de residuos estandarizados que se obtuvo inicialmente con este experimento.
En esta figura se observan dos anomalías relativas. Por un lado, la décima observación genera un residuo de valor -2'77. Además, la totalidad de residuos procedentes de los otros tres tipos de pilas se encuentran entre -1, lo que constituye bastante más que el 68% esperado.
Un análisis del origen de la décima observación reveló un error en el registro. Se había introducido en el ordenador una duración de 285 minutos cuando en la hoja de anotaciones figuraba una duración de 585 minutos. Subsanado el error se repitió el ajuste del modelo y los nuevos residuos estandarizados se muestran en la Figura 4.9. Ambas anomalías desaparecen ahora. Ya no se detectan observaciones atípicas, los residuos (globalmente) son algo mayores pero la varianza residual es más pequeña.
Figura 4.8. Diagrama de dispersión de los residuos.
Figura 4.9. Gráfico de dispersión una vez que se corrigió el error.

No hay comentarios:

Publicar un comentario