lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Chequeo del modelo de diseño de experimentos con un factor. 

Hipótesis básicas del modelo.

En el estudio de un modelo de Diseño de Experimentos, al igual que en el estudio de cualquier modelo estadístico, se debe contrastar que se verifican las hipótesis básicas o estructurales del modelo. En el modelo de diseño de experimentos con un factor las hipótesis establecidas a priori sobre los errores del modelo:
eit = Yit- (m + ai), t = 1,...,ni,
i = 1,...,I.
(4.1)
son las siguientes:
  1. Bondad del ajuste del modelo estadístico propuesto.
  2. La normalidad.
  3. La homocedasticidad del error.
  4. La homogeneidad de la muestra.
  5. La independencia de las observaciones.
Dado que los errores del modelo son desconocidos, las hipótesis anteriores pueden y deben chequearse a partir de los residuos,
         -- eit = yit- yi., t =
1,... ,ni, i = 1,...,I,
y, en general, es preferible trabajar con los residuos estandarizados, definidos por
r =  eit,  t = 1,... ,n , i =
1,...,I.
 it   ^sR              i
Si las suposiciones sobre el modelo son correctas, se verifica que eit
 s es una muestra aleatoria simple de una distribución N(0,1) y, por tanto, es razonable suponer un comportamiento similar para rit.
Un estudio descriptivo analítico y gráfico de la muestra y de los residuos permite tener una idea aproximada acerca del cumplimiento de las hipótesis básicas. Es recomendable lo siguiente:
  1. Previo al cálculo del modelo se deben obtener los estadísticos básicos de la variable respuesta según el factor.
  2. Gráficos de interés para un análisis previo son: el gráficos de puntos de según el factor y el gráfico de cajas múltiple de según el factor.
  3. Una vez ajustado el modelo y calculados los residuos (o los residuos estandarizados) se deben obtener los estadísticos básicos de los residuos según el factor.
  4. Analizar el gráficos de puntos de los residuos según el factor, el gráfico de cajas múltiple de los residuos según el factor, el histograma de los residuos, el gráfico de los residuos frente a las predicciones, el gráfico de los residuos frente al índice.

La interpretación de estos estadísticos y gráficos se expone en la secciones siguientes en las que se analiza la metodología a seguir para chequear las hipótesis básicas.


 Bondad del ajuste del modelo.

El gráfico de puntos de los residuos según los niveles del factor, gráfico {i,eij}= 1,...,ni i = 1,...,I, permite tener una buena idea acerca de si los datos se ajustan adecuadamente al modelo de diseño de experimentos con un factor. En la Figura 4.1 se representa la nube de puntos de los residuos del modelo de un factor utilizando los datos del Ejemplo 3.1. Se observa que los residuos se ajustan de forma adecuada.
Figura 4.1. Gráfico de residuos frente al factor.
Si la nube de puntos muestra un comportamiento no aleatorio alrededor del (residuos excesivamente positivos para algunos niveles y excesivamente negativos para otros) es indicativo de falta de ajuste. El modelo supuesto no es válido y debe modificarse.
El gráfico de cajas múltiple de los residuos frente al factor proporciona información complementaria acerca de este problema. Este gráfico para los datos del Ejemplo 3.1. se representa en la Figura 4.2.
Graphic: fig4-2
Figura 4.2. Gráfico de cajas múltiple de los residuos.
Si se observa que el modelo no se ajusta bien, el gráfico de los residuos frente a los niveles de un factor no incluído puede indicar la necesidad de incluir el factor en el experimento.
Otro gráfico de interés es el de la respuesta frente a las predicciones, (yi.,yij) que permite observar la influencia del factor y la forma de esta (lineal, cuadrática,).






Normalidad de los errores.

Una de las hipótesis básicas del modelo de diseño de experimentos con un factor es que los errores del modelo siguen una distribución normal.
Consecuencias de la falta de normalidad.
Este es un problema que afecta especialmente a la estimación de la varianza del modelo y no se obtendrán intervalos de confianza correctos del error experimental ( 2)
 sSin embargo, por el Teorema Central del Límite, la falta de normalidad tiene poca influencia en el F-test de la tabla ANOVA y en las estimaciones puntuales de las medias y de las diferencias de medias de los tratamientos.
La hipótesis de que los errores siguen una distribución normal puede chequearse de forma gráfica y de forma analítica.

4.3.1 Gráficos de normalidad.

Los gráficos para estudiar la normalidad de los residuos son los siguientes:
bulletEl histograma de los residuos, la mayoría de los paquetes estadísticos permiten dibujar el histograma conjuntamente con la densidad normal que se ajusta a la muestra. Debe de tenerse en cuenta que el número de barras que se elija para el histograma influye en la forma del mismo. En la Figura 4.3. se observa el histograma de los residuos estandarizados y la normal ajustada.

Graphic: fig4-3

Figura 4.3. Histograma de residuos y normal ajustada.
bulletEl gráfico de normalidad para los datos {ei}= 1n, en el que se representan los pares {ei;F (ei)}= 1n {ei;Fn (ei)}= 1ndonde Fn(ei) es la frecuencia relativaacumulada de la muestra (distribución empírica) y F(e )
  i es la distribución teórica (en este caso la distribución normal). Estas curvas se representan en unos ejes escalados de forma que los puntos {ei;F (ei)}= 1n están sobre la recta x. Por tanto, si los puntos {ei;Fn (ei)}= 1n están próximos a esta recta, se aceptará la hipótesis de normalidad. En la Figura 4.4. se representa el gráfico de normalidad de los residuos del Ejemplo 3.1.

Graphic: fig4-4

Figura 4.4. Gráfico de normalidad para los residuos estandarizados del ejemplo 3.1.

Gráficos de normalidad parecidos al descrito son el gráfico -que representa los pares {Fn (ei);F (ei)}= 1n y el gráfico (cuantil-cuantil). Estos gráficos también se puede construir para el ajuste de otras distribuciones.
bulletOtros gráficos que pueden ayudar a estudiar la hipótesis de normalidad son los siguientes: el gráfico de cajas, el gráfico de tallos y hojas, el gráfico de simetría.

4.3.2 Contrastes de bondad de ajuste.

Existen muchos contrastes no paramétricos sobre la bondad del ajuste de los errores a una distribución normal. De hecho, en la mayoría de los casos estos contrastes son válidos para contrastar si una muestra sigue una determinada función de distribución (no solo la normal).
Por su importancia se exponen los más utilizados: contraste chi-cuadrado, contraste de Kolmogorov-Smirnov (Lilliefors), y el contraste de asimetría y curtosis.
Contraste chi-cuadrado de Pearson.
El test chi-cuadrado es un contraste general de bondad de ajuste de una distribución y, en particular, puede utilizarse para contrastar la normalidad de una muestra. El contraste de hipótesis a realizar es:
{  H  :  La distribució n de la población es F.
    0
   H1 :  La distribució n de la población no es F.
Pearson (1900) prppuso un estadístico que compara las frecuencias observadas (oi) con las frecuencias esperadas (ei), en base a la distribución de probabilidad especificada. Concretamente, para una variable discreta con modalidades o una variable continua con intervalos de clase, el contraste definido por Pearson (1900) es el siguiente,
     sum k       2 Q =    (oi-ei)-,
    i=1    ei
La distribución aproximada de este contraste, bajo la hipótesis de que la distribución especificada sea correcta, es la de una chi-cuadrado con grados de libertad (x12).
Comentarios
  1. Este contraste compara el histograma de frecuencias relativo de la muestra con el que se deduce de la masa de probabilidad teórica. Es válido para distribuciones discretas y continuas.
  2. Si la distribución depende de algún parámetro que debe ser estimado, la distribución aproximada del test es una x-r12, siendo el número de parámetros estimados. Así, si se contrasta la hipótesis de normalidad, hay que estimar dos parámetros: m s2Por tanto, el número de grados de libertad es 3.
  3. Si la variable en estudio es continua se puede utilizar este contraste haciendo intervalos de clase. Esto plantea el problema de la subjetividad en la elección de los mismos, así como la dependencia del resultado del test de los intervalos elegidos.
Ejemplo 4.1.
“Considérese la siguiente muestra de 20 observaciones.










-16'07'012'0-1'6-11,03'212'0-3'912'03'8










-4'5-9'17'215'7-3'3-16'65'8-15'416'6-7'6










Utilizar el contraste chi-cuadrado para contrastar la hipótesis de normalidad”.
Solución.
De los datos del ejemplo se obtiene que x = 0'315 sX = 10'737.
Se construye la tabla de fecuencias observadas y esperadas:
xoiei(oi ei)2 ei




(-  oo , -11,1477]32'860'01
(-11'15,- 5'76]32'860'01
(- 5'76,- 1'62]32'860'01
    '   '
(- 162,2 25]12'861'21
  '   '
(225,6 39]32'860'01
(6'39,11'77]22'860'26
(11'77, oo )52'861'61




Suma= 3'100
Q, bajo la hipótesis nula, sigue una chi-cuadrado con 7-1-2=4 grados de libertad, el valor = 0'541 y se acepta la hipótesis de normalidad.
Ejemplo 4.2.
“Sea la variable número diario de cancelaciones de cuentas en un banco. Se ha observado una muestra de 49 días. La tabla de frecuencias resultante es:
número de cancelacionesfrecuencia


016
123
28
32
> 40
Contrastar que la distribución es de Poisson”.
Solución.
Se estima el parámetro c por máxima verosimilitud:
^c = 1/x = 0'9184.
Se calcula la tabla de fecuencias observadas y esperadas:
averiasoiei(oi ei)2 ei




01619'56
0'648
12317'96
1'413
> 21011'48
0'190




Total4949
= 2'251
= 2'251, por tanto, el p-valor = 0'134, según una chi-cuadrado con 1 = 1 grados de libertad y se acepta la hipótesis de que la distribución es de Poisson.

Contraste Contraste de Kolmogoroff-Smirnoff
El contraste de Kolmogoroff-Smirnoff es válido para contrastar la bondad de ajuste de distribuciones continuas. En primer lugar, se define la función de distribución empírica asociada a una muestra {x1,x2,...,xn}
La Función de Distribución Empírica (Fn) es una función escalonada y no decreciente, construída a partir de la muestra, de forma que en cada observación muestral da un salto de magnitud igual a la fracción de datos iguales a ese valor (cuando no hay repeticiones se trata de saltos de amplitud 1/n).
Para calcular Fnse ordena la muestra de menor a mayor {                }
  x(1),x(2),...,x(n) y ahora se define la Función de Distribución Empírica (f.d.e.) como  
           0            si  x <
x(1)
        {  card(xj < x)
Fn(x) =    -----n------ si  x(i) < x < x(i+1) i = 1,...,n- 1
           1            si  x(n) < x
donde card(xj <
x) es el número de observaciones muestrales menores o iguales que x. 
Ejemplo 4.3
“Con los datos del Ejemplo 4.1 calcular la función de distribución empírica asociada a esta muestra”.
Solución:
Se ordena la muestra y se obtiene
Datos ordenados del Ejemplo 4.1.




















-16'6-16'0-15'4-11,0-9'1-7'6-4'5-3'9-3'3-1'6










3'23'85'87'07'212'012'012'015'716'6










Utilizando la definición de Fn (1.5 ) se obtiene,






Intervalo IFn(xi) Intervalo IFn(xi)Intervalo IFn(xi)






(- oo ,-16'6)
0'00
[-4'5,-3'9)
0'35
[7'0,7'2)
0'70






[-16'6,-16'0)
0'05
[-3'9,-3'3)
0'40
[7'2,12'0)
0'75






[-16'0,-15'4)
0'10
[-3'3,-1'6)
0'45
[12'0,15'7)
0'90






[-15'4,-11,0)
0'15
[-1'6,3'2)
0'50
[15'7,16'6)
0'95






[-11,0,-9'1)
0'20
[3'2,3'8)
0'55
[16'6, oo )
1'00






[-9'1,-7'6)
0'25
[3'8,5'8)
0'60






[-7'6,-4'5)
0'30
[5'8,7'0)
0'65






La gráfica de esta función se representa en la Figura 4.5.
Figura 4.5. Función de distribución empírica.

El contraste de Kolmogoroff-Smirnoff se basa en calcular la distancia (en norma L1) entre la función de distribución empírica y la función de distribución teórica. Por tanto, el estadístico del contraste es el siguiente
Dn = sup|Fn(x)- F(x)|,
     x (- R
que representa la máxima discrepancia, en vertical, entre la función de distribución empírica y la teórica. Siempre que la distribución (continua) de partida sea correcta, el estadístico Dn es de distribución libre (no depende de la población) y está tabulada para tamaños muestrales pequeños (en otro caso, se utilizanaproximaciones asintóticas).
El test de Kolmogoroff-Smirnoff-Lilliefors para normalidad (contraste KSL)
En la mayoría de los casos al utilizar el estadístico de Kolmogorov-Smirnov es necesario estimar los parámetros desconocidos que caracterizan a la distribución teórica. Si la distribución que se desea ajustar es una normal, hay que estimar la media y la desviación típica. En este caso, los parámetros se estiman por máxima verosimilitud y la distribución del estadístico cambia.
Ahora el estadístico del contraste es
Dn = sup|Fn(x)- P((x- x)/sX)|,
     x (- R
donde P(z) es la función de distribución de una normal estándar.
El estadístico Dn representa la máxima discrepancia, en vertical, entre la función de distribución empírica y la función de distribución de la normal ajustada (esto es, de la normal con media y varianza estimadas). La distribución de este estadístico fue tabulada por Lilliefors (contraste K-S-L) y, por tanto, es con respecto a esta tabulación (y no con respecto a la tabla de Kolmogoroff-Smirnoff) como se debe juzgar la significación del valor obtenido para este estadístico.
Ejemplo 4.4.
“Utilizar el estadístico de Kolmogorov-Smirnov-Lilliefors para contrastar si la muestra del Ejemplo 4.1. sigue una distribución normal”.
Solución.
Con los datos de la muestra se obtiene
     '               '
x = 0315  y   sX = 10 737.
Se calculan los valores muestrales tipificados y a partir de éstos se construye la tabla de discrepancias
                                         -
Dn,i = max{ |Fn(x(i))- P((x(i)- x)/sX )| ,| F n (x(i)) - P((x(i)- x)/sX)| }








x(i)(x(i)-x) sXP(      --)
  (x(i)-x)-
    sXFn(x(i))Fn - (x(i))Dn,i






-16'6-1'5750'0580'0500'0000'058






-16'0-1'5200'0640'1000'0500'036






-15'4-1'4640'0720'1500'1000'078






-11,0-1'0540'1460'2000'1500'054






-9'1-0'8770'1900'2500'2000'060






-7'6-0'7370'2310'3000'2500'069






-4'5-0'4480'3270'3500'3000'027






-3'9-0'3930'3470'4000'3500'053






-3'3-0'3370'3680'4500'4000'082






-1'6-0'1780'4290'5000'4500'071






3'2+0'2690'6060'5500'5000'106






3'8+0'3250'6270'6000'5500'077






5'8+0'5110'6950'6500'6000'095






7'0+0'6230'7330'7000'6500'083






7'2+0'6410'7390'7500'7000'039






12'0+1'0880'8620'9000'7500'112*






15'7+1'4330'9240'9500'9000'026






16'6+1'5170'9351'0000'9500'065






Dn+ = 0'082Dn- = 0'112Dn0'112






El estadístico es Dn = 0'112. De la tabla K-S-L se obtiene que el valor = 0'964Se acepta claramente la hipótesis de normalidad de la muestra.
El contraste de asimetría.
Como la distribución normal es simétrica, bajo la hipótesis de normalidad el coeficiente de asimetría (CA) poblacional toma el valor cero. Se define el coeficiente de asimetría de la muestra {x1,x2,...,xn} como sigue,
             sum
      m3-   --ni=1(xi--x)3-
CA  = s3X =      ns3X     ,
donde es la variable aleatoria en estudio, m3 al momento muestral de orden 3 respecto a la media (x) sX la desviación típica de la muestra.
Bajo la hipótesis de normalidad el CA sigue una distribución asintótica normal con media cero y varianza 6/n. Tipificando, se define el coeficiente de asimetría estandarizado (CAS)
         V~  n
CAS   =   -CA  ~ N (0,1).
          6
Para tamaños muestrales grandes ( > 50) el CAS sigue aproximadamente una distribución N(0,1) y puede ser utilizado como estadístico para contrastar la hipótesis de que la distribución de la muestra es simétrica.
El test estadístico a un nivel de significación de a rechaza la hipótesis de que “la distribución es simétrica” si
         (    a) |CAS |> Z  1 -
2  ,
donde Z(h) verifica que P(z < Z(h)) hsiendo z una variable aleatoria con distribución N(0,1).
Ejemplo 4.5.
“Con los datos del Ejemplo 4.1. utilizar el contraste de asimetría para estudiar si la distribución es simétrica”.
Solución.
Se calcula m3 -144'822, y sX = 10'737Por tanto,
                         '
     CA   =   m3- = --144822-=  -0'117 ===>
              s3X     10'7373
               V~ --      V~ ---
                n-        20-(  '   )     '
    CAS   =     6 CA =    6   -0 117  = -0 214 ===>

                      '        '
p - valor =   2P (z > 0 214) = 083
El p-valor es muy alto y se acepta la hipótesis de que la distribución es simétrica.
El contraste de apuntamiento
Este contraste sirve para contrastar la hipótesis de que el coeficiente de apuntamiento (CAp ) es cero. Propiedad que verifica la distribución normal.
Se define el coeficiente de apuntamiento o curtosis de la muestra {x1,x2,...,xn} como
                sum
      m4-      --ni=1(xi--x)4-
CAp = s4X - 3 =     ns4X      - 3,
donde m4 es el momento muestral de orden 4 respecto a la media.
Bajo la hipótesis de normalidad la distribución asintótica del CAp es  N( 24)
 0,-n. Se calcula el coeficiente de apuntamiento estandarizado como
           V~  n-
CApS  =    --CAp  ~ N (0,1).
           24
El test estadístico a un nivel de significación de a rechaza la hipótesis de que “la distribución tiene curtosis cero” si
           (   a-) |CApS |> Z 1-
2  ,
en este caso la distribución no es normal.  
Ejemplo 4.6.
“Con los datos del ejemplo 4.1. utilizar el contraste de apuntamiento para contrastar si su CAp es cero”.
Solución.
Se calcula m4 = 23.935'667. De donde,
              m         23.935'667
    CAp    =  -44 - 3 = ---'---4--- 3 = - 1'199 ===>
              sX         10 737
               V~ ---        V~ ---
   CApS    =    -n-CAp =    20-(-1'199)=  -1'095 ===>
                24          24

p - valor  =  2P (z > 1'095) = 0'274.
Se acepta la hipótesis de que la curtosis de la distribución es cero.
Los dos últimos contrastes se pueden combinar en un contraste conjunto. Para ello, se define el estadístico
d = (CAS)2 + (CApS)2
que bajo la hipótesis de normalidad se distribuye asintóticamente como una chi-cuadrado con dos grados de libertad. Por tanto, si toma valores positivos grandes (según una x2 con dos grados de libertad) se rechaza que la distribución es simétrica y/o que tiene curtosis nula y, en consecuencia, se rechaza la hipótesis de normalidad.  
Ejemplo 4.7.
“Con los datos del ejemplo 4.1, utilizar el contraste anterior para contrastar la hipótesis de normalidad”.
Solución.
En base a los datos obtenidos se deduce
Se acepta la hipótesis de que la distribución es simétrica y la curtosis es cero, por tanto, es razonable aceptar la normalidad de la muestra.

No hay comentarios:

Publicar un comentario