lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Diseños con una fuente de variación. 

 Introducción.

Como ya se indicó en el capítulo previo el diseño de experimentos estudia la forma de realizar comparaciones lo más homogéneas posibles que permitan detectar cambios en el proceso de interés e identificar los factores influyentes.
En este contexto el problema más sencillo que se puede presentar es el de detectar la influencia de un factor que tiene dos niveles en una variable de interés (diseño de experimentos con un factor a dos niveles). Este problema es exactamente el mismo que el problema de comparar las medias de dos poblaciones.Problema que bajo la hipótesis de normalidad de las poblaciones se resuelve por el contraste de la t. La generalización de este problema es contrastar la igualdad de las medias de los  niveles de un factor, esto es, estudiar la influencia de un factor con  niveles en la variable de interés.
Para resolver este problema se utiliza la técnica del Análisis DE la VArianza: ADEVA (en inglés, ANalysis Of VAriance: ANOVA) introducida por R. A. Fisher en los años treinta. El análisis de la varianza es la herramienta fundamental para el estudio de una variable de interés a partir de observaciones que dependen de varios factores.
El ANOVA es la herramienta básica para el análisis de los modelos estadísticos de Diseño de Experimentos y Regresión Lineal, porquepermite descomponer la variablidad de un experimento en componentes independientes que pueden asignarse a diferentes causas.

En este capítulo se estudia el diseño de experimentos más simple: el  diseño completamente aleatorizado. Este modelo de diseño tiene un único factor con I niveles y las unidades experimentales se asignan al azar a los tratamientos. En este modelo los tratamientos son los niveles del factor y no se incluyen factores bloque.
Un procedimiento sencillo para aleatorizar un diseño completamente aleatorizado es el siguiente: se denota
  ni:  el número de observaciones que recibirán el i-ésimo tratamiento,
  I:  el número total de tratamientos,
  =  sum  = 1Ini : el número total de observaciones.
Se codifican los tratamientos de y se etiquetan las unidades experimentales de n. Se siguen los siguientes pasos:

Paso 1:
Crear una columna con n1 unos, n2 doses,...., nI I’es; los valores de esta columna representan a los tratamientos.
Paso 2:
Crear una segunda columna con números aleatorios (uniformes en [0,1]) con dígitos suficientes para evitar empates.
Paso 3:
Reordenar simultánemente ambas columnas de modo que los números aleatorios se ordenen en forma ascendente. De esta forma se consigue que las etiquetas de los tratamientos estén en orden aleatorio.
Paso 4:
Asignar la unidad experimental al tratamiento cuya etiqueta esté en la fila t.


 Modelo matemático del diseño completamente aleatorizado.

Se denota
Yit la variable aleatoria que representa el valor de la respuesta en la t-ésima observación del i-ésimo tratamiento. En adelante se utilizará la notación Y itpara referise a la variable e yit para referirse a una observación concreta.
mi: la respuesta real del i-ésimo tratamiento. Es decir, a la respuesta que se obtendría siempre con el i-ésimo tratamiento si se ejecutase el experimento en,exactamente, las mismas condiciones.
eit la variable aleatoria que representa la distancia de la t-ésima observación del i-ésimo tratamiento a su valor real. Por tanto eit agrupa la contribución de las fuentes de variación menores y no planificadas. Esta variable se denomina error error experimental.
Para cada = 1,...,ni= 1,...,I, el modelo matemático del diseño es:
         determínista
  Yit  =     mi   +   eit,

aleatorio              aleatorio
(3.1)
Si en este modelo se denota
mi =  m + ai,i = 1,...,I,
se obtiene la siguiente forma alternativa del modelo
         determínista
            ----
  Yit  =   m+ ai  +   eit,
aleatorio              aleatorio
(3.2)
m es una constante que representa la respuesta media de la variable Y, y ai representa la variación (positiva o negativa) de la media del nivel respecto a la media de la respuesta: a i = mi - m. Los parámetros ai se llaman efectos.Examinar las diferencias entre niveles equivale a examinar las diferencias entre los parámetros mi en el modelo (1.1 ) o entre los parámetros ai en el modelo (1.2 ):
mi - mk = ai- ak,   i,k = 1,...,I.


Si se utiliza el segundo modelo, se exige la condición:
 I
 sum   na  = 0.
i=1  i i
(3.3)
Si hay el mismo número de datos en cada nivel (n1 = n2 = ...= nI = m), esta condición es
 I
 sum
   ai = 0,
i=1
(3.4)
El modelo (3.1) es un modelo lineal. En su estudio se suponen las siguientes hipótesis:
  1. La varianza es de la respuesta es constante (homocedasticidad),
                 2
V ar (Yij) = s ,  j = 1,...,ni, i = 1,...,I,
    equivalentemente, V ar(eij) = s2, j = 1,...,ni, i = 1,...,I.
  2. La distribución de la respuesta es normal,
           (        2)
Yij ~ N  m + ai,s   ,  j = 1,...,ni, i = 1,...,I,
    equivalentemente, eij N(0,s2), j = 1,...,ni, i = 1,...,I.
  3. Las observaciones Y ij son independientes. Bajo las hipótesis de normalidad, esto equivale a que Cov(Y ij,Y kh) = 0si i/=j/=h.
    En función de los errores esta hipótesis es “los eij son independientes”, que bajo normalidad, equivale a que Cov(e ;e  )
  ij  kh = 0si i/=j/=h.
En resumen,
        (        2)
Yij ~ N  m + ai,s     A i,j, son independientes
          (    )       ,||^ 
   eij ~ N  0,s2     A i,j, son independientes
El siguiente ejemplo ayuda a entender el modelo de diseño de experimentos completamente aleatorizado.
Ejemplo 3.1.
“Una empresa desea estudiar la productividad media por hora en el montaje de un mecanismo electrónico en las tres fábricas que tiene: FA, FB y FC. Para ello se ha tomado una muestra de la productividad por hora en cada fábrica. La recogida de datos se ha aleatorizado y nada presupone que existan factores con influencia en los resultados obtenidos.” (Este ejemplo se desarrolla en la sección 3.6.)
Planteamiento del problema.
Se está interesado en saber si en la “variable de interés” influye el “factor” en estudio. Esto es, se quiere contrastar si la media de la productividad de montaje es la misma en las tres fábricas.
Variable de interés: productividad media por hora en el montaje de un mecanismo electrónico.
Factor:  fábrica en la que se realiza el montaje. El factor en estudio tiene tres niveles: FA, FB, FC.
Hipótesis del estudio:
• Las tres muestras son muestras aleatorias simples de las correspondientes poblaciones.
• La productividad de las tres fábricas siguen una distribución normal.
• La productividad de las tres fábricas tienen la misma varianza.

Estimación de los parámetros.

En el modelo matemático (3.1) hay + 1 parámetros a estimar:
m1,m2,...,mI y s2.
Análogamente, en el modelo (3.2) hay + 1 parámetros a estimar:
m, a ,a ,...,a    y s2,
    1  2      I-1
el parámetro aI se deduce de la condición (3.3).
Los parámetros del modelo se estiman por el método de máxima-verosimilitud que bajo la hipótesis de normalidad es equivalente a obtenerlos por el método de mínimos cuadrados.

3.3.1 Estimadores por máxima-verosimilitud.

De la hipótesis de normalidad se sigue que
 {              }
        (    2)            --1----       1(yij--mi)2
Yij ~ N  mi,s  ==>  f (yij) =  V~ 2ps2 exp  - 2    s2      .   i,j
La función de verosimilitud es
 {              }
 (    2)    prod          (   2)- n/2  prod         1(yij--mi)2
l m, s  =     f (yij) = 2ps          exp  - 2    s2      .
           i,j                    i,j
Tomando logaritmos neperianos se obtiene la función soporte
  (   2)      (    2)     n-  ( 2)
-1-- sum I  sum ni       2 L  m,s   = lnl m,s   = - 2 ln  s   -
2s2       (yij- mi) ,
                                        i=1 j=1
para obtener el máximo de la función L( 2)
 m,s se deriva la misma respecto a mi y s2 y se iguala a cero, de donde se obtienen (I + 1) ecuaciones, cuya resolución proporciona los siguientes estimadores:
                ni ^m     = y  = 1-
sum  y ,  i = 1,...,I.
 i;MV     i.  ni     ij
                j=1
(3.5)
          sum I  sum ni sum I (  )
^s2MV  = 1-       (yij- yi.)2 =      ni  s2i.
       n i=1j=1             i=1  n
(3.6)
donde si2 es la varianza de los resultados del nivel i,
        sum ni            (    sum ni  )
s2i = 1-   (yij- yi.)2 =  -1    y2ij  - (yi.)2
     nij=1              ni j=1
En la práctica el estimador ^sMV 2 no se suele utilizar porque es sesgado
  (     )
E  ^s2MV  =  --n--s2 /= s2.
            n - I

 

3.3.2 Estimadores por mínimo-cuadráticos.

Un método alternativo de estimación de los parámetros es el método de estimación mínimo cuadrática, que consiste en seleccionar como estimadores los valores de los parámetros que minimizan la suma de los cuadrados de los errores. Esto es, se trata de seleccionar valores ^m 1,...,m^I que minimicen la siguiente función de Ivariables:
                sum I n sum i 2
sum I  sum ni Y (m1, ... ,mI) =       (yit - mi) = e2it,
                i=1 t=1            i=1 t=1
por tanto se quiere calcular ^m1,...,^mI  tales que

                   sum I n sum i
Y (^m1,...,^mI)  =         (yij-  ^mi)2
                   i=1 j=1
                          I ni
               =    min   sum   sum  (y  - m )2 =  min  Y (m ,...,m ).
                  m1,...,mI i=1 j=1   ij    i    m1,...,mI    1      I
El problema de minimización anterior conduce a un sistema de ecuaciones (denominadas ecuaciones normales) cuyas soluciones únicas son para cada ^mi = m^ + ^ai,
                n
             1- sum  i
^mi;mc = yi.=  ni   yij,  i = 1,...,I.
               j=1
(3.7)
Por tanto, los estimadores que se utilizarán son los siguientes
             sum ni ^mi = yi.=-1
yij,  i = 1,...,I.
         ni j=1
(3.8)
Si se utiliza el modelo (3.2), los estimadores son
        I  ni ^m =  1- sum    sum y
= y-
     n         it   ..
       i=1 t=1
(3.9)
a^ = y- - y-, i = 1,... ,I
  i   i.   ..
(3.10)
La bondad de los estimadores mínimo-cuadráticos la establece un resultado clave en los problemas de modelización lineal estadística, el Teorema de Gauss-Markov, según el cual,
“Para todo modelo lineal con errores normales, independientes y varianza común s2, los estimadores mínimo-cuadráticos son únicos, insesgados y de varianza mínima”.
En base a las hipótesis del modelo es fácil deducir que la distribución de los estimadores dados (3.8) es la siguiente
            (     2) ^m  = y  ~ N m
, s--
 i    i.        i ni
(3.11)

3.3.3 Estimación puntual de la varianza.

En cualquier modelo estadístico, se denomina residuo a la diferencia entre un valor observado y el valor previsto por el modelo. Esto es,
  e  =      y      -          ^y.

residuo  valor observado valor previsto por el modelo
(3.12)
En el modelo actual, para todo  = 1,...,ni  e = 1,...,I se tiene:
eij = yij- ^yij = yij- ^mi, j = 1,...,ni; i = 1,...,I,
(3.13)
con ^mi los estimadores mínimo-cuadráticos dados (3.8).
En el modelo de diseño de experimentos completamente aleatorizado hay =  sum  = 1Ini residuos eijExisten las siguientes relaciones entre ellos
n sum i      n sum i
   eij =    (yij - yi.) = 0,  i = 1,...,I.
j=1      j=1
Por ello se dice que los residuos del modelo tienen grados de libertad.
A partir de los residuos se obtiene la suma de residuos al cuadrado, suma de cuadrados residual variabilidad no explicada (scR), dada por
       I  ni       I  ni
scR =   sum   sum  e2 =  sum   sum  (y  - y )2.
       i=1 j=1  ij   i=1j=1  ij   i.
(3.14)
    El valor concreto scR  es una realización particular de la variable aleatoria SCR (el resultado que se obtiene a partir de la muestra seleccionada) 
    El valor concreto scR  es una realización particular de la variable aleatoria SCR. Esta variable es,
        sum I  sum ni(    --)2
SCR  =        Yij - Yi.  .
       i=1j=1

Un sencillo cálculo algebraico permite obtener la relación: 
        sum I n sum i (     -- )2   I sum          ^2
SCR  =         Yij- Y i.  =     (ni - 1)Si,
       i=1j=1               i=1
con ^Si2 la varianza muestral corregida del i-ésimo tratamiento,
            I ni (        )
^S2 = --1--  sum   sum   Yij- Y-i. 2 = n---1S2.
 i   n - 1 i=1 j=1                n   i

Como  ^ Si2 es un estimador insesgado de la varianza del error s2, el valor esperado de SCR es:
            I           (  ) E(SCR)
=  sum  (n  - 1)E  ^S2  = (n - I)s2.
                i         i
           i=1
Por tanto, un estimador insesgado de s2 es: 
                              sum I n sum i (    -- )2
^S2R = SCM   R = SCR-- = --1--        Yij- Y i. .
               n - I   n - I i=1 j=1
(3.15)
que se denomina, indistintamente, varianza residual error cuadrático medio varianza dentro de los tratamientos.
De las hipótesis del modelo se deduce que
        2 (n---I) ^SR-= SCR--~ x2 .
    s2        s2      n-I
(3.16)
Intervalos de confianza para los parámetros del modelo.
A partir de la distribución dada en (3.16) se puede calcular un intervalo de confianza al (1 - apara la varianza s2 del modelo. Este intervalo viene dado por:
( (n - I) ^S2  (n - I) ^S2 )   (   SCR        SCR     )
  --2---(aR)-;-2---(---Ra-)  =   -2---(a);--2--(----a)  ,
   xn-I  2   xn-I  1-  2       xn-I  2  x n-I 1-  2
(3.17)
donde xn-I2(h) es un número que verifica que P(     2     )
 q < xn- I (h) = hsiendo q una variable aleatoria con distribución chi-cuadrado con grados de libertad.
El intervalo dado en (3.17 ) no es simétrico. En algunos casos también se utiliza el siguiente intervalo de confianza
(               )
     -(n---I)S^2R--
  0; x2  (1 - a)  .
      n-I
Los intervalos de confianza de mi se obtienen a partir de la distribución dada en (3.11 ). Dado que se desconoce el parámetro s2de (3.11 ) y (3.16 ) se deduce que
             --
^mi--mi V~ n- = Y-i.--mi V~ n- ~ t   .
  ^SR     i     S^R      i    n-I
(3.18)
Que permite calcular el siguiente intervalo de confianza simétrico de mi al (1 - a)
(                                            )
      S^R      (    a )       ^SR      (    a )
 ^mi-   V~ --tn- I 1 - -- ; ^mi +  V~ -tn-I  1 - --   ,
        ni         2          ni          2
(3.19)
donde tn-I(h) es un número que verifica que P(z < t   (h))
     n- I = hsiendo z una variable aleatoria con distribución con grados de libertad.

No hay comentarios:

Publicar un comentario