lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Diseños con una fuente de variación. 

 Análisis de la varianza de una vía.

3.4.1 Idea general.

El problema básico es contrastar la hipótesis nula de que el factor no influye en la variable de interés,
H    =_    m =  m = ...=  m =  m
  0      1    2         I
o equivalentemente
  ' H 0  =_   a1 = a2 = ...= aI = 0
frente a la alternativa de que el factor si influye. Esto es, existen diferencias entre los valores medios de los distintos tratamientos,
H1  =_  Existe i,j, i /= j, tales
que, mi /= mj
La idea básica del test análisis de la varianza es comparar:
* la suma de cuadrados residual bajo el modelo matemático cuando H1 es cierto, (modelo completo),
* con la suma de cuadrados residual del modelo que resulta cuando H0 es cierto (modelo reducido).
Es decir:
                    0       0                  (   2)
        { Yit = m+ eij, con eij i.i.d. según una N 0,s  A i,j
   H0 :
                              (modelo reducido)
{

                                                (    )
        { Yit = mi + eij, con eij i.i.d. según una N 0,s2   A i,j
   H1 :
                              (modelo completo)
Si H0 es cierto, el único parámetro de medias es m que se estima por
        sum I  sum ni
y..= -1       yij.
     n i=1j=1
Por tanto, la suma de cuadrados residual del modelo reducido (H0es:
        sum I n sum i
scR0 =        (yij - y..)2.
       i=1 j=1
Se verifica que
Si H0 es falsa y al menos dos efectos tratamiento difieren, la suma de cuadrados residual scR bajo el modelo completo es considerablemente más pequeña que la suma de cuadrados residual del modelo reducido scR0. Por el contrario, si H0 es cierta ambas serán muy similares. 
                         sum I n sum i      -- 2   I sum   n sum i      -- 2
{ H0  cierto  ==>   scR0 =       (yij - y..)  - ~       (yij- yi.)  = scR    }
                        i= sum 1I jn sum =i1            i=1 sum jI=1 sum ni
  H1  cierto  ==>   scR0 =       (yij - y..)2 > >      (yij - yi.)2 = scR.
                        i=1 j=1              i=1 j=1

 La cantidad
scT = scR0 - scR > 0,
se denomina indistintamente variabilidad explicada suma de cuadrados entre tratamientos suma de cuadrados explicada (por diferencias entretratamientos).
El valor scT es grande si se rechaza H0pero no se puede utilizar como medida de discrepancia del contraste porque es dimensionada (tiene las unidades de ). Por ello se utiliza como estadístico del contraste el cociente entre scT scR.
Si scT es grande en relación a scR se rechaza H0.

3.4.2 Descomposición de la variabilidad.

Teniendo en cuenta que:
 yit- y..=  (yij- yi.)+ (yi.- y..) ,  j = 1,...,ni; i = 1,...,I,
elevando al cuadrado se obtiene

    Suma  de           Suma   de          Suma   de
   Cuadrados          Cuadrados          Cuadrados

 -Global (scG)--    Explicada-(scT)    Residual-(scR)-
 sum I n sum i               sum I                I sum   n sum i
       (yij-  y..)2 =     ni (yi.- y..)2 +        (yij-  yi.)2
 i=1 j=1              i=1                i=1 j=1
 ------- -------    ----g.l.=I-1----    ------- -------
     g.l.= n-1                               g.l.= n-I
este resultado es debido a que se anulan los dobles productos que aparecen al elevar al cuadrado. Los grados de libertad de estos términos son:
• 1 es el número de grados de libertad de scG, porque hay observaciones relacionadas por la ecuación  sum  = 1I  sum  j = 1ni(yij- y..) = 0.
 
• 1 es el número de grados de libertad de scT, porque hay efectos de los tratamientos relacionados por la ecuación  sum  = 1Ini(yi.-  y..) =  sum  = 1Ini^ai = 0.
 
• I es el número de grados de libertad de scR, porque hay residuos relacionados por las ecuaciones 
 sum  = 1I sum  = 1ni(yij- yi.) =  sum  = 1I sum  = 1nieij = 0, i = 1,...,I.
Dividiendo las sumas de cuadrados por los correspondientes grados de libertad se obtienen tres estimaciones distintas de s2:
                  I  ni
^s2 = ^s2 =   --1-- sum   sum   (yij- y..)2  = scmG   (varianza total),
 1    Y     n - 1i=1j=1

                   I
   ^s2=       -1--- sum  n (y  - y )2   = scmT   (varianza explicada),
    2        I- 1 i=1  i  i.   ..

                  I  ni
^s2 = ^s2 =   --1-- sum   sum  (y  - y )2  = scmR   (varianza residual).
 3    R     n-  Ii=1j=1  ij   i.
Si H0 (las medias son iguales) es cierta, se verifica que

SCM---T ~ x2I-1.
   s2
Por tanto, 
       SCM   T/s2    SCM  T
F |H0= ----------2 = -------~  FI-1,n- I.
       SCM   R/s     SCM  R
(3.20)
Utilizando (3.20), como estadístico del contraste puede utilizarse 
Se rechaza H0 al nivel de significación a si
     ^s22    scmT F^ = ^s2-=
scmR---> FI-1,n- I (1- a) .
      3
Comentarios.
  1. Si el test resulta significativo (se rechaza H0, por tanto, el factor es influyente) se deberá estudiar entre qué tratamientos existen diferencias significativas.
  2. Una medida relativa de la variabilidad explicada por el factor es el coeficiente de determinación, definido como
    R2 = scT-.
     scG
    (3.21)
  3. Si de desea aumentar la precisión del contraste, puede hacerse de dos formas:
    1. Reducir s2 (el error experimental) introduciendo nuevos factores.
    2. Aumentar el tamaño muestral en cada grupo.
  4. En algunos textos se utiliza la siguiente notación: scG V T (Variabilidad Total), scT V E (Variabilidad Explicada), scR V NE (Variabilidad No Explicada).
  5. En general, sea cierta o no la hipótesis nula, se verifica que
    E
(SCM   T) = s2 + Q(ai),
    siendo
                        (               )2
          1    sum I          1  sum I
Q(ai) =  I--1-    ni  ai- n-    njaj
              i=1            j=1
    (3.22)

CUADRO DEL ANÁLISIS DE LA VARIANZA
— UNA VÍA – FACTOR FIJO –
Fuente de
Variación
Suma de
Cuadrados
g.l.
scm
F^
(
Tratamientos
=
 sum
 
1
=
 scT
-----
I-  1
 
 scmT
------
scmR s2 Q(ai)
Residual
=
 sum
I
=
-scR--
n - I
  
Global
=
 sum
 
1scmG  =
  scG--
  n - 1    
                    (               )2
           1   sum I         1  sum I
Q(ai) =  -----   ni  ai - --   njaj
         I- 1 i=1         n j=1
Rechazar H0 ai aj  A i,j en base al p-valor       (^            )
p = P  F  > FI-1,n- I
Coeficiente de Determinación: R2 = scT-
scG

 Cuadro 1.1: Cuadro del análisis de la varianza para un diseño completamente aleatorizado de efectos fijos.

No hay comentarios:

Publicar un comentario