lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Diseños con una fuente de variación. 

 Inferencia de los parámetros del modelo.

3.5.1 Intervalos de confianza de los parámetros.

Se consideran dos situaciones:
Se acepta H0.
Si se acepta la no influencia del factor los datos provienen de una única muestra homogénea y los parámetros m s2 se estiman según las técnicas clásicas.
Para m :  Y..--m-~ tn-1.
           S^Y
(3.21)
Para s2 : (n---1) ^S2Y ~ x2 .
              s2       n-1
(3.22)
Se rechaza H0.  
Si se supone que el factor influye, entonces los parámetros del modelo son: m1,...,mI y s2Los estimadores son
              1 n sum i
m^i  =   Yi.= n-    Yij,  i = 1,...,I.
              i j=1
          1   sum I n sum i (       )
^S2R  =   -----        Yij - Yi.2.
        n - I i=1 j=1
Los intervalos de confianza se calculan a partir de las siguientes distribuciones:
Para mi = m + ai
Yi.- mi V~ --
--^----  ni ~ tn-I, i = 1,...,I,
  SR
que permite obtener el siguiente intervalo de confianza a un nivel - a (dado en (3.19 ))
           ^      (  )
m    (-  Yi.± S V~ R--tn- I  a- ,  i = 1,...,I.
  i         ni      2

Para la varianza s2 se utiliza el estadístico pivote (dado en (3.16 ))
                   ^2
Para s2 :   (n---I)-SR-= SCR-- ~ x2n- I
               s2         s2
de donde se deduce el siguiente intervalo de confianza dado en (3.17 ).
( (n-  I) ^S2  (n - I)S^2  )
  --2--(a-R)-;--2--(----Ra)
   xn-I  2-  x n-I 1 - 2-
Diferencia entre dos medias.
Si se rechaza la hipótesis nula es porque existen medias de tratamientos diferentes y es importante calcular un intervalo de confianza para el parámetro h mi -mjcon i/=j, i,j = 1,...,I. Este intervalo se deduce fácilmente del siguiente estadístico pivote
(        )  (       )
-Yi.--Yj V~ .----mi---mj- ~ t   ,
          1    1         n-I
     ^SR  n- + n--
           i    j
(3.25)
 que proporciona el siguiente intervalo de confianza a un nivel - a
                             V~ --------    (  )
              (       )   ^   -1   -1-     a-
hij = mi- mj  (-  Yi.- Yj.±  SR  ni + nj tn- I  2  .

3.5.2 Concepto de contraste.

Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el siguiente concepto:

“ Se denomina contraste, ha cualquier combinación lineal de los efectos de los tratamientos
      I               I h =  sum  ba
,  tal que  sum  b = 0”.
    i=1 i i         i=1 i
En un diseño completamente aleatorizado todo contraste es estimable y su estimador mínimo-cuadrático es

     sum I -- ^h =    biY i.
    i=1

Por la normalidad e independencia de las observaciones, se obtiene la distribución de h^
    I          ( I         I   ) ^h
=  sum  bY- ~ N   sum  b a ;s2  sum  b2i
    i=1 i i      i=1 i i   i=1 ni
(3.26)
En muchos casos es útil representar un contraste por la lista de sus coeficientes. Esto es, el contraste h se puede representar por cualquiera de las dos formas equivalentes siguientes:
      sum I h =   biai  <====>
h = [b1,b2,...,bI]
   i=1
Contrastes importantes sobre los que es interesante hacer inferencia son los siguientes:

 Comparar tratamientos a pares (“pairwise”).
Son contrastes del tipo: h = ai - aj, donde el vector de coeficientes es un en el i-ésimo lugar, un -en el j-ésimo lugar y un en el resto.
Por ejemplo, h = [0,0,1,0,...,0,-1,0] sería el contraste a3 - aI-1. Existen = (I 2) contrastes de comparaciones por pares
 
Es decir, estimar contrastes del tipo: h = ai aj, donde el vector de coeficientes es 1 en el i-éximo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.
Por ejemplo, h =[0,0,1,0,...,0,-1,0] sería el contraste a3 - aI-1Existen = (I)
 2 contrastes de comparaciones por pares.
 
 Tratamientos frente a control.
Un subconjunto de contrastes del grupo anterior muy particular es el formado por los contrastes a1 aI ([1,0,...,0,-1]), a2 aI ([0,1,...,0,-1]), ... aI-1 aI([0,0,...,1,-1]). El objetivo es comparar el efecto de cada uno de los tratamientos con un tratamiento concreto, que se suele denominar control.
 
 Diferencias de medias de grupos.
Si los niveles de los factores tratamiento se dividen de un modo natural en dos o más grupos, puede ser interesante comparar el efecto medio de un grupo con los efectos medios de otros grupos.
Por ejemplo, supóngase que se desea comparar el efecto del color del papel de examen en los resultados finales de éste. Se ha probado con dos tonos claros: blanco y amarillo (niveles 1 y 2 del factor) y con tres tonos más fuertes: azul, verde y rosa (niveles 3, 4 y 5). El siguiente contraste:
 1            1                  [1 1   1    1   1]
--(a1 + a2)- --(a3 + a4 + a5) <==>  -,--,---,- -,- --,
2            3                   2 2   3    3   3
permite observar diferencias entre la influencia del papel claro (grupo 1) con respecto a la del papel oscuro (grupo 2).
 Tendencias
Cuando los niveles del factor tratamiento son cuantitativos y tienen un orden natural, el experimentador podría estar interesado en saber si la respuesta crece o decrece con un incremento del nivel o, más aún, si esa tendencia se mantiene o no constante. Se habla entonces de contrastes de tendencia.
Por ejemplo, supóngase que hay = 5 niveles de un factor son equiespaciados y con igual tamaño muestral en cada grupo. Suponiendo α = α1 = α2 = α3= α4 = α5 el siguiente contraste indica una tendencia lineal en los niveles
- 2a1- a2 + a4 + 2a5 <==>  [- 2,-1,0,1,2]
En el mismo contexto, una tendencia cuadrática viene dada por el contraste
2a1 - a2 - 2a3-  a4 + 2a5 <==> [2,- 1,- 2,-1,2]
En general, si ^
h =  sum  = 1Ibi^ai es el estimador mínimo cuadrático de un contraste individual h =  sum  = 1Ibiai, con  sum  = 1Ibi = 0Entonces, de (3.2 6) se deduce que un intervalo de confianza para h, al nivel - a, viene dado por:
     I       (  I           (  )   ----(-I-----))-
h =  sum  b a   (-    sum  b ^a ±  t   a-   V~  Var  sum   b^a
    i=1 i i    i=1 i i   g.l 2          i=1  i i
(3.27)
donde g.l. representa los grados de libertad con que se ha estimado la varianza del error.
En el modelo del diseño completamente aleatorizado al estimar s2 por la varianza residual, S^R2, con grados de libertad, se obtiene
             (                        ---------)
     sum I         sum I           (  )     (  sum I 2)
h =    biai  (-      bi^ai ± tn-I  a-  ^SR V~      bi
    i=1         i=1             2         i=1 ni
(3.28)
    
Análogamente, utilizando la distribución del contraste h =  sum  = 1Ibiaidada en (3 .26), se pueden realizar test de hipótesis del tipo
{  H  : h =  sum I b a =  0
    0       sum Ii=1 i i
   H1 : h =  i=1biai /= 0
(3.29)

3.5.3 Contrastes múltiples.

Si el test de la de la tabla ANOVA indica rechazo de la hipótesis nula de igualdad de las medias de los niveles, es importante establecer la hipótesis alternativa adecuada y, para ello, son de gran utilidad los contrastes múltiples. En ocasiones se quiere realizar un número muy grande de comparaciones, de modo que la probabilidad de que alguna comparación individual resulte significativa puede ser erróneamente muy grande.
Si se quieren resolver todas las pruebas de hipótesis siguientes:
                 { Hij : a = a Prueba
ij :         0ij   i   j           A i,j = 1,... ,I, i /= j
                 H 1 : ai /= aj
Existen = (I) 2 =I(I--1)
  2pruebas (por ejemplo, si = 6 entonces = 15). Al resolverlas una a una, con nivel ase denomina Aij al suceso: Aij = aceptar Hij0 siendo ai = aj
Entonces:  
          ( V~ ---------)
            |-   -- |                1   1
P (Aij) = P  |Y i.- Y j.| < tn-I,a/2 ^sR   n- + n-   = 1 -a
                                     i    j
Sea el suceso: = rechazar erróneamente alguna H0ij  U ijmAij.
¿Cuál es la probabilidad de A?
Suponiendo que los Aij fuesen independientes (obviamente no lo son):
              --       ------ P (A) =
P ( U mijAij)= P ( /~\ mijAij)= 1- (1 -a)m
Si a = 0'05 = 15, entonces P(A) = 1 0'9515 = 1 0'46 = 0'54.
Por tanto, la probabilidad de concluir erróneamente que algún par de tratamientos son significativamente distintos es mayor que 0'54.
Hay distintos métodos para abordar el problema de la resolución de pruebas de hipótesis simultáneas (es decir, garantizando para todos ellas un nivel de significación predeterminado). Unos han sido desarrollados con carácter general y otros orientados a problemas concretos como puede ser la comparación de distintos tratamientos con un tratamiento control.
A continuación se exponen dos métodos de resolución de contrastes múltiples.
Método de Bonferroni.
Se basa en calcular un nivel de significación, a*, para cada una de las pruebas de hipótesis que garantice un nivel de significación concreto a para todas las pruebas de hipótesis simultáneas (a es por tanto el nivel de significación global).
Supóngase que se tienen niveles y pruebas de hipótesis individuales. Sean los sucesos:
   Ak aceptar la hipótesis nula del contraste k-ésimo cuando ésta es cierta”.
    “rechazar erróneamente la hipótesis nula de uno o más contrastes”.
¿Qué a* habrá que utilizar en cada prueba de hipótesis individual para garantizar que P(Ano es mayor que a?

                      m
P (A) =  P (U  m A- )<   sum  P(A- ) = ma*=  a ===>  a*=  a-
            k=1  k           k                     m
                      k=1
(3.29)
Por tanto, para el modelo matemático de un diseño completamente aleatorizado, el método de Bonferroni consiste en resolver cada prueba de hipótesis individual conforme al siguiente criterio:

Dado un conjunto de m contrastes { sum I
j  }
   i=1biai= 1m, rechazar la hipótesis H0j :  sum  = 1Ibijai = 0, a un nivel de significación global no superior a a,siempre que 

                      ------(--)- || sum
I    ||      (   )      sum I bj 2 ||   bjiyi.||> tn- I -a-  V~
^s2R   --i-- |i=1     |       2m       i=1  ni
(3.30)

Ventajas y desventajas de este procedimiento son las siguientes:
• Si es muy grande, -a- 2m será tan pequeño que tn-I( a-)
  2m no viene en las tablas. Se puede aproximar por:  
                  (            )
    ( a  )    (a)      z(a )+ 1 - 1
tn-I  2m- = z  2-  1 - 4(2n--I)-
donde z(a)
 2 es el valor de una normal estandar tal que P(Z > z (a))
        2 = a
 2.
 Es método es excesivamente conservador y sólo resulta más potente que otros procedimientos cuando es muy pequeño.
 Es válido para cualquier tipo de diseño.
Método de Scheffé.
El método de Bonferroni presenta serios inconvenientes, en particular, si es muy grande la mínima diferencia significativa al nivel global a para cada prueba es excesivamente grande.
Por el contrario, el método de Scheffé proporciona una mínima diferencia significativa que no depende del número de pruebas a realizar.
El valor crítico de Scheffé es  
      V~ ------------------ wS =
(I- 1)FI-1,n-I (a),
de modo que, para cualquier contraste individual  sum  = 1Ibiai se rechaza la hipótesis H0 : sum  = 1Ibiai = 0, a un nivel de significación global no superior a a, siempre que  
|       |                      --------
|| sum I    ||   V~ -----------------     sum I b2i || biyi.||>
(I - 1)FI-1,n-1(a) V~  ^s2R   n-
 i=1                              i=1  i
(3.31)
Sobre el método de Scheffé conviene saber que
 Sólo depende de y de n, pero no de m.
 Es especialmente adecuado cuando se precisen comparar otros contrastes además de las comparaciones a pares.
 Si es muy grande, resulta más potente (y por ello más recomendable) que el método de Bonferroni.
 Es válido para cualquier tipo de diseño.
 El F-test del ANOVA resulta significativo al nivel a si al menos una de las infinitas pruebas de hipótesis simultáneas de Scheffé lo es.
Otros métodos de contrastes múltiples son los siguientes:
— Método de Tukey para todas las comparaciones a pares.
— Método de Dunnett para comparaciones entre tratamientos y control.
— LSD (Least Significative Difference) de Fisher.
— Test de rango múltiple de Duncan.
— Test de Newman y Keuls.

— Test de Hsu (es muy útil para comparar cada tratamiento con el mejor).

No hay comentarios:

Publicar un comentario