lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Diseño de experimentos clásicos

Modelos de dos factores-tratamiento.

Se continua trabajando con el diseño completamente aleatorizado con dos factores tratamiento Ta y Tb con niveles, respectivamente, y se supone que las interacciones entre ambos factores son no nulas. Como se explicó en la sección anterior para poder estimar este modelo es necesario replicar el experimento. Si se replica veces el experimento se tienen unidades experimentales en cada casilla (tratamiento) ij.

5.4.1 Modelo matemático.

El modelo matemático asociado al diseño de dos factores-tratamiento con interacción y replicado es el siguiente:
Para cada = 1,...,I= 1,...,J= 1,...,K se tiene el siguiente modelo:  
          ---determinista---
 Yijk  = m + ai + bj+(ab)ij + eijk  ,  A i,j,k.

aleatorio                       aleatorio
con  eijk  v.a. independientes con distribución N(    )
 0,s2.
(5.22)
Donde,
bulletY ijk es el resultado del tratamiento i-ésimo, = 1,2,...,I del factor Ta y del tratamiento j-ésimo, = 1,2,...,ni del factor Tben la replicación t-ésima, = 1,...,K.
bulletm es el efecto global que mide el nivel medio de todos los resultados,
bulletai es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel del factor Ta. Se verifica que  sum  = 1Iai = 0,
bulletbj es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel del factor Tb. Se verifica que  sum  = 1Jbi = 0,
bullet(ab)ij representa la interacción y es el efecto extra (positivo o negativo) sobre la respuesta debido a que se observan conjuntamente los niveles de los factores Ta y Tb respectivamente. Mide la desviación de las medias de la hipótesis de aditividad de los efectos y viene definida por:
(ab)  = E(y ) - m- a - b
    ij      ij       i   j
Se verifica que  sum  = 1I(ab)ij =  sum  = 1J(ab)ij = 0, para = 1,...,I= 1,...,J.
bulleteijk es el error experimental o perturbación, son variables aleatorias independientes idénticamente distribuidas (i.i.d.) con distribución N(    )
 0,s2.
Por tanto, los parámetros de este modelo son


ParámetrosNúmero


m1


ai1


bj1


(ab)ij(I -1)(J- 1)


s21


TotalIJ + 1


Siendo IJK el número de observaciones.
El modelo (5.22)de diseño de experimentos con dos factores tratamiento con interación se conoce como modelo completo de dos vías modelo de análisis de lavarianza de dos vías.
Si, ocasionalmente, experimentos similares previos o hechos científicos contrastados garantizan con una razonable seguridad que ambos factores no interaccionan, el experimento se modeliza a través de:
          determinista
  Yijt  = m + ai + bj +  eijt     A i,j,k.

aleatorio               aleatorio
con  eijk  v.a. independientes con distribución N(    )
 0,s2.
(5.23)
El modelo (5.23) es un “submodelo” del modelo completo de dos vías y se denomina modelo de efectos principales de dos vías modelo aditivo de dos vías dado que el efecto sobre la respuesta del tratamiento ij se modeliza como la suma de los efectos individuales de cada factor. Es importante
Usar el modelo de efectos principales sólo cuando se tiene la certeza de que no existe interacción entre los factores.

Si no se tiene un conocimiento razonable acerca de la interacción debe seleccionarse un modelo completo. El motivo es que la inferencia sobre los efectos principales cuando no se ha considerado interacción erróneamente puede ser confusa ya que se está  incrementando artificialmente el error experimental.
La estrategia a seguir es:
  1. Si se sospecha que hay interacción, en primer lugar, se contrasta el efecto de la interacción en un modelo completo de dos vías.
  2. Si no resulta significativa, se continúa con el análisis examinando los efectos principales en el mismo modelo. No es conveniente cambiar al modelo de efectos principales salvo que se esté muy seguro de la no existencia de interacción.
  3. Si resulta significativo el efecto interacción, entonces los contrastes sobre los efectos individuales no son válidos. Si son significativos los contrastes sobre los efectos individuales, los resultados pueden darse por válidos. Pero si los contrastes son no significativos, los resultados no tienen porque ser correctos.
    Si el efecto interacción es significativo, generalmente es preferible pasar a un modelo de una vía donde los niveles son todas las combinaciones de niveles y examinar así sus posibles diferencias.
    Otra posibilidad es examinar las diferencias entre niveles de un factor manteniendo fijos los niveles del otro. En este caso las conclusiones son correctas para la situación concreta estudiada.

5.4.2 Estimación de los parámetros.

Los parámetros del modelo se obtienen por mínimos cuadrados, técnica que se basa en minimizar la suma de los cuadrados de los residuos.
  (           )     1   sum I  sum
J K sum  (     (               ))2 Y  ^m, ^ai, ^bj,abij =---- Yijk
-  ^m- ^ai- b^j - abij
                  IJK  i=1 j=1 k=1
(5.24)
proporciona los siguientes estimadores:
           1   sum I J sum  K sum
^m = Y...= IJK-          Yijk,
              i=1 j=1 k=1
 sum J  sum K ^ai = Yi..- Y...,  i
= 1,...,I. con  Yi..= -1- Yijk,
                                     JK j=1k=1
 I K ^b = Y   - Y ,  j = 1,...,J.
con  Y  = -1-  sum   sum  Y  ,
 j    .j.   ...                    .j.  IK  i=1 k=1  ijk
 sum K (ab)  = Yij..- Yi..- Y.j.+
Y...,  i = 1,...,I, j = 1,...,J,con Yij.=  1-   Yijk,
    ij                                                         K k=1
donde y ij. es la media de las observaciones de la casilla ij. El resto de los términos tiene la interpretación habitual.
La predicción de la casilla ij es la media de los valores de la casilla, por tanto:
^Yij = ^m + ^ai + ^bj + (ab)ij =
Yij., i = 1,...,I, j = 1,...,J.
(5.25)
Los residuos, diferencia entre lo observado y la predicción,
eijk = yijk - yij.
Los residuos verifican la siguiente restricción (la suma de los residuos en cada casilla es cero)
 sum K
   eijk = 0, i = 1,...,I,  j = 1,...,J,
k=1
por tanto, en cada casilla hay (K - 1) residuos independientes y el número de grados de libertad es: (K - 1)IJ. Al igual que en los modelos estudiados previamente se utiliza la varianza residual como estimador de la varianza. Este estimador viene dado por
         1      sum I  sum J  sum K
SCR s^2R = ----------         e2ijk = -------------
     (K - 1)IJ i=1j=1k=1      (I- 1)(J -1)
(5.26)

5.4.3 Descomposición de la variabilidad

La suma de cuadrados global se puede descomponer de la forma:

Suma   de cuadrados           Suma  de cuadrados
    Global (scG)           Explicada por Ta (scT a)
--------------------           -------- --------
 sum I  sum J  sum K     --  2              sum I --   --  2
          (yijk- y...)  =       JK     (yi..- y...)
i=1-j=1k=1-----------       -------i=1-- ------------
     g.l.= IJK-1                     g.l.=I-1

                                Suma  de cuadrados
                              Explicada por Tb (scTb)
                                 -------- --------
                                     sum J (        )2
                          +     IK       y.j.- y...
                                    j=1
                             ---------g.l.= J-1---------

                                Suma   de cuadrados

                           -Explicada-por interac.(scab)-
                              sum I  sum J (                 )2
                      +   K         yijk- yi..- y.j.+ y...
                             i=1j=1
                           -------------- --------------
                                   g.l.=(I-1)(J-1)

                              Suma   de cuadrados
                                 Residual (scR)
                             -I--J--K--  ----------
                          +   sum   sum    sum  (y   - y- )2
                             i=1j=1      ijk    ij.
                             -------k=1-  ----------
                                  g.l.=IJ(K- 1)

esto es,
 sum I  sum J  sum K sum I
sum J        sum I  sum J      sum I  sum J  sum K
         (yijk- y..)2 = JK    ^a2i + IK   ^b2j + K       abij +         e2ij,
i=1 j=1k=1                i=1        j=1       i=1 j=1       i=1
j=1k=1
Escrito de otra forma:scG = scA + scB + scAB  + scR
de donde se deduce la siguiente tabla ANOVA  
CUADRO DEL ANÁLISIS DE LA VARIANZA
— MODELO COMPLETO DE DOS VÍAS —
Fuente de
Variación
Suma de
Cuadrados
g.l.
scm
F^
Factor F.Ta
=
 sum
I-1
=
(scTa) / (I-1)
F^  a 
(scmTa) /(scmR)
Factor F.Tb
=
 sum
1
=
(scTb) / (J-1) 
F^  b 
(scmTb) /(scmR)
Inter. ab
=
 sum
(-1)(-1)
=
(xcab) / ((I-1)(J-1))
F^  ab = 
(scmTab) /(scmR)
Residual
=
 sum
IJ(1)
=
   scR
IJ(K---1)-
 
Global
=
 sum
IJK 1
=
--scG---
IJK  - 1
 
-
Si se acepta H0 (ab)entonces
Rechazar H0(a) a1 a2 = ... aI, según P(F^  a <(                     )
  scmA--> F
  scmR      I- 1,IJ(K -1))
Rechazar H0(b) b1 b2 = ... bJ, según (F^  b < P(                     )
  scmA--> F
  scmR      I- 1,IJ(K -1))
Si se rechaza H0(ab) entonces considerar el modelo de una vía: Y ijt mij eijt
Tabla 5.2. Cuadro del análisis de la varianza para un diseño completamente aleatorizado y balanceado de dos factores de efectos fijos (modelo completo).
De este cuadro se deducen los siguientes contrastes: 
bulletSi la hipótesis nula H0(ab) (ab)ij = 0 A i,j (la interacción no influye) es cierta, se verifica que
SCM  AB     2                 SCM AB
---s2--- ~ x(I-1)(J-1) ==> FAB = SCM--R--~ F(I-1)(J-1),IJ(K -1),
(5.27)
se rechaza H0ab al nivel de significación a si F^ab > ^F(I-1)(J-1),IJ(K-1)(1 - a). 
Si se acepta la hipótesis H0(ab) entonces puede contrastarse la influencia de los dos factores.
bulletSi la hipótesis nula H0(a)  a1 a2 = ... aI = 0, (el factor Ta no influye) es cierta, se verifica que
SCM2-A-~ x2I-1 ==> FA = SCM--A-~
F(I-1),IJ(K -1),
  s                  SCM  R
(5.28)
se rechaza H0(a) al nivel de significación a si F^a = ( (scmTa) /(scmR) ) > ^F(I-1),IJ(K -1)(1 - a).
bulletSi la hipótesis nula H0(b) b1 b2 = ... bJ = 0, (el factor Tb no influye) es cierta, se verifica que
SCM  B               SCM  B
---2---~ x2J-1 ==> FB = ------- ~ F(J- 1),IJ(K-1),
  s                   SCM R
(5.29)
se rechazaH0(b) al nivel de significación a si F^b = ( (scmTb) /(scmR) ) > F^(J- 1),IJ(K-1)(1- a).
La tabla ANOVA asociada al modelo de efectos principales de dos vías (sin interacción y con replicación)  

Yijk  =   m + ai + bj+eijk
   i =   1,...,I,j = 1,...,J,k = 1,...,K
                                                     (   2)
         con eijk v.a. independientes con distribució n N  0,s  ,
es la siguiente

CUADRO DEL ANÁLISIS DE LA VARIANZA
— MODELO DE EFECTOS PRINCIPALES DE DOS VÍAS —
Fuente de
Variación
Suma de
Cuadrados
g.l.
scm
F^
Factor F.Ta
=
 sum
I-1
=
(scTa) / (I-1)
F^  a 
(scmTa) /(scmR)
Factor F.Tb
=
 sum
1
=
(scTb) / (J-1) 
F^  b 
(scmTb) /(scmR)
Residual
=
 sum
IJ- I - J +1
=
scR / ( IJK - I -J + 1 )
Global
=
 sum
IJK 1
=
--scG---
IJK  - 1
Rechazar H0(a) a1 a2 = ... aI, según P(F^  a F^I-1,IJK-I-J+1)
Rechazar H0(b) b1 b2 = ... bJ, según (F^  b < F^J-1,IJK-I-J+1)
Tabla 5.3. Cuadro del análisis de la varianza para un diseño completamente aleatorizado y balanceado de dos factores de efectos fijos sin interacción.

5.4.4 Análisis de un caso.

En este apartado se desarrolla un problema de diseño de experimentos completo de dos vías. El enunciado del problema es el siguiente:
Ejemplo 5.3.
“En la tabla adjunta se presentan los tiempos, en minutos, de conexión con una dirección de internet desde cuatro puntos geográficos de una región y en tres horas determinadas. El experimento se repetía cuatro veces y era diseñado para estudiar la influencia del factor “hora de conexión” y el factor “lugar de la conexión” en la variable de interés “tiempo de conexión”.
Analizar estos datos y estudiar la influencia de los dos factores.”





Lugar ALugar BLugar CLugar D





Hora 1
0'310'45
0'460'43
0'821'10
0'880'72
0'430'45
0'630'76
0'450'71
0'660'62





Hora 2
0'360'29
0'400'23
0'920'61
0'491'24
0'440'35
0'310'40
0'561'02
0'710'38





Hora 3
0'220'21
0'180'23
0'300'37
0'380'29
0'230'25
0'240'22
0'300'36
0'310'33





Solución.
Estimación de los parámetros.
Se obtienen las siguientes tablas de medias y estimaciones







L-AL-BL-CL-Dy i..^ai







H-1  y 1j.0'4130'8800'5680'6100'6180'139







H-2  y 2j.0'3200'8150'3750'6670'5440'065







H-3  y 3j.0'2100'3350'2350'3250'276-0'203







y ..j.0'3140'6770'3930'534







^bj-0'1650'198-0'0860'055y ... = 0'479












(  )
 abij.L-AL-BL-CL-D





H-1-0'0400'0640'036-0'063





H-2-0'0590'073-0'0830'068





H-30'099-0'1390'045-0'006





De donde se deduce la siguiente tabla de residuos:





ResiduosLugar ALugar BLugar CLugar D





Hora 1
-0'1030'037
0'0470'017
-0'0600'220
0'000-0'160
-0'138-0'118
0'0620'192
-0'1600'100
0'0500'010





Hora 2
0'040-0'030
0'080-0'090
0'105-0'205
-0'3250'425
0'065-0'025
-0'0650'025
-0'107-0'353
0'043-0'287





Hora 3
0'0100'000
-0'0300'020
-0'0350'035
0'045-0'045
-0'0050'015
0'005-0'015
-0'0250'035
-0'0150'005






Tabla ANOVA
Utilizando las estimaciones y residuos obtenidos se obtiene la siguiente tabla ANOVA
Tabla ANOVA






Fuentes deSuma deGrados descm^Fvalor
variacióncuadradoslibertad






Factor hora (Ta)1'033020'516523'2220'0000






Factor lugar (T b)0'921230'307113'8060'0000






Interacción0'250160'04171'8740'1123






Variab. Exp. Total2'204311






Residual0'8007360.0222^s R = 0'149






Global3'0050470'0639^s Y = 0'253












De esta tabla se deducen los siguientes contrastes:
 
[1] El contraste de la hipótesis: “no existe interacción entre los factores Ta y Tb”. Se realiza por el estadístico
      0'0417
^Fab = -'---- = 1'874 ~ F6,36 ==> pab- valor = 0'1123.
      0 0222
es razonable aceptar la hipótesis de no influencia de la interacción entre lugar y hora.
 
[2] El contraste de la hipótesis: “el factor hora  (Ta)  no influye”. Se realiza por el estadístico
     0'5165     '                           '
^Fa = 0'0222 = 23 222 ~ F2,36 ==> pa - valor = 00000.
se rechaza esta hipótesis de no influencia del factor hora.
 
[3] El contraste de la hipótesis: “el factor lugar  (T b)  no influye”.
     0'3071
^Fb = -'---- = 13'806 ~ F3,36 ==> pb - valor = 0'0000.
     0 0222
se rechaza esta hipótesis de no influencia del factor lugar.
En la Figura 5.6 se representa el gráfico de interacciones que corrobora la no existencia de interacciones.
Figura 5.6. Gráfico de interacciones.
En la Figura 5.7. se representa el gráfico de residuos frente a predicciones en el que se observa heterocedasticidad.
Figura 5.7. Gráfico de residuos frente a predicciones.

No hay comentarios:

Publicar un comentario