Identidad de la suma de cuadrados
La suma de cuadrados total en un anova de 2 vías, es:
(donde para representar las medias se ha usado la convención habitual de poner un punto (.) en el lugar del subíndice con respecto al que se ha sumado) que dividida por sus grados de libertad, abn - 1, estima la varianza s2 en el supuesto de que las ab muestras provengan de una única población.
Se puede demostrar que
que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos sumandos reciben respectivamente el nombre de suma de cuadrados del 1º factor (tiene a -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1º factor), del 2º factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 2º factor), de la interacción (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a la interacción) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos alrededor de las medias de cada muestra).
Los resultados de un análisis de la varianza de dos factores se suelen representar en una tabla como la siguiente:
Fuente de variación
|
GL
|
SS
|
MS
|
1º factor
|
a - 1
|
SSA
|
SSA/(a - 1)
|
2º factor
|
b - 1
|
SSB
|
SSB/(b - 1)
|
Interacción
|
(a - 1)(b - 1)
|
SSAB
|
SSAB/[(a - 1)(b - 1)]
|
Error
|
ab(n - 1)
|
SSE
|
SSE/[ab(n - 1)]
|
Total
|
abn - 1
|
SST
|
Los grados de libertad también son aditivos.
En ocasiones se añade una primera línea llamada de tratamiento o de subgrupos cuyos grados de libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interacción, que corresponderían a la suma de cuadrados y grados de libertad del tratamiento de un análisis de una vía en que las ab muestras se considerarán como muestras de una clasificación única.
Para plantear los contrastes de hipótesis hay que calcular los valores esperados de los distintos cuadrados medios.
Suma de cuadrados ANOVA de dos factores o vías de efectos fijos. Tal y como ocurría en al caso de un factor, se tiene la siguiente identidad de suma de cuadrados:
y
Contrates de hipótesis en un análisis de la varianza de dos factores
Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:
MS | Valor esperado |
MSA | |
MSB | |
MSAB | |
MSE |
Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis:
i) no existe interacción ( MSAB/MSE)
ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)
iii) no existe efecto del segundo factor ( MSB/MSE)
Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar las siguientes. En este caso lo que está indicado es realizar un análisis de una vía entre las ab combinaciones de tratamientos para encontrar la mejor combinación de los mismos.
Contraste de hipótesis en un anova de 2 vías
Modelo II
MS | Valor esperado | ||
MSA | |||
MSB | |||
MSAB | |||
MSE |
donde son, respectivamente las componentes añadidas por el primer factor, por el segundo y por la interacción, que tienen la misma forma que los del modelo I, sin más que cambiarai y bj por Ai y Bj, respectivamente.
La interacción se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza la hipótesis nula se contrastarían cada uno de los factores con MSA/MSAB y MSB/MSAB.
En un modelo II, como no se está interesado en estimar los efectos de los factores sino sólo la existencia de la componente añadida, sí tiene sentido contrastar la existencia de la misma para cada factor incluso aunque exista interacción.
Aquí el problema se plantea cuando no se puede rechazar la hipótesis nula y se concluye que no existe interacción: entonces tanto MSE como MSAB estiman s2, entonces ¿cuál se elige para contrastar la componente añadida de los factores?.
En principio, parece razonable escoger su media (la media de varios estimadores centrados es también un estimador centrado y más eficiente), sin embargo si se elige MSAB se independiza el contraste para los factores de un posible error tipo IIen el contraste para la interacción. Hay autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede asegurar baja la probabilidad para el error tipo II. La media de los cuadrados medios se calcula dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad.
Ejemplo
A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes adecuados.
Fuente de variación | G.L. | SS | MS |
1º factor | 4 | 315,8 | 78,95 |
2º factor | 3 | 823,5 | 274,5 |
Interacción | 12 | 328,9 | 27,41 |
Error | 100 | 2308,0 | 23,08 |
Total | 119 | 3776,2 |
Se empezaría contrastando la existencia de interacción: f = 27,41/23,08 = 1,188 como F0,05(12,100) = 1,849 no se puede, al nivel de significación del 95%, rechazar la hipótesis nula y se concluye que no existe interacción.
Si usamos MSAB para contrastar los factores:
1º factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la hipótesis nula y se concluye la no existencia de componente añadida por este factor.
2º factor: f = 274,5/27,41 = 10,015 como F 0,05(3,12) = 3,49 se rechaza la hipótesis nula y se acepta la existencia de componente añadida por este factor.
El resultado del análisis es: no existe componente añadida por la interacción, tampoco por el 1º factor y sí existe componente añadida por el 2º.
La estimación de esta componente es: como a partir de los grados de libertad de la tabla podemos calcular a = 5, b = 4 y n = 6 resulta que la estimación de es 274,5 - 27,41 = 247,09; por lo tanto que representa un 35,7% de componente añadida por el segundo factor.
Si se hubiera optado por promediar, los cuadrados medios promediados son (328,9+2308,0)/(12+100)=
23,54 con 112 grados de libertad y hubiera resultado significativo también el 1º factor.
Contrastes de hipótesis en un anova de dos vías
Modelo mixto
Supóngase el primer factor de efectos fijos y el segundo de efectos aleatorios, lo que no supone ninguna perdida de generalidad, ya que el orden de los factores es arbitrario.
MS | Valor esperado |
MSA | |
MSB | |
MSAB | |
MSE |
Se contrastan la interacción y el factor aleatorio con el término de error, si la interacción fuera significativa no tiene sentido contrastar el efecto fijo y si no lo fuera, el efecto fijo se contrasta con el término de interacción o con el promedio de interacción y error.
Ejemplo
Se quiere probar la eficacia de un somnífero estudiando posibles diferencias de la misma por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes varones y otros dos de mujeres y tanto para los hombres como para las mujeres se suministra a un grupo el somnífero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse.
Los resultados son:
Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga que tiene dos niveles: placebo y somnífero. El segundo factor es el sexo también con 2 niveles: hombres y mujeres. El tamaño de las muestras es n=5.
La tabla de anova es:
Se empieza contrastando la interacción: f = 0,2/74,85 = 0,0026 que como es menor que F0,05(1,16)=4,49 no se rechaza la hipótesis nula de que no existe interacción.
A continuación se contrastan los factores: para el somnífero f = 696,2/74,85 = 9,3 que es mayor que 4,49 por lo tanto existe efecto del somnífero y para el sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias entre los sexos.
La estimación del efecto del somnífero será la diferencia entre las medias de los que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez que se ha visto que no tiene efecto.
Para analizarlo con un paquete estadístico, p.e. el Statgraphics, se necesita crear un archivo con tres variables
y el resultado, pidiendo la tabla de anova
y la tabla de medias
Por tanto la estimación del efecto del somnifero es 39,8 - 28,0=11,8 min
|
No hay comentarios:
Publicar un comentario