Modelos de análisis de la varianza
El anova permite distinguir dos modelos para la hipótesis alternativa:
modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.
modelo II o de efectos aleatorios en el que se supone que las kmuestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modelo I de anova es el Ejemplo 1, porque en él se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas.
La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían distintas.
Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.
Modelo I o de efectos fijos
Un valor individual se puede escribir en este modelo como
m es la media global, ai es la constante del efecto, o efecto fijo, que diferencia a las k poblaciones. También se puede escribir:
representa la desviación de la observación j-ésima de la muestra i-ésima, con respecto a su media. A este término se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del análisis de la varianza son k variables (una para cada muestra), todas con una distribución normal de media 0 y varianza s2 .
La hipótesis nula en este análisis es que todas las medias son iguales
que puede escribirse en términos del modelo como:
Como en H0 se cumplen las condiciones del apartado anterior se tratará de ver como se modifican las estimaciones de la varianza en H1.
En H0 MSA y MSE son estimadores centrados de s2, es decir y usando el superíndice 0 para indicar el valor de las variables en H0
E[MSA0] = s2
E[MSE0] = s2
Se puede ver que MSE es igual en la hipótesis nula que en la alternativa. Por lo tanto:
E[MSE] = E[MSE0] = s2
Sin embargo al valor esperado de MSA en la hipótesis alternativa se le añade un término con respecto a su valor en la hipótesis nula
Al segundo sumando dividido por n se le llama componente de la varianza añadida por el tratamiento, ya que tiene forma de varianza, aunque estrictamente no lo sea pues ai no es una variable aleatoria.
La situación, por lo tanto, es la siguiente: en H0, MSA y MSE estiman s2; en H1, MSE estima s2 pero MSA estima . Contrastar la H0es equivalente a contrastar la existencia de la componente añadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza.
El estadístico de contraste es F=MSA/MSE que, en la hipótesis nula, se distribuye según una F con k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima .
| | Modelo II o de efectos aleatorios
En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y aleatorias. De modo que un valor aislado Yijse puede escribir como:
donde m es la media global, eij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza s2 (como en el modelo I) y Ai es una variable distribuida normalmente, independiente de las eij, con media 0 y varianza
La diferencia con respecto al modelo I es que en lugar de los efectos fijos ai ahora se consideran efectos aleatorios Ai.
Igual que en el modelo I se encuentra que MSE no se modifica en la H1y que al valor esperado de MSA se le añade el término de componente añadida (que aquí es una verdadera varianza ya que Ai es una variable aleatoria):
Para llegar a este resultado se utiliza la asunción de independencia entre Ai y eij y es, por tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las cobayas significaría que las variaciones de grasa en el hígado de cada cobaya son independientes de las variaciones entre cobayas. Esta asunción se violaría si, por ejemplo, en el animalario existieran 2 cepas genéticas tales que en una de ellas la concentración de grasa en las células hepáticas fuera mayor y más variable que en la otra.
Por tanto, en H0 tanto MSA como MSE estiman s2, mientras que en H1, MSE sigue estimando s2 y MSA estima . La existencia de esta componente añadida se contrasta con F= MSA/MSE y en caso afirmativo, la varianza de Ai se estima como:
Pruebas “a posteriori”
Sin embargo, en un modelo I, lo que tiene interés son las diferencias entre los distintos grupos.
En el Ejemplo 1, lo que interesa, una vez visto que la presión arterial media es diferente para los cinco grupos, es, por ejemplo, estimar el efecto de la dieta sin sal, a3 - a1, o el aumento del efecto de la segunda dosis del fármaco con respecto a la primera dosis a5 – a4.
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles hipótesis del tipo mi – mj = 0.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango (diferencia entre medias) de todos los pares de muestras como estadístico y dicho rango debe superar un cierto valor llamado mínimo rango significativo para considerar la diferencia significativa.
La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador de la varianza, es decir un estimador basado en todas las muestras.
Una manera semigráfica habitual de representar los resultados es dibujar una línea que una cada subconjunto de medias adyacentes entre las que no haya diferencias significativas.
Para los datos del Ejemplo 1 la salida semigráfica para la prueba LSD de, por ejemplo, el Statgraphics es
que se interpreta como:
Los grupos 5 y 4 están unidos por una línea vertical de ‘X’ por tanto sus medias no son diferentes entre sí y lo mismo los grupos 4, 3 y 2, mientras que la media del grupo 1 es distinta de la de todos los demás.
Análisis de la varianza de dos factores
Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de variación.
En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensión arterial, se podría plantear que, quizás, la evolución de la misma fuera diferente para los hombres y las mujeres, en cuyo caso, y si el número de hombres y mujeres en cada muestra no fuera el mismo, podría ocurrir que una parte del efecto atribuido a los tratamientos fuera debido al sexo.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.
Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:
modelo I
modelo II
modelo mixto
donde m es la media global, ai o Ai el efecto del nivel i del 1º factor, bj o Bj el efecto del nivel j del 2º factor y e ijk las desviaciones aleatorias alrededor de las medias, que también se asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza s2.
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade la de aditividad de los efectos de los factores.
A los términos ( ab )ij, (AB)ij, (aB)ij, se les denomina interacción entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles se esquematizan en la figura
A B
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como referencia).
http://www.hrc.es/bioest/Anova_10.html
|
|
|
No hay comentarios:
Publicar un comentario