Casos particulares: Anova de dos factores sin repetición
En ciertos estudios en que los datos son difíciles de obtener o presentan muy poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin repetición, es decir, en el que en cada muestra sólo hay una observación (n=1). Hay que tener en cuenta que, como era de esperar con este diseño, no se puede calcular SSE. El término de interacción recibe el nombre de residuo y que, como no se puede calcular MSE, no se puede contrastar la hipótesis de existencia de interacción.
Esto último implica también que:
a) en un modelo I, para poder contrastar las hipótesis de existencia de efectos de los factores no debe haber interacción (si hubiera interacción no tenemos término adecuado para realizar el contraste).
b) en un modelo mixto existe el mismo problema para el factor fijo.
Bloques completos aleatorios
Otro diseño muy frecuente de anova es el denominado de bloques completos aleatorios diseñado inicialmente para experimentos agrícolas pero actualmente muy extendido en otros campos. Puede considerarse como un caso particular de un anova de dos factores sin repetición o como una extensión al caso de k muestras de la comparación de medias de dos muestras emparejadas. Se trata de comparar kmuestras emparejadas con respecto a otra variable cuyos efectos se quieren eliminar.
Por ejemplo, en un ensayo clínico para comparar los efectos de dos analgésicos y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le suministrara un tratamiento distinto, habría una gran variación individual en las respuestas, debido a que no todas las cefaleas son de la misma intensidad y no todos los individuos tienen la misma percepción del dolor, que dificultaría el hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se aplican los tres tratamientos a los mismos individuos en diferentes episodios de cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se elimina la variación individual.
En este diseño a los datos de cada individuo se les denomina bloque y los datos se representan en una tabla de doble entrada análoga a la del anova de clasificación única en la que las a columnas son los tratamientos y las b filas los bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las hipótesis que se pueden plantear son:
(igualdad de medias de tratamientos)
y también, aunque generalmente tiene menos interés:
(igualdad de medias de bloques)
A pesar del parecido con la clasificación única, el diseño es diferente: allí las columnas eran muestras independientes y aquí no. Realmente es un diseño de dos factores, uno de efectos fijos: los tratamientos, y el otro de efectos aleatorios: los bloques, y sin repetición: para cada bloque y tratamiento sólo hay una muestra.
El modelo aquí es:
donde ai es el efecto del tratamiento i y Bj el del bloque j. No hay término de interacción ya que, al no poder contrastar su existencia no tiene interés. Al ser un modelo mixto exige la asunción de no existencia de interacción y los contrastes se hacen usando el término MSE como divisor.
Ejemplo 3
Placebo
|
Analgésico A
|
<Analgésico B
|
35
|
20
|
22
|
40
|
35
|
42
|
60
|
50
|
30
|
50
|
40
|
35
|
50
|
30
|
22
|
La tabla de anova correspondiente:
Fuente de variación |
G.L.
|
SS
|
MS
|
Analgésico (tratamiento) |
2
|
748,8
|
374,4
|
Paciente (bloque) |
4
|
767,6
|
191,9
|
Error |
8
|
409,2
|
51,15
|
Total |
14
|
1925,6
| |
Los contrastes de hipótesis se hacen:
para el analgésico f=374,4/51,15=7,32 que como es mayor que F0,05(2,8)=4,46 existe un efecto del tratamiento.
para los bloques f=191,9/51,15=3,75 que es menor que F0,05(4,8)=3,84 por tanto no hay componente añadida por los pacientes.
El archivo para analizarlo con en un paquete estadístisco
y el resultado
| | Análisis de la varianza de más de dos factores
Es una generalización del de dos factores. El procedimiento, por lo tanto, será:
1) encontrar el modelo, teniendo en cuenta si los factores son fijos o aleatorios y todos los términos de interacción.
2) subdividir la suma de cuadrados total en tantos términos ortogonales como tenga el modelo y estudiar los valores esperados de los cuadrados medios para encontrar los estadísticos que permitan realizar los contrastes de hipótesis.
Un modelo de tres factores fijos, por ejemplo, será:
Los tres primeros subíndices para los factores y el cuarto para las repeticiones, nótese que aparecen términos de interacción de segundo y tercer orden, en general en un modelo de k factores aparecen términos de interacción de orden 2, 3,... hasta k y el número de términos de interacción de orden n será el número combinatorio Ck;n. Este gran número de términos de interacción dificulta el análisis de más de dos factores, ya que son difíciles de interpretar y complican los valores esperados de los cuadrados medios por lo que también resulta difícil encontrar los estadísticos para los contrastes. Por estas razones no se suele emplear este tipo de análisis y cuando interesa estudiar varios factores a la vez se recurre a otros métodos de análisis multivariante.
Generalización del concepto de fdp a variables multidimensionales
La función densidad de probabilidad (fdp) para una variable aleatoria es una función a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable.
En el caso discreto:
en el caso continuo:
Esto se puede generalizar a más de una variable. Para n variables aleatorias X1, X2, ..., Xn se llama fdp conjunta a una función n-dimensional f(x1,x2,...,xn) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables.
En el caso discreto:
en el caso continuo:
Del mismo modo que en el caso unidimensional estas funciones están sometidas a las condiciones:
| discreta |
| continua |
Ejemplo 1: En una cierta población se definen dos variables discretas: X1= hipertensión arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y 1=sí. La fdp conjunta podría ser
|
X1
|
X2
|
0
|
1
|
0
|
0,4
|
0,1
|
1
|
0,3
|
0,2
|
f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal (X2=0) es 0,4. Obsérvese que la suma de los valores de la fdp es 1.
A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como 0,1+0,2=0,3.
En general dada una fdp conjunta (para simplificar la notación consideremos sólo dos variables X e Y) se pueden calcular las denominadas fdp marginales como
Caso discreto | |
Caso continuo | |
y simétricamente para la variable Y.
|
X1
|
|
X1
|
0
|
1
|
f2(X2)
|
0
|
0,4
|
0,1
|
0,5
|
1
|
0,3
|
0,2
|
0,5
|
f1(X1)
|
0,7
|
0,3
|
|
Se definen también las fdp condicionadas
que permiten calcular las respectivas probabilidades condicionadas.
En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensión (X1) condicionada al consumo no excesivo de sal (X2=0).
X1
|
|
0
|
0,4/0,5=0,8
|
1
|
0,1/0,5=0,2
|
Obsérvese que como esto es una fdp, la suma de sus valores debe ser 1.
0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo excesivo de sal.
Independencia de dos variables aleatorias
Dos v.a. X e Y se dice que son estocásticamente independientes si y sólo si f(x,y)=f1(x).f2(y). En caso contrario se dice que están correlacionadas.
¿Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes.
Según la definición de fdp condicionada, si X e Y son independientes
que coincide más con la idea intuitiva de independencia.
¿Cuándo diríamos que la hipertensión es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la población general: f1(x1).
En el ejemplo, la probabilidad de ser hipertenso en la población general f1(1)=0,3 y en los consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes).
Diríamos que el consumo de sal y la hipertensión están correlacionados o asociados, o que la hipertensión depende del consumo de sal o, en terminología epidemiológica, que el consumo de sal es un factor de riesgo para la hipertensión. En cualquier caso, la correlación no implica dependencia causal.
El problema, en la práctica, es que no se suelen conocer las fdp's. A partir de una muestra sólo se puede obtener una estimación de la misma, además también se desean obtener estimaciones de la fuerza de la asociación.
Los modelos de regresión son modelos matemáticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemáticas de dependencia se puedan concebir, los más usados son lineal, polinómico, logístico, de Poisson, ...
| |
|
|
|
|
|
| |
|
No hay comentarios:
Publicar un comentario