lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Diseño de experimentos clásicos 

La interacción entre factores.

Se considera un diseño completamente aleatorizado con dos factores tratamiento Ta y Tb cuyos niveles se cruzan. El factor Ta tiene niveles y el factor Tb tiene Jniveles. Por tanto hay un total de IJ tratamientos distintos codificados por
11,12,...,1J,21,22,...,2J,...,IJ.
Si para cada uno de los IJ tratamientos se tiene una observación, el modelo matemático del diseño tiene la forma (dada en (5.20 ))
Yij = m + ai + bj + (ab)ij + eij,  i = 1,...,I; j = 1,...,J,
En este modelo el número de parámetros a estimar es

1+ (I - 1)+ (J - 1)+ (I-  1)(J-  1)+ 1 = IJ + 1 > n,

mayor que el número de observaciones y que el número de grados de libertad de los residuos. Por tanto no es posible estimar el modelo. Para resolver este problema hay las siguientes alternativas:
 
[1] Aumentar el número de observaciones, se replica el diseño veces y se tiene KIJ observaciones. El modelo con dos factores replicado se estudia en la sección siguiente.
 
[2] Disminuir el número de parámetros, suponiendo que algunas interacciones son nulas o que son funciones de unos pocos parámetros. Por ejemplo, suponer que las interacciones tienen una forma funcional multiplicativa (hipótesis de Tuckey)
(ab)ij = gaibj    i = 1,...,I; j = 1,...,J
con esta hipótesis solo hay un parámetro adicional (g) respecto al modelo sin interacción. El número de parámetros del modelo es + 1 < IJ n.
 
[2] En la práctica, cuando se ajustan modelos complejos donde intervienen muchos factores, se utiliza una combinación de las dos estrategias anteriores. Por ejemplo,  se supone que las interacciones de orden superior a dos son nulas y se replica el experimento.

Test de Tuckey.
Para contrastar que no existe interacción entre el factor tratamiento y el factor bloque en el diseño por bloques completamente aleatorizado se puede utilizar el test de Tuckey que permite contrastar la hipótesis de que las interacciones son de la forma (ab) ij gaibj.Esto es, se quiere contrastar
H  :  g = 0 frente a la alternativa
H  :  g /= 0
 0                                1
Al ajustar el modelo (5.1 ) si g/=se verifica que
E (eij) = yij - ^yij = g^ai^bj,
de esta expresión se deduce:
— Si ai y bj son valores grandes y del mismo signo, los residuos son altos, y las predicciones ^y ij = ^m + ^ai + ^bj  están muy por arriba o por debajo de la media.
— Si ai y bj son valores pequeños y/o de distinto signo, los residuos son pequeños y las predicciones están en torno a la media.
En base a ésto
“el contraste de Tuckey se basa en dibujar la gráfica de los residuos eij frente a las predicciones ^y ijsi existe una interacción de tipo multiplicativo la nube de puntos tiene forma parabólica”.
El contraste de Tuckey también se puede hacer de forma analítica. Se dibuja la nube de puntos de los residuos eij frente a la variable xij = ^ai^bj, y se ajusta una recta. Entonces contrastar la hipótesis H0 : g = 0 es equivalente a contrastar que el coeficiente de correlación entre xij y  eij  es cero. Si no se acepta H0   el estimador de g es la pendiente de la recta ajustada.

En las Figura 5.1, 5.2. y 5.3. se presentan diferentes gráficos de eij frente a ^y ijcon diferentes posibilidades sobre la interaccion multiplicativa.
  Graphic:
fig5-1
Figura 5.1. No hay indicios de que exista interacción multiplicativa.

Graphic: fig5-2
Figura 5.2. Existe interacción entre los factores.

Graphic: fig5-3
Figura 5.3. Existe interacción y heterocedasticidad.

El significado de la interacción
Considérese el modelo con dos factores tratamiento Ta y Tb con niveles, respectivamente. El diseño completo se ha replicado veces, esto es, para cada tratamiento (casilla) ij  se tienen observaciones. Se denota yijk a la k-ésima observación del tratamiento ij, con = 1,2,...,K. El tamaño del experimento es =IJK, el modelo asociado es
Yijk = m + ai + bj + (ab)ij + eijk,  i = 1,...,I; j = 1,...,J, k = 1,2,...,K.
Entonces la falta de interacción entre los factores Ta y Tb se interpreta como sigue:
“Se dice que no existe interacción entre los dos factores tratamiento Ta y Tb cuando sus efectos sobre la respuesta son aditivos. En otros términos, la diferencia de las respuestas medias teóricas en dos niveles cualesquiera de un factor es constante en todos los niveles del otro factor y viceversa:
Para todo i,s = 1,...,I, mij- msj = mit- mst,  con j,t = 1,...,J”.

Un gráfico ilustrativo de la posible existencia de interacción es el denominado gráfico de interacción. Para construir este gráfico se marcan en el eje de abscisas los niveles de uno de los dos factores tratamiento, por ejemplo el A, y se dibuja la nube de puntos
{ }
 (  --)                                   --    1  sum K
  i,yij. , para i = 1,...,I, j = 1,... ,J, siendo yij.= K    yijk  ,
                                                  k=1
uniendo a continuación con segmentos las medias muestrales yij. con igual j.
Aunque los gráficos de interacción son muy intuitivos y útiles, pueden conducir a interpretaciones peligrosas debido a que en ellos no se refleja el tamaño del error experimental. Esto puede llevar a deducir del gráfico la existencia de interacción y, sin embargo, el error experimental ser lo suficientemente grande como para que el análisis de la varianza no detecte la interacción como significativa (y viceversa). Por tanto, se debe ser muy prudente con las conclusiones que se derivan de un gráfico de este tipo.
Frecuentemente el interés del diseño radica fundamentalmente en evaluar la contribución individual de cada factor tratamiento sobre la respuesta observada. A los efectos marginales de cada factor se les denomina efectos principales. Sin embargo, cuando el efecto interacción entre ambos factores es importante, puede ser imposible examinar por separado cada uno de los efectos principales.
Ejemplo 5.2.
En base a las calificaciones en pruebas escritas se evalúan los resultados obtenidos con dos métodos de enseñanza distintos (método 1 y método 2) y con tres profesores (profesores 1, 2 y 3). Las Figuras 5.4 y 5.5 muestran ocho posibles gráficos de interacción reflejando otros tantos resultados posibles para el experimento.
En las cuatro situaciones descritas en la Figura 5.4. la interacción no existe. Las líneas resultantes de unir las medias obtenidas con cada método son paralelas o coincidentes y, por ello, los diferencias (cuando existen) entre los niveles de cada factor son estables a través de los niveles del otro factor.
(a) Prof.: No, Mét.: No, Inter.: No 
(b) Prof.: No, Mét.: Si, Inter.: No 
(c) Prof.: Si, Mét.: No, Inter.: No 
(d) Prof.: Si, Mét.: Si, Inter.: No
Figura 5.4.: Cuatro posibles configuraciones de los efectos sin presencia de interacción
En la Figura 5.5. en todos los gráficos el efecto interacción es significativo. En el gráfico (a) todos los profesores obtienen las calificaciones más altas con el método de enseñanza 1; ahora bien, las diferencias son muy grandes en el caso del profesor 1 y muy pequeñas con el profesor 3. Es claro que existen diferencias entre los métodos de enseñanza pero, ¿existen diferencias entre los profesores? (obsérvese que los promedios muestrales de todos ellos son idénticos). Por el contrario, en el gráfico (c), está claro que existen diferencias entre los profesores. Dos obtienen mejores puntuaciones con el método 1 y uno con el método 2. Sin embargo, si se hubiesen ignorado los métodos, las diferencias no existirían pues las puntuaciones medias de los tres son idénticas. Más aún, un ANOVA no detectería diferencias significativas.
(a) Prof.: No?, Mét.: Si, Inter.: Si  
(b) Prof.: Si, Mét.: No?, Inter.: Si  
(c) Prof.: No?, Mét.: No?, Inter.: Si
(d) Prof.: Si, Mét.: Si, Inter.: Si  
Figura 5.5: Cuatro posibles configuraciones de los efectos con presencia de interacción
De este ejemplo se sigue la siguiente conclusión:

“Si la interacción es significativa, será complejo examinar los efectos de cada factor tratamiento por separado. Por ejemplo, la presencia de interacción significativa podría encubrir diferencias reales entre los niveles de algún factor, de modo que no se detectasen diferencias significativas entre ellos en el análisis estadístico”.

No hay comentarios:

Publicar un comentario