viernes, 28 de abril de 2017

Bioestadística Clínica


Bases del análisis de la varianza
Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única población normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la población s2
1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de s2 y la media de estimadores centrados es también un estimador centrado y más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los términos independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es también un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad.
MSA MSE, estiman la varianza poblacional en la hipótesis de que las kmuestras  provengan de la misma población. La distribución muestral del cociente de dos estimaciones independientes de la varianza de una población normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hipótesis usando esa distribución.
Si en base a este contraste se rechaza la hipótesis de que MSE y MSAestimen la  misma varianza, se puede rechazar la hipótesis de que las k medias provengan de una misma población.
Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un único contraste se contrasta la igualdad de k medias.
Existe una tercera manera de estimar la varianza de la población, aunque no es independiente de las anteriores. Si se consideran las knobservaciones como una única muestra, su varianza muestral también es un estimador centrado de s2:
Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
Fuente de variaciónG.L.
SS
MSF
Entre grupos
Tratamientos
k-1SSASSA /(k-1)MSA /MSE
Dentro
Error
(n-1)kSSESSE /k(n-1) 
Totalkn-1SST  
F se usa para realizar el contraste de la hipótesis de medias iguales. Laregión crítica para dicho contraste es F > Fa(k-1,(n-1)k)






Algunas propiedades
Es fácil ver en la tabla anterior que
GLerror+ GLtrata = (n - 1) k + k - 1 = k + k - 1 = nk - 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El análisis de la varianza se puede realizar con tamaños muestrales iguales o distintos, sin embargo es recomendable iguales tamaños por dos motivos:
1) La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es igual.
2) Igual tamaño minimiza la probabilidad de error tipo II.





Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son:
Grupo
1
2
3
4
5
180
172
163
158
147
173
158
170
146
152
175
167
158
160
143
182
160
162
171
155
181
175
170
155
160
La tabla de anova es:
Fuente de variación
GL
SS
MS
F
Tratamiento
4
2010,64
502,66
11,24
Error
20
894,4
44,72
Total
24
2905,04
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y concluimos que los resultados de los tratamientos son diferentes.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e. de 1 a 5) y Presion con la presión arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los menús que se ven en la gráfica:
La tabla de anova que devuelve el programa es
que incluye también el “valor p” asociado al contraste.





Pruebas para la homocedasticidad
Para que este contraste de hipótesis, basado en la F, lo sea de la igualdad de medias es necesario que todas las muestras provengan de una población con la misma varianza (s2), de la que MSE y MSA son estimadores. Por lo tanto es necesario comprobarlo antes de realizar el contraste. Del mismo modo que no se puede usar repetidamente la prueba basada en la en la t para comparar más de dos medias, tampoco se puede usar la prueba basada en la F para comparar más de dos varianzas. La prueba más usada para contrastar si varias muestras son homocedásticas (tiene la misma varianza) es la prueba de Bartlett.
La prueba se basa en que, en la hipótesis nula de igualdad de varianzas y poblaciones normales, un estadístico calculado a partir de las varianzas muestrales y MSE sigue una distribución 
Otras pruebas para contrastar la homocedasticidad de varias muestras son la de Cochran y la de la F del cociente máximo, ambas similares y de cálculo más sencillo pero restringidas al caso de iguales tamaños muestrales. La de Cochran es particularmente útil para detectar si una varianza es mucho mayor que las otras
En el caso de que las muestras no sean homocedásticas, no se puede, en principio, realizar el análisis de la varianza.
Existen, sin embargo, soluciones alternativas: Sokal y Rohlf describen una prueba aproximada, basada en unas modificaciones de las fórmulas originales.
Hay situaciones en que la heterocedasticidad es debida a falta de normalidad. En estos casos existen transformaciones de los datos que estabilizan la varianza: la raíz cuadrada en el caso de Poisson, el arco seno de la raíz cuadrada de p para la binomial, el logaritmo cuando la desviación estándar es proporcional a la media.
En la práctica, si las pruebas de homocedasticidad obligan a rechazar la hipótesis nula, se prueba si con alguna de estas transformaciones los datos son homocedásticos, en cuyo caso se realiza el anova con los datos transformados.
Hay que tener en cuenta que estas pruebas van "al reves"de lo habitual. La hipótesis nula es lo que se quiere probar, en consecuencia hay que usarlas con precaución.


Homocedasticidad de los errores.

Es necesario contrastar la hipótesis de homocedasticidadésto es, la varianza de los residuos es constante y no varía en los diferentes niveles del factor. La falta de homocedasticidad se denomina heterocedasticidad.  
Consecuencias de la falta de homocedasticidad
Se ha demostrado que si el diseño es balanceado (ni m,  A = 1,...,I) los niveles de significación de los pruebas de hipótesis y los niveles de confianza de los intervalos apenas se ven afectados por la existencia de heterocedasticidad, a no ser que la varianza de la respuesta para algún tratamiento particular sea considerablemente mayor que para otros.
Para tamaños muestrales de los grupos similares, la heterocedasticidad no afecta al F-test ni a los distintos métodos de comparaciones múltiples siempre que:
^S2Max-< 3 ^S2Min
Si los tamaños muestrales son muy distintos, se verifica que:
- Si los tratamientos con tamaños muestrales (ni) pequeños tienen mayor varianza la probabilidad de cometer un error de tipo I en las pruebas de hipótesis será menor de lo que se obtiene y los niveles de confianza de los intervalos serán inferiores a lo que se cree;
- Si los tratamientos con tamaños muestrales (ni) grandes tienen mayor varianza, entonces se tendrá el efecto contrario y las pruebas serán conservadoras.
Para estudiar si se verifica la homocedasticidad de modelo se pueden hacer los siguientes análisis descriptivos y gráficos:
bulletCálculo de la varianza (o desviación típica) de los residuos según los niveles del factor.
bulletEl gráfico de cajas múltiple proporciona una idea de la distribución de los residuos según los niveles del factor.
bulletEl gráfico de los residuos (eij) frente a las predicciones (y i.) es interesante porque, en muchas situaciones, la varianza de los residuos por niveles aumenta con las predicciones. Esto se puede observar en la Figura 4.6.

Graphic: fig4-6

Figura 4.6. Digrama de dispersión de residuos frente a predicciones.
Existen contrastes para detectar heterocedasticidad:
 
El contraste de Cochran, se utiliza si todos los tamaños muestrales son iguales y es útil si la varianza de un tratamiento es mucho mayor que en los otros.
 
El contraste de Bartlett o el  Contraste de Hartley son más generales y más utilizados. Estos contrastes son muy conservadores y muy sensibles a la ausencia de normalidad.
 
El contraste de Levene es muy utilizado, en esencia, consiste en efectuar un análisis de la varianza sobre las diferencias en valor absoluto entre las observaciones y la mediana (u otra medida de tendencia central) manteniendo el diseño original.
 
El contraste de Romero y Zúnica, se basa en una idea análoga, se realiza un análisis de la varianza sobre los cuadrados de los residuos del modelo ajustado con el mismo factor en estudio. Ahora la hipótesis básica a contrastar es que la varianza en todos los grupos es la misma.
Un modelo muy usual de heterocedasticidad es el siguiente modelo multiplicativo
Yij = mieij, j = 1,...,ni,  i =
1,... ,I,
(4.2)
donde los eij son variables aleatorias de media 1 y varianza constante. En este modelo los grupos con mayor media tienen mayor variabilidad. Para corregir este problema se toman logaritmos en el modelo (4.2) y se obtiene el siguiente modelo aditivo que si es homocedástico.
~Y  = lg Y  = lg m + lge  = ~m + ~e
, j = 1,...,n ,  i = 1,... ,I.
 ij     ij      i    ij   i   ij            i
(4.3)
Muchas veces la heterocedasticidad responde al modelo:
si = kmqi k y q constantes
desconocidas,
(4.4)
así el modelo multiplicativo (4.2) sigue una heterocedasticidad del tipo (4.4) con = 1.
Para este tipo de heterocedasticidad es posible transformar los datos para obtener homocedasticidad (en otro caso puede resultar imposible encontrar transformaciones adecuadas). Además la heterocedasticidad del modelo suele ir unida a la falta de normalidad (la distribución de eij es asimétrica) y la transformación de los datos corrige simultáaneamente ambos problemas. Como una primera aproximación, la transformación tomar logaritmos puede proporcionar buenos resultados y es un caso particular de la familia de transformaciones de Box-Cox que es ampliamente utilizada y que se describe en la siguiente sección.

No hay comentarios:

Publicar un comentario