AMIGOS PARA SIEMPRE: Bioestadística Clínica

Introducción al análisis multivariante
¿qué es?
¿qué añade?
¿es siempre necesario?

Volvamos al problema del ejercicio y la supervivencia al infarto. Supongamos que:
1) El problema tiene interés
2) el RR de 1,32 es suficientemente preciso
3) es clínicamente relevante.

¿Lo aceptamos? Es decir ¿consideramos la asociación estadística establecida y pasamos a considerar si es causal?

Supongamos que si tenemos en cuenta el tabaco, resultara que el 99% de los que hacen ejercicio no fuman, mientras que sólo no fuman el 70% de los que no lo hacen y el tabaco ya hubiera demostrado una asociación con la supervivencia: ¿hemos encontrado un nuevo factor pronóstico o sólo estamos viendo indirectamente el efecto del tabaco? Dicho en la jerga usual: ¿es el tabaco una variable de confusión para la asociación entre el ejercicio y la supervivencia?

Una variable es de confusión cuando está asociada simultáneamente con la variable en estudio (el ejercicio en este caso) y con la variable respuesta (la supervivencia) y no forma parte de la cadena causal.

La confusión se puede abordar por:
i) diseño: en este ejemplo se podría hacer que en la muestra estuvieran igualmente representados los fumadores y los no fumadores. Este es el objetivo fundamental de la asignación aleatoria a los grupos en los ensayos clínicos.
ii) análisis: por análisis multivariante (los más comunes son los modelos de regresión) con los que se puede analizar simultáneamente el efecto de varias variables y obtener estimaciones del efecto de cada una corregido o ajustado por las otras.

¿Cuándo es necesario el análisis multivariante? Siempre que el diseño no controle la confusión ... y eso ¿cuándo ocurre? No se puede saber a priori: el mejor método para evitar confusión es la selección aleatoria, pero no lo garantiza.

Análisis de la varianza

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H₀si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - a)^m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)^m, que para valores de a próximos a 0 es aproximadamente igual a a m. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un método muy conservador.

Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.

El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés.

El Anova requiere el cumplimiento los siguientes supuestos:

Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son independientes.
Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de

obtenida a partir de toda la información muestral, en dos partes:

Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias.
Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.

Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:

Media Global:

Variación Total:

Variación Intra-grupos:

Variación Inter-grupos:

Siendo xij el i-ésimo valor de la muestra j-ésima; nj el tamaño de dicha muestra y

su media.

Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la varianza poblacional y el cociente entre ambos se distribuye según una F de Snedecor con K-1 grados de libertad en el numerador y N-K grados de libertad en el denominador. Por lo tanto, si H0 es cierta es de esperar que el cociente entre ambas estimaciones será aproximadamente igual a 1, de forma que se rechazará H0 si dicho cociente difiere significativamente de 1.

La secuencia para realizar un ANOVA es:

Analizar

Comparar medias

ANOVA de un factor

Se abre el siguiente cuadro de diálogo:

Se selecciona la variable que se considera Dependiente y la variable Factor y con el botón Opciones se activan EstadísticosDescriptivos y Homogeneidad de varianzas.

Al aceptar en el visor de resultados aparecen los siguientes cuadros:

Descriptivos. Recoge la media, la desviación típica, el intervalo de confianza del 95% (por defecto) para la media correspondientes a la variable dependiente para cada uno de los grupos definidos por el factor.
Prueba de homogeneidad de varianzas. Contiene el valor del estadístico de Levene del contraste de la hipótesis de homoscedasticidad con el nivel de significación crítico.
ANOVA. Contiene las sumas de cuadrados inter-grupos, intra-grupos y total, sus correspondientes grados de libertad y el valor del estadístico de prueba F junto con el nivel de significación crítico.

Como complemento gráfico de este análisis, para obtener una primera aproximación acerca de si es razonable o no la hipótesis nula, se selecciona Gráficos > Barras de error y se activa la opción Simple. Con el botón Definir se abre el siguiente cuadro de diálogo:

Se selecciona en Variable la variable dependiente del ANOVA y en el Eje de categorías la variable factor. El intervalo de confianza
para la media se calcula por defecto al 95% de confianza. Al aceptar aparece en el visor de resultados los puntos que respresentan a la media de cada grupo junto con los límites del correspondiente intervalo de confianza para la media poblacional. Si los puntos que representan las medias están desigualmente distribuidos en el gráfico se tiene un indicio de que a nivel poblacional no puede sostenerse la hipótesis de igualdad de medias; es decir, por lo menos uno de los niveles del factor influye significativamente sobre la variable dependiente.

EJEMPLOS

Con los datos de la encuesta sobre transporte, Enctrans.sav, razonar si puede aceptarse que el tipo de transporte utilizado, Trans, influye sobre la variable tiempo.

Con la opción de menú Gráficos > Barras de error > Simple y con el botón Definir se selecciona como Variable Tiempo y en Eje de categorías la variable Trans; al aceptar se obtiene la siguiente representación gráfica:

Como puede observarse, los puntos que representan a las medias de cada grupo aparecen dispersos a diferentes niveles; sobre todo la media del grupo definido por el factor Tren. El intervalo de confianza para la media correspondiente al grupo definido por el factor Metro está contenido dentro del intervalo correspondiente al grupo definido por el factor Bus, así como, el intervalo correspondiente al factor Coche está contenido dentro de los intervalos correspondientes definidos por los factores Metro y Otros. El gráfico, por tanto, parece sugerir no una única población sino tres poblaciones con distintas medias.

Para realizar el análisis de la varianza propiamente dicho la secuencia es Analizar > Comparar medias > ANOVA de un factor. En el cuadro de diálogo se selecciona Tiempo como variable Dependiente y Trans como Factor. Para contrastar la hipótesis de igualdad de varianzas se abre con el botón correspondiente el cuadro de diálogo ANOVA de un factor: Opciones y se activa Homogeneidad de varianzas. Si se desea un análisis descriptivo del comportamiento de la variable dependiente dentro de cada grupo se activa también la opción Descriptivos. Al aceptar se obtienen los siguientes cuadros de resultados:

Este cuadro contiene un análisis descriptivo de la variable dependiente por grupos, así como, los límites superior e inferior para la media de cada grupo al 95% de confianza.

El estadístico de Levene toma un valor lo suficientemente pequeño para no rechazar la hipótesis de homocesdaticidad a los niveles de significación habituales.

En el cuadro de resultados del ANOVA, el valor del estadístico de prueba, F=6,450, es significativamente distinto de 1 para cualquier nivel de significación y, por lo tanto, se rechaza la hipótesis nula de igualdad de medias y queda confirmada la primera impresión proporcionada por el gráfico de barras de error.

AMIGOS PARA SIEMPRE

Páginas

viernes, 28 de abril de 2017

Bioestadística Clínica

No hay comentarios:

Publicar un comentario

Datos personales

Archivo del blog