Contrastes sobre independencia de v.a. cualitativas
Se quiere estudiar un posible factor pronóstico del éxito de una terapia, p.e. cierto grado de albuminuria como mal pronóstico en la diálisis. Los resultados de un estudio de este tipo se pueden comprimir en una tabla 2x2 del tipo
Se estudian T individuos, a tienen al factor (F) y tiene éxito la terapia (E), b no tienen al factor (nF) y tiene éxito la terapia, ...
¡Ojo! A pesar de la aparente "inocencia" de esta tabla, puede significar cosas distintas segíun el diseño del estudio. No todas las probabilidades de las que se habla más abajo se pueden estimar siempre.
H0 es que el factor F y el éxito E son independientes (F no es factor pronóstico) y H1 que están asociados (sí es factor pronóstico). Si son independientes p(EÇF) = p(E)p(F). A partir de los datos de la tabla las mejores estimaciones de estas probabilidades son , por lo tanto en H0 , en consecuencia el valor esperado para esa celda en H0 es (cociente entre el producto de los totales marginales y el gran total), del mismo modo se calculan los demás valores esperados y se construye el estadístico
Ejemplo
En una muestra de 100 pacientes que sufrieron infarto de miocardio se observa que 75 sobrevivieron más de 5 años (éxito). Se quiere estudiar su posible asociación con la realización de ejercicio moderado (factor). La tabla es
Calculamos los valores esperados en H0
Obsérvese que una vez calculado uno de los valores esperados, los demás vienen dados para conservar los totales marginales (eso es lo que significa que hay 1 g.l.). A partir de aquí calculamos
Rechazamos la H0 y concluimos que hay asociación entre el ejercicio y la supervivencia. Obviamente esta asociación no es necesariamente causal.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Super con un código distinto para cada grupo, p.e. 1 para supervivencia y 0 para no y Ejer también con dos códigos. Para calcular la ji-cuadrado desplegamos los menús que se ven en la gráfica:
y la salida es
Tabla de contingencia EJERC * SUPER
Recuento
Pruebas de chi-cuadrado
a Calculado sólo para una tabla de 2x2.
b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 10,00.
http://www.hrc.es/bioest/ch_cualitativas.html
A estas variables también se les denomina factores, mientras que a las distintas categorías de la variable se les suele denominar niveles. Existen diferentes pruebas para medir la dependencia entre dos variables cualitativas, entre ellas la prueba ji-cuadrado en sus diferentes versiones. En este capítulo repasaremos las pruebas estadísticas más utilizadas en la investigación biomédica para cruzar variables categóricas, así como ejemplos que faciliten su comprensión.
Supongamos que realizamos un estudio en 45 pacientes en el que deseamos estudiar la relación entre el hábito tabáquico y EPOC diagnosticado mediante espirometría obteniendo los resultados de la Tabla I. Podemos ver que 15 pacientes de 25 (60%) tenían EPOC dentro del grupo de fumadores, mientras que tan solo 5 de 20 (25%) presentaron EPOC en el grupo de no fumadores. Desde un punto de vista clínico las diferencias son importantes, pero ¿lo serán desde un punto de vista estadístico?
Prueba ji-cuadrado (X2)
La prueba ji-cuadrado de Pearson (X2) es una de las pruebas más utilizadas en el ámbito de la medicina y la biología. Esta prueba no mide el grado o la fuerza de la asociación entre dos variables categóricas, para ello ya existen medidas como la odds ratio o el riesgo relativo, adecuadas para estos fines. Se aplica principalmente para estudiar la asociación entre dos variables categóricas o cualitativas y para comparar proporciones o porcentajes. Su uso no está restringido únicamente para variables dicotómicas. Si alguna de las dos variables es de naturaleza ordinal, se debe aplicar la prueba ji-cuadrado de tendencia lineal como veremos más adelante.
También podremos encontrarla bajo el nombre de “chi-cuadrado”, siendo su origen la traducción al castellano del término inglés “chi-squared”. Ya que el nombre en castellano para la letra griega X es “ji”, utilizaremos esta denominación. La prueba X2 puede aplicarse con una sola variable para comparar valores observados respecto a esperados, aunque su uso más frecuente es para comparar dos proporciones. Una de sus limitaciones es que requiere un tamaño muestral suficientemente grande y aunque su cálculo es sencillo, no lo es tanto el entender su procedencia y su interpretación. Simplemente diremos que los valores que toma el estadístico ji-cuadrado con un grado de libertad corresponden a los obtenidos a una distribución normal tipificada elevados al cuadrado, y que por tanto la prueba ji-cuadrado solo tiene una cola tomando únicamente valores positivos.
La expresión de la prueba ji-cuadrado es la siguiente:
En nuestro ejemplo de la Tabla I hemos cruzado dos variables cualitativas EPOC y fumador con dos categorías cada una. Excluyendo las celdas de los totales (denominadas marginales) obtenemos una tabla de 2 filas por 2 columnas. Una vez conocidos los totales para cada categoría, si sabemos la frecuencia de una de las celdas, es fácil deducir las frecuencias de las demás. Por ello se dice que tenemos 1 grado de libertad, ya que conocidos los marginales, sólo tenemos la “libertad” de poner valores en una de las celdas, porque las demás ya vienen impuestas por los datos. Para tablas de “n” filas y “m” columnas, los grados de libertad se calcularían como (n – 1) x (m – 1). En el ejemplo, si sabemos que hay 15 fumadores con EPOC, conocidas las frecuencias marginales es fácil completar el resto de la tabla. Tenemos por lo tanto un solo grado de libertad.
Nuestra hipótesis nula (Ho) sería la que afirma que la proporción de pacientes con EPOC es la misma en el grupo de fumadores que en el de no fumadores. Nuestra hipótesis alternativa (H1), por el contrario, afirmaría que estas proporciones son distintas. Si la proporción es distinta, tenemos en cuenta las dos posibilidades que existen: que la proporción de pacientes con EPOC sea más alta o más baja en los fumadores, por lo tanto la prueba es bilateral o también denominada de “dos colas”.
Si al calcular los valores de la expresión X2, que es la diferencia entre lo observado y lo esperado, sobrepasamos cierto valor crítico, diremos que las diferencias encontradas son demasiado grandes como para poder ser explicadas por el azar. Si en nuestro estudio tenemos 20 pacientes con EPOC de 45 personas (44%), para que la hipótesis nula fuese cierta, tendríamos que tener la misma proporción de pacientes con EPOC en los fumadores y en los no fumadores. Es decir, de los 25 fumadores, esperamos tener (25*20)/45, que serían 11 fumadores aproximadamente. De este modo obtendríamos las frecuencias esperadas para el resto de las 3 celdas (Tabla II). Una vez conocidas las frecuencias esperadas, sólo nos queda calcular el valor de la expresión X2 que es una simple suma de unas diferencias al cuadrado:
Si miramos en las tablas de la distribución ji-cuadrado para un grado de libertad, podemos ver que la significación estadística p<=0,05, se alcanza para aquellos valores de X2 iguales o superiores a 3,84. Como el valor obtenido en nuestro estudio; 5,51 es mayor al valor crítico de 3,84, podemos rechazar la hipótesis nula (H0) y afirmar que las diferencias encontradas difícilmente pueden ser explicadas por el azar, siendo mayor la proporción de pacientes con EPOC en los fumadores (p<0 0="" 1="" 5="" 95="" al="" cambia="" columnas.="" como="" comprobarse="" de="" dejando="" del="" desviaci="" distribuci="" el="" estad="" filas="" fuera.="" intervalo="" ji-cuadrado="" la="" las="" media="" n="" no="" normal="" permutar="" pica="" poco="" por="" precisamente="" probabilidad="" puede="" recoge="" recordamos="" si="" solo="" span="" stico="" style="border: 0px; bottom: 1ex; font-size: 12px; height: 0px; line-height: 0; margin: 0px; outline: 0px; padding: 0px; position: relative; vertical-align: baseline;" t="" tipificada="" un="" valor="" y="">20>
|
Para aplicar correctamente la prueba ji-cuadrado, al menos el 80% de las celdas debe tener una frecuencia esperada mayor de 5. Si esto no es así, siempre tenemos el recurso de agrupar categorías excepto cuando nuestra tabla sea de 2×2 (ambas variables dicotómicas), en cuyo caso debemos utilizar la prueba exacta de Fisher.
A veces se introduce una modificación en el cálculo de la expresión X2, denominada corrección de Yates o corrección por continuidad, siendo su efecto mínimo en muestras de gran tamaño. La consecuencia de su aplicación es una reducción del valor final de la ji-cuadrado, y por tanto la hace un poco más conservadora. Si bien no existe consenso en la literatura sobre su utilización, su uso se debe al hecho de que en ocasiones variables numéricas se transforman en dicotómicas con un punto de corte.
Otras pruebas de contraste de hipótesis entre variables categóricas
Una variante de la prueba X2 de Pearson para contrastar la hipótesis de independencia entre variables categóricas, es la razón de verosimilitud ji-cuadrado. A diferencia de la ji-cuadrado de Pearson, esta prueba se basa en el cociente de los logaritmos de las frecuencias observadas y esperadas.
Existe una serie de medidas con las que podemos medir el grado de asociación entre variables categóricas aparte de los ya conocidos riesgos relativos y odds ratios. Entre el conjunto de pruebas que miden el grado de dependencia entre variables categóricas nominales se encuentran el coeficiente de contingencia, la V de Cramer, las Lambdas simétricas y asimétricas y los coeficientes de incertidumbre simétrico y asimétrico. En general, todas estas pruebas (a excepción del coeficiente de contingencia en tablas de más de 2×2) toma valores dentro de un rango de 0 a 1, donde el 0 nos indicaría no asociación entre variables y el 1, una fuerte asociación. Todas estas pruebas pueden encontrarse en paquetes estadísticos como el SPSS.
También nos puede surgir en algún momento la necesidad de cruzar dos variables categóricas con la particularidad de que una de ellas es ordinal. Imaginemos que deseemos cruzar el consumo de tabaco medido en tres categorías: no fumador, fumador moderado, fumador alto, con EPOC (Tabla III). Podemos ver claramente, que la proporción de pacientes con EPOC aumenta con el consumo de tabaco.
No hay comentarios:
Publicar un comentario