AMIGOS PARA SIEMPRE: Bioestadística Clínica

AMIGOS PARA SIEMPRE

Páginas

viernes, 28 de abril de 2017

Datos personales

Archivo del blog

Bioestadística Clínica

No hay comentarios:

Publicar un comentario

Problemas del índice kappa (k)

No obstante su alto grado de aceptación en la literatura clínico-epidemiológica, debe tenerse en cuenta que la escala anterior de valoración del índice k, como los propios autores resaltan, es arbitraria y que, además, el valor del índice k no sólo depende de los acuerdos observados, sino también de los esperados y, en consecuencia, pueden darse diversos efectos poco intuitivos. En primer lugar, el valor de k depende de la prevalencia del carácter observado. En el ejemplo, la prevalencia de pulmonía es baja: el radiólogo A diagnostica un 14% de pulmonías y el B un 10%. Si los resultados hubieran sido

	Rad. A
Rad. B	30	6	36
	10	54
	40

donde las prevalencias respectivas son 40% para A y 36% para B, con la misma proporción de acuerdos observados (84%) el índice k hubiera sido 0,661. En general, cuanto más cercana a 0,5 sea la prevalencia (cuanto más balanceados estén los totales marginales en la tabla) mayor es el k para igual proporción de acuerdos observados, dicho de otro modo, prevalencias muy bajas, o muy altas, penalizan el índice k , debido a que en ese caso la proporción de acuerdos esperados por azar es mayor que cuando la prevalencia es cercana a 0,5. Por otro lado, éste también se ve afectado por la simetría de los totales marginales.

Considerese, por ejemplo, las tablas

en ambas la proporción de acuerdos observados es la misma (0,60) y también es la misma la prevalencia observada por el radiólogo B (0,60), sin embargo la del radiólogo A es 0,70 en la tabla 1 y 0,30 en la 2, por lo tanto hay mayor desacuerdo entre las prevalencias observadas en la tabla 2, aunque en ambos casos están igualmente alejadas de 0,5, es decir, tienen la misma falta de balanceo en los marginales, aunque en la tabla 1 de modo simétrico con respecto a ambos observadores (en ambos son mayores de 0,5) y asimétricamente en la 2 (para A es menor de 0,5 y para B mayor). El índice k vale 0,13 en la tabla 1 y 0,26 en la 2. En general, la simetría en la falta de balanceo en los totales marginales también penaliza el índice k y tanto más, cuanto más "perfecta" (la misma diferencia con respecto a 0,5) sea la misma. Dicho de otro modo, en igualdad de acuerdos observados, cuanto mayor sea la diferencia entre las prevalencias observadas por cada observador mayor es el índice k .

En consecuencia, para interpretar el índice k es necesario contar, también con el valor de las frecuencias marginales de la tabla (prevalencias observadas por cada observador).

El pequeño valor de k para los datos del ejemplo (mediano en la escala de Landis y Koch) es "explicado" a la luz de los efectos anteriores por el hecho de que estamos en la peor de las situaciones posibles: baja prevalencia, y similar, en ambos observadores o, en la terminología anterior totales marginales "desbalanceados" con casi perfecta simetría.

Clasificaciones multinomiales

Si bien las clasificaciones binomiales son muy frecuentes, a menudo en clínica resultan insuficientes. P.e. un psiquiatra clasifica los trastornos de los pacientes en psicóticos, neuróticos u orgánicos, o un reumatólogo clasifica las artritis en leves, moderadas o graves. Ambas clasificaciones son multinomiales (tres categorías), no obstante existe una diferencia entre ellas, las categorías en el caso de la artritis pueden ordenarse de un modo relevante para el problema: una artritis grave es más que una moderada, y ésta más que una leve, mientras que para la clasificación psiquiátrica este orden no existe. A las variables multinomiales que tienen implícito un orden se les denomina ordinales y a las que no, nominales. Para estudiar la precisión de una clasificación multinomial, hay ciertas diferencias según que ésta sea ordinal o nominal.

Como en las clasificaciones binarias, los resultados de un estudio de concordancia se pueden resumir en una tabla de doble entrada, aunque ahora con K filas y K columnas, siendo K el número de categorías de la clasificación.

La notación usada en esta tabla es: para identificar una celda se usan dos subíndices: el primero para la fila y el segundo para la columna, por lo tanto X_ij es el número de individuos que el observador B ha clasificado en la categoría i y el observador A en la j.

	Observador A
Obs. B	Cat. 1	Cat. 2	...	Cat. K	Total
Cat. 1	X₁₁	X₁₂	...	X_1K	X_1.
Cat. 2	X₂₁	X₂₂	...	X_2K	X_2.
.	.	.	...	.	.
Cat. K	X_K1	X_K2	...	X_KK	X_K.
Total	X_.1	X_.2	...	X_.K	N

Para indicar los totales marginales se usa un punto en el lugar del subíndice con respecto al que se ha sumado: X_i. es la suma de la fila i y X_.j es la suma de la columna j. En notación algebraica

Para una clasificación multinomial se puede definir un índice kappa idéntico al anterior, generalizando el cálculo de P_o y P_e como

Ejemplo: Dos reumatólogos clasifican en tres categorías (leve, moderada, grave) 80 enfermos con artritis. Los resultados son

	Reumatólogo A
Reum. B	Leve	Mode.	Grave	Total
Leve	9	8	3	20
Moderada	9	29	5	43
Grave	0	3	14	17
Total	18	40	22	80

Otra alternativa para estudiar concordancia entre clasificaciones multinomiales consiste en definir un índice kappa para cada una de las categorías, colapsando la tabla KxK original en K tablas 2x2 en las que se compara cada categoría con todas las demás. De este modo se puede estudiar la contribución de cada una de ellas a la concordancia de la clasificación.

Para los datos del ejemplo, se colapsaría la tabla en 3 tablas: una comparando la categoría leve con las demás, otra la moderada con las demás y la tercera la grave con las otras.

		1			2			3
		Obs A			Obs A			Obs A
		L	O		M	O		G	O
Obs B	L	9	11	M	29	14	G	14	3
	O	9	51	O	11	26	O	8	55

L: leve, M: moderada, G:grave, O:otra.

calculando en cada una de estas tablas P_o, P_e y k resulta:

tabla	P_o	P_e	k
1	0,75	0,638	0,309
2	0,688	0,5	0,376
3	0,863	0,629	0,631

donde se observa que la clasificación de la categoría grave es la que mayor k produce (¿Cómo se interpreta?).

Índice kappa con "pesos"

Una solución que puede verse como intermedia entre las anteriores (un único kappa global o K kappas individuales para cada categoría), pero que, en general, sólo tiene sentido para variables ordinales, es el denominado kappa ponderado, también propuesto por Cohen, en el cual se asignan unos pesos para cuantificar la importancia relativa entre los desacuerdos. Pensando en el ejemplo anterior, no tiene la misma importancia un desacuerdo en la clasificación entre las categorías leve y moderada que entre leve y grave, obviamente la última representa un mayor desacuerdo que la primera.

La idea de este índice ponderado es asignar a cada celda de la tabla un peso w_ij comprendido entre 0 y 1 que represente la importancia del desacuerdo. Dando el máximo peso al acuerdo perfecto, y pesos proporcionalmente menores según la importancia del desacuerdo

además, obviamente w_ij = w_ji.

Las proporciones ponderadas de acuerdos observados y esperados se definen

y a partir de aquí, el kappa ponderado

Nótese que, en el caso extremo, si se definen los pesos como

el kappa ponderado coincide con el kappa global.

La principal ventaja del kappa ponderado reside en la posibilidad de cuantificar diferentes grados de desacuerdo. Los valores de los pesos dependerán, en cada caso, de la importancia que se conceda a cada desacuerdo, hay que tener presente, sin embargo, que ello añade cierta dificultad a su interpretación: si en dos estudios diferentes, se calcula el kappa ponderado con dos sistemas de pesos distintos, es difícil realizar comparaciones entre ellos. Los más usados en este sentido son, por su sencillez, los denominados pesos lineales, propuestos inicialmente por Cohen

y los denominados pesos bicuadrados, propuestos posteriormente por Fleiss y Cohen

Pesos lineales y bicuadrados para 3 categorías

Peso		lineal (w_l)			bicuadrado (w_b)
Obs.		A			A
	Cat	1	2	3	1	2	3
B	1	1	1/2	0	1	3/4	0
	2	1/2	1	1/2	3/4	1	3/4
	3	0	1/2	1	0	3/4	1

Para los datos del ejemplo de los reumatólogos los kappas usando estos sistemas de pesos son respectivamente

, más altos que sin pesos.

Múltiples observadores

Este índice se puede extender a múltiples observadores, con lo que las fórmulas se complican pero sin apenas cambios conceptuales.

Distribución muestral del índice k

El índice k se calcula a partir de muestras, por tanto se obtiene sólo una estimación del verdadero valor del k en la población. Es necesario estudiar su distribución muestral para poder construir intervalos de confianza y realizar contrastes de hipótesis.

En el caso de dos observadores clasificando en K categorías, en la hipótesis de independencia, se puede demostrar que la varianza del kappa estimado es

y si se cumplen las condiciones de aproximación de la binomial a la normal, el estadístico

se distribuye como una normal tipificada y puede usarse para contrastar la H₀: k = 0 con una región crítica para un contraste lateral z > z_a

Ejemplo : Realizar el contraste de hipótesis H₀: k = 0 para los datos del ejemplo de los reumatólogos. Según la tabla

P_.1=18/80=0.225 P_.2=40/80=0.5

P_.3=22/80=0.275 P_1.=20/80=0.25

P_2.=43/80=0.5375 P_3.=17/80=0.2125

P_e=0.383

por lo tanto

y no se puede rechazar la hipótesis nula de k = 0.

En general, sin embargo, estos contrastes no tienen mucho interés. El objetivo de un estudio de concordancia no es tanto contrastar si hay más acuerdo que el esperado en la hipótesis de independencia sino cuantificar el mismo. Si un estudio produce un k = 0,1 aunque sea significativamente distinto de 0, revela un acuerdo insignificante. Lo que tiene interés es, por tanto, la estimación por intervalos. Aquí debe señalarse que la varianza anterior se ha obtenido en la hipótesis de independencia entre observadores en cuyo caso k=0, y consecuentemente no sirve para construir intervalos de confianza en la hipótesis de no independencia. En esta hipótesis se puede demostrar que

siendo

y a partir de esta varianza, un intervalo de confianza aproximado, usando la normalidad asintótica de la distribución de

, con un nivel de confianza de 100(1 - a)% es

También hay fórmulas, que os ahorro, para la varianza del kappa ponderado. Para el caso de múltiples observadores, aunque hay algunas aproximaciones parciales, no existe todavía una fórmula de uso general para la estimación de su varianza, y se suele usar una técnica muy general para construir intervalos de confianza para estadísticos de distribución muestral desconocida que es la denominada "técnica jackknife", introducida por Quenouille y que se puede aplicar al índice kappa.

Tabla 1

Tabla 2