Problemas del índice kappa (k)
No obstante su alto grado de aceptación en la literatura clínico-epidemiológica, debe tenerse en cuenta que la escala anterior de valoración del índice k, como los propios autores resaltan, es arbitraria y que, además, el valor del índice k no sólo depende de los acuerdos observados, sino también de los esperados y, en consecuencia, pueden darse diversos efectos poco intuitivos. En primer lugar, el valor de k depende de la prevalencia del carácter observado. En el ejemplo, la prevalencia de pulmonía es baja: el radiólogo A diagnostica un 14% de pulmonías y el B un 10%. Si los resultados hubieran sido
| Rad. A | |
Rad. B | 30 | 6 | 36 |
| 10 | 54 | |
| 40 | | |
donde las prevalencias respectivas son 40% para A y 36% para B, con la misma proporción de acuerdos observados (84%) el índice k hubiera sido 0,661. En general, cuanto más cercana a 0,5 sea la prevalencia (cuanto más balanceados estén los totales marginales en la tabla) mayor es el k para igual proporción de acuerdos observados, dicho de otro modo, prevalencias muy bajas, o muy altas, penalizan el índice k , debido a que en ese caso la proporción de acuerdos esperados por azar es mayor que cuando la prevalencia es cercana a 0,5. Por otro lado, éste también se ve afectado por la simetría de los totales marginales.
Considerese, por ejemplo, las tablas
| Tabla 1 | | Tabla 2 | |
| Rad. A | | Rad. A | |
Rad. B | 45 | 15 | 60 | 25 | 35 | 60 |
| 25 | 15 | | 5 | 35 | |
| 70 | | | 30 | | |
en ambas la proporción de acuerdos observados es la misma (0,60) y también es la misma la prevalencia observada por el radiólogo B (0,60), sin embargo la del radiólogo A es 0,70 en la tabla 1 y 0,30 en la 2, por lo tanto hay mayor desacuerdo entre las prevalencias observadas en la tabla 2, aunque en ambos casos están igualmente alejadas de 0,5, es decir, tienen la misma falta de balanceo en los marginales, aunque en la tabla 1 de modo simétrico con respecto a ambos observadores (en ambos son mayores de 0,5) y asimétricamente en la 2 (para A es menor de 0,5 y para B mayor). El índice k vale 0,13 en la tabla 1 y 0,26 en la 2. En general, la simetría en la falta de balanceo en los totales marginales también penaliza el índice k y tanto más, cuanto más "perfecta" (la misma diferencia con respecto a 0,5) sea la misma. Dicho de otro modo, en igualdad de acuerdos observados, cuanto mayor sea la diferencia entre las prevalencias observadas por cada observador mayor es el índice k .
En consecuencia, para interpretar el índice k es necesario contar, también con el valor de las frecuencias marginales de la tabla (prevalencias observadas por cada observador).
El pequeño valor de k para los datos del ejemplo (mediano en la escala de Landis y Koch) es "explicado" a la luz de los efectos anteriores por el hecho de que estamos en la peor de las situaciones posibles: baja prevalencia, y similar, en ambos observadores o, en la terminología anterior totales marginales "desbalanceados" con casi perfecta simetría.
Clasificaciones multinomiales
Si bien las clasificaciones binomiales son muy frecuentes, a menudo en clínica resultan insuficientes. P.e. un psiquiatra clasifica los trastornos de los pacientes en psicóticos, neuróticos u orgánicos, o un reumatólogo clasifica las artritis en leves, moderadas o graves. Ambas clasificaciones son multinomiales (tres categorías), no obstante existe una diferencia entre ellas, las categorías en el caso de la artritis pueden ordenarse de un modo relevante para el problema: una artritis grave es más que una moderada, y ésta más que una leve, mientras que para la clasificación psiquiátrica este orden no existe. A las variables multinomiales que tienen implícito un orden se les denomina ordinales y a las que no, nominales. Para estudiar la precisión de una clasificación multinomial, hay ciertas diferencias según que ésta sea ordinal o nominal.
Como en las clasificaciones binarias, los resultados de un estudio de concordancia se pueden resumir en una tabla de doble entrada, aunque ahora con K filas y K columnas, siendo K el número de categorías de la clasificación.
La notación usada en esta tabla es: para identificar una celda se usan dos subíndices: el primero para la fila y el segundo para la columna, por lo tanto Xij es el número de individuos que el observador B ha clasificado en la categoría i y el observador A en la j.
| Observador A | |
Obs. B | Cat. 1 | Cat. 2 | ... | Cat. K | Total |
Cat. 1 | X11 | X12 | ... | X1K | X1. |
Cat. 2 | X21 | X22 | ... | X2K | X2. |
. | . | . | ... | . | . |
Cat. K | XK1 | XK2 | ... | XKK | XK. |
Total | X.1 | X.2 | ... | X.K | N |
Para indicar los totales marginales se usa un punto en el lugar del subíndice con respecto al que se ha sumado: Xi. es la suma de la fila i y X.j es la suma de la columna j. En notación algebraica
Para una clasificación multinomial se puede definir un índice kappa idéntico al anterior, generalizando el cálculo de Po y Pe como
Ejemplo: Dos reumatólogos clasifican en tres categorías (leve, moderada, grave) 80 enfermos con artritis. Los resultados son
| Reumatólogo A | |
Reum. B | Leve | Mode. | Grave | Total |
Leve | 9 | 8 | 3 | 20 |
Moderada | 9 | 29 | 5 | 43 |
Grave | 0 | 3 | 14 | 17 |
Total | 18 | 40 | 22 | 80 |
Otra alternativa para estudiar concordancia entre clasificaciones multinomiales consiste en definir un índice kappa para cada una de las categorías, colapsando la tabla KxK original en K tablas 2x2 en las que se compara cada categoría con todas las demás. De este modo se puede estudiar la contribución de cada una de ellas a la concordancia de la clasificación.
Para los datos del ejemplo, se colapsaría la tabla en 3 tablas: una comparando la categoría leve con las demás, otra la moderada con las demás y la tercera la grave con las otras.
| | 1 | | 2 | | 3 |
| | Obs A | | Obs A | | Obs A |
| | L | O | | M | O | | G | O |
Obs B | L | 9 | 11 |
M
| 29 | 14 |
G
| 14 | 3 |
| O | 9 | 51 |
O
| 11 | 26 |
O
| 8 | 55 |
L: leve, M: moderada, G:grave, O:otra.
calculando en cada una de estas tablas Po, Pe y k resulta:
tabla | Po | Pe | k |
1 | 0,75 | 0,638 | 0,309 |
2 | 0,688 | 0,5 | 0,376 |
3 | 0,863 | 0,629 | 0,631 |
donde se observa que la clasificación de la categoría grave es la que mayor k produce (¿Cómo se interpreta?).
| | Índice kappa con "pesos"
Una solución que puede verse como intermedia entre las anteriores (un único kappa global o K kappas individuales para cada categoría), pero que, en general, sólo tiene sentido para variables ordinales, es el denominado kappa ponderado, también propuesto por Cohen, en el cual se asignan unos pesos para cuantificar la importancia relativa entre los desacuerdos. Pensando en el ejemplo anterior, no tiene la misma importancia un desacuerdo en la clasificación entre las categorías leve y moderada que entre leve y grave, obviamente la última representa un mayor desacuerdo que la primera.
La idea de este índice ponderado es asignar a cada celda de la tabla un peso wij comprendido entre 0 y 1 que represente la importancia del desacuerdo. Dando el máximo peso al acuerdo perfecto, y pesos proporcionalmente menores según la importancia del desacuerdo
además, obviamente wij = wji.
Las proporciones ponderadas de acuerdos observados y esperados se definen
y a partir de aquí, el kappa ponderado
Nótese que, en el caso extremo, si se definen los pesos como
el kappa ponderado coincide con el kappa global.
La principal ventaja del kappa ponderado reside en la posibilidad de cuantificar diferentes grados de desacuerdo. Los valores de los pesos dependerán, en cada caso, de la importancia que se conceda a cada desacuerdo, hay que tener presente, sin embargo, que ello añade cierta dificultad a su interpretación: si en dos estudios diferentes, se calcula el kappa ponderado con dos sistemas de pesos distintos, es difícil realizar comparaciones entre ellos. Los más usados en este sentido son, por su sencillez, los denominados pesos lineales, propuestos inicialmente por Cohen
y los denominados pesos bicuadrados, propuestos posteriormente por Fleiss y Cohen
Pesos lineales y bicuadrados para 3 categorías
Peso | lineal (wl) | bicuadrado (wb) |
Obs. | A | A |
| Cat | 1 | 2 | 3 | 1 | 2 | 3 |
B | 1 | 1 | 1/2 | 0 | 1 | 3/4 | 0 |
| 2 | 1/2 | 1 | 1/2 | 3/4 | 1 | 3/4 |
| 3 | 0 | 1/2 | 1 | 0 | 3/4 | 1 |
Para los datos del ejemplo de los reumatólogos los kappas usando estos sistemas de pesos son respectivamente y, más altos que sin pesos.
Múltiples observadores
Este índice se puede extender a múltiples observadores, con lo que las fórmulas se complican pero sin apenas cambios conceptuales.
| | Distribución muestral del índice k
El índice k se calcula a partir de muestras, por tanto se obtiene sólo una estimación del verdadero valor del k en la población. Es necesario estudiar su distribución muestral para poder construir intervalos de confianza y realizar contrastes de hipótesis.
En el caso de dos observadores clasificando en K categorías, en la hipótesis de independencia, se puede demostrar que la varianza del kappa estimado es
y si se cumplen las condiciones de aproximación de la binomial a la normal, el estadístico se distribuye como una normal tipificada y puede usarse para contrastar la H0: k = 0 con una región crítica para un contraste lateral z > za
P.1=18/80=0.225 P.2=40/80=0.5
P.3=22/80=0.275 P1.=20/80=0.25
P2.=43/80=0.5375 P3.=17/80=0.2125
Pe=0.383
por lo tanto
y no se puede rechazar la hipótesis nula de k = 0.
En general, sin embargo, estos contrastes no tienen mucho interés. El objetivo de un estudio de concordancia no es tanto contrastar si hay más acuerdo que el esperado en la hipótesis de independencia sino cuantificar el mismo. Si un estudio produce un k = 0,1 aunque sea significativamente distinto de 0, revela un acuerdo insignificante. Lo que tiene interés es, por tanto, la estimación por intervalos. Aquí debe señalarse que la varianza anterior se ha obtenido en la hipótesis de independencia entre observadores en cuyo caso k=0, y consecuentemente no sirve para construir intervalos de confianza en la hipótesis de no independencia. En esta hipótesis se puede demostrar que
siendo
y a partir de esta varianza, un intervalo de confianza aproximado, usando la normalidad asintótica de la distribución de, con un nivel de confianza de 100(1 - a)% es
También hay fórmulas, que os ahorro, para la varianza del kappa ponderado. Para el caso de múltiples observadores, aunque hay algunas aproximaciones parciales, no existe todavía una fórmula de uso general para la estimación de su varianza, y se suele usar una técnica muy general para construir intervalos de confianza para estadísticos de distribución muestral desconocida que es la denominada "técnica jackknife", introducida por Quenouille y que se puede aplicar al índice kappa.
|
|
|
|
No hay comentarios:
Publicar un comentario