Análisis de los residuos
Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada también en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso.
Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria
siendo k cualquier número real positivo. Otro modo alternativo de escribirlo es
Por lo tanto, un modo de contrastar, sin la asunción de normalidad, la hipótesis nula
H0 : ai = a
es calcular el cociente
y la probabilidad de error tipo I al rechazarla es £ 1/k2
Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estimación de EE(ai) no es válida.
Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en que las variablesex1,...,xk son independientes, distribuidas normalmente con media cero y todas con la misma varianza s2
ex1,...,xk es un conjunto de variables, una para cada combinación x1,...,xk de valores de las variables X1,...,Xk.
denominados residuos, son los valores que en la muestra toman estas variables.
Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable ex1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable e80,35,0; el del segundo a la variable e30,40,2; etc., es decir, para cada variable sólo se tiene un valor muestral.
Para el problema del ejemplo 8, sin embargo, sólo hay cuatro variables: e0,0, e1,0, e0,1 y e1,1 y sí puede haber suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de ajuste a la distribución normal (ji-cuadrado o Kolmogorov-Smirnov) y de homoscedasticidad (Bartlett).
El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0) y la misma varianza (s2), los residuos () también tienen una distribución normal con media 0 y varianza desconocida s2 y, simplemente, contrastar este extremo.
Al conjunto de técnicas que se usan para ello se le denomina análisis de los residuos.
El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una población normal con media 0 y varianza s 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.
Hay que tener en cuenta que de este modo se están contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida también a que el modelo sea inapropiado o a existencia de heterocedasticidad.
Teniendo en cuenta que (n-(k+1))s2/ s2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable
llamada residuo normalizado tendrá una distribución t de Student con (n-(k+1)) grados de libertad, que para valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribución de esta variable en lugar de el residuo.
Además de estas pruebas de significación para asegurar que globalmente se cumplen las asunciones del modelo, es útil realizar un análisis gráfico de los mismos que permite discriminar entre distintas violaciones de las mismas. Si se representara en una gráfica bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observaría una nube de puntos en dirección horizontal y con anchura constante (la media de cada ex1,...,xk debería ser cero y tener todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma estimación una gráfica de los residuos contra los valores predichos tendrá el mismo aspecto (fig. A).
Si se viola la linealidad se observará una falta de linealidad también en los residuos (fig. B), si se viola la homoscedasticidad, la anchura de la banda no será constante (fig. C), una relación lineal entre los residuos y las predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D).
| | Regresión lineal con el PRESTA
Con el PRESTA se puede realizar la regresión lineal simple con dos opciones: L (regresión lineal) o R (regresión múltiple) que tienen diferentes prestaciones.
La opción L puede leer las dos variables de diferentes archivos asumiendo que están en el mismo orden. Acepta variable de control, es decir permite leer sólo aquellos casos que cumplan alguna condición con respecto a otra variable, por ejemplo, si hay un archivo con 3 variables: SEXO, EDAD y PRESIS se pueden hacer la regresión lineal de PRESIS y EDAD sólo para los varones usando SEXO como variable de control. Acepta que el archivo tenga datos no especificados incluso en las variables a analizar (aunque obviamente no los usa).
Produce también una gráfica con los puntos, la recta de regresión y la banda de confianza al nivel solicitado. Permite dividir la nube de puntos en varias zonas (hasta un máximo de 5) y realizar regresiones distintas para cada zona como una primera aproximación a regresiones no lineales.
La opción R, en cambio, exige que ambas variables estén en el mismo archivo, no acepta archivos que contengan valores no especificados aunque sea en otras variables distintas a las del análisis y tampoco acepta variable de control. No produce gráfica y la salida contiene además de los estadísticos de L, el análisis de la varianza de la regresión, la matriz de covarianzas de los coeficientes de regresión y una lista con los residuos que se puede guardar en otra variable del archivo.
Permite guardar en otra variable del archivo los residuos. Para crear los residuos normalizados, hay que dividir esta variable por el error estándar de la estimación (s), con la opción de operar con variables del menú de Entrada y Edición de Datos.
Con esta misma opción se pueden restar los residuos de la variable dependiente para obtener los valores predichos y realizar con la opción de gráficas bivariantes el análisis gráfico.
En el menú de Entrada y Edición de Datos existen las opciones de operar con variables, que permite la creación de una variable producto de otras dos, para estudiar las interacciones y los términos no lineales, creación de variables "dummy" que permite crear variables indicadoras con los tres esquemas explicados en el texto y transformación de variables que, entre otras, permite el centrado de variables.
Además, a partir de la versión 2.2, el PRESTA incluye una opción con el diagnóstico de colinealidad. El programa pregunta el nombre del archivo y las variables a estudiar.
Índices de concordancia
Caso más sencillo: 2 observadores y variable dicotómica.
Ejemplo: dos radiólogos independientes informan como neumonía sí/no 100 radiografías. Los resultados son
|
Radiólogo A
|
|
Rad. B
|
Pulmonía
|
No pulmonía
|
Total
|
Pulm. | 4 | 6 | 10 |
No | 10 | 80 | 90 |
Total | 14 | 86 | 100 |
En general
|
Observador A
|
|
Obs. B | Positivo | Negativo | Total |
Positivo | a | b | r |
Negativo | c | d | s |
Total | t | u | N |
siendo N el número total de individuos observados, a el número de ellos al que ambos observadores clasifican como positivo, etc.
Existen varios índices de concordancia propuestos, el más obvio es la proporción de acuerdos observados, es decir (a + d)/N. Este índice es muy intuitivo y fácilmente interpretable: tomará valores entre 0 (total desacuerdo) y 1 (máximo acuerdo). Sin embargo como indicador de reproducibilidad tiene el inconveniente de que aun en el caso de que los dos observadores clasifiquen con criterios independientes se produciría un cierto grado de acuerdo por azar. Por ejemplo, si se tiran dos dados y se registra si sale un cierto número, p.e. el dos (resultado positivo) u otro cualquiera (resultado negativo), en un cierto número de veces (con una probabilidad de 26/36, para ser más preciso, siguiendo el razonamiento que se hace más abajo) ambos dados producirán el mismo resultado por azar. Es deseable que un índice de concordancia tenga en cuenta este hecho y que, de algún modo, indique el grado de acuerdo que existe por encima del esperado por azar. En este sentido, el índice más usado es el propuesto por Cohen y denominado índice kappa (k) que se define como
siendo Po la proporción de acuerdos observados y Pe la proporción de acuerdos esperados en la hipótesis de independencia entre los observadores, es decir de acuerdos por azar. A partir de la tabla
para calcular Pe hay recordar que dos sucesos A1, A2 son independientes si p(A1Ç A2)=p(A1)p(A2). En este caso, si llamamos A1 al suceso "el observador A clasifica un individuo como positivo" y A2 al suceso "el observador B clasifica un individuo como positivo" el suceso A1Ç A2 será "ambos observadores clasifican un individuo como positivo"; como el observador A ha clasificado t individuos como positivos y el B ha clasificado r, la mejor estimación de p(A1) es t/N y la de p(A2) es r/N, por lo tanto la mejor estimación de la probabilidad de que ambos clasifiquen como positivo a un individuo, en la hipótesis de que ambos son independientes es su producto, es decir rt/N2; por la misma razón, la probabilidad de que ambos clasifiquen como negativo a un individuo por azar es su/N2, en consecuencia
Cuando hay acuerdo total b=c=0, por lo tanto el valor de Po es 1 y en consecuencia el índice k también vale 1 para el máximo acuerdo; si el acuerdo observado es igual al esperado por azar, k vale 0. Obsérvese que si el acuerdo observado es menor que el esperado por azar, el índice k toma valores negativos. Un modo intuitivo de interpretar este índice puede hacerse despejando Po de la definición
si se piensa que la proporción de acuerdos observados (Po) es un valor intermedio entre el máximo acuerdo posible (1) y la proporción de acuerdos esperados por azar (Pe), k se puede interpretar como el peso que el máximo acuerdo posible tiene en los acuerdos observados.
En el ejemplo la proporción de acuerdos observados es
es decir, ambos radiólogos coinciden en un 84% de las radiografías. Ahora bien, el acuerdo esperado por azar es
por lo tanto
es decir, el grado de acuerdo una vez corregido el debido al azar es mucho más modesto que lo que indicaba el 84% de acuerdo "crudo". Según la interpretación anterior, el acuerdo observado está compuesto por un 24,5% del acuerdo máximo y un 75,5% del esperado por azar.
Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la siguiente escala de valoración del k
kappa
|
grado de acuerdo
|
< 0,00
|
sin acuerdo
|
>0,00 - 0,20
|
insignificante
|
0,21 - 0,40
|
discreto
|
>0,41 - 0,60
|
moderado
|
0,61 - 0,80
|
sustancial
|
0,81 - 1,00
|
casi perfecto
|
|
|
|
|
|
| |
No hay comentarios:
Publicar un comentario