viernes, 28 de abril de 2017

Bioestadística Clínica


Estrategias de modelización
El problema es ¿cómo usamos todo esto?. Debido a los dos objetivos distintos que un análisis de regresión puede tener es difícil establecer una estrategia general para encontrar el mejor modelo de regresión, es más, el mejor modelo significa cosas distintas con cada objetivo.
En un análisis predictivo el mejor modelo es el que produce predicciones másfiables para una nueva observación, mientras que en un análisis estimativo el mejor modelo es el que produce estimaciones más precisas para el coeficiente de la variable de interés.
En ambos casos se prefiere el modelo más sencillo posible (a este modo de seleccionar modelos se le denomina parsimonia), de modo que en un análisis estimativo, se puede excluir del modelo una variable que tenga un coeficiente significativamente distinto de cero y que su contribución a la predicción de la variable dependiente sea importante, porque no sea variable de confusión para la variable de interés (el coeficiente de dicha variable no cambia), en un análisis predictivo esa variable no se excluiría.
Sin embargo, hay una serie de pasos que deben realizarse siempre:
i) Especificación del modelo máximo.
ii) Especificación de un criterio de comparación de modelos y definición de una estrategia para realizarla.
iii) Evaluación de la fiabilidad del modelo.
i) Especificación del modelo máximo
Se trata de establecer todas las variables que van a ser consideradas. Recuérdese que el modelo saturado (el máximo que se puede considerar) tiene n - 1 variables pero que, con este modelo, los grados de libertad para SSE son cero, y R2=1, de modo que, en general, el modelo saturado no tiene interés y el modelo máximo deberá tener menos variables independientes que el modelo saturado (un criterio habitual es incluir como máximo una variable cada 10 casos).
El criterio para decidir qué variables forman el modelo máximo lo establece el investigador en función de sus objetivos y del conocimiento teórico que tenga sobre el problema, evidentemente cuanto menor sea el conocimiento previo mayor tenderá a ser el modelo máximo.
Un modelo máximo grande minimiza la probabilidad de error tipo II o infraajuste, que en un análisis de regresión consiste en no considerar una variable que realmente tiene un coeficiente de regresión distinto de cero.
Un modelo máximo pequeño minimiza la probabilidad de error tipo I o sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de regresión realmente sea cero).
Debe tenerse en cuenta también que un sobreajuste, en general, no introduce sesgos en la estimación de los coeficientes (los coeficientes de las otras variables no cambian), mientras que un infraajuste puede producirlos, pero que un modelo máximo grande aumenta la probabilidad de problemas de colinealidad.
En el modelo máximo deben considerarse también los términos de interacción que se van a introducir (en un modelo estimativo sólo interesan interacciones entre la variable de interés y las otras) y la posibilidad de incluir términos no lineales. En Biología son muy frecuentes relaciones no lineales, que pueden modelizarse con términos cuadráticos o de mayor orden o con transformaciones tales como la exponencial o el logaritmo.
En el ejemplo 5 podría considerarse que la dependencia del nivel de colesterol en sangre con las grasas consumidas puede no ser lineal y presentar, por ejemplo, saturación: por encima de un cierto nivel de grasas ingeridas el colesterol en sangre ya no sube más, o un punto umbral: las grasas consumidas elevan el colesterol, sólo si sobrepasan un cierto valor. Cada uno de estos fenómenos puede modelarse satisfactoriamente con un término cuadrático o una transformación logarítmica o exponencial (introducir en el modelo junto con, o en lugar de, la variable GRASAS, la variable (GRASAS)2; o log(GRASAS) o EXP(GRASAS)) y ambos juntos, con un término cúbico ((GRASAS)3).
ii) Comparación de modelos
Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios estadísticos sugeridos para comparar modelos, el más frecuentemente usado es la F parcial, recordando que cuando los dos modelos sólo difieren en una variable, el contraste sobre la F parcial es exactamente el mismo que el realizado con la t sobre el coeficiente de regresión, pero a veces interesa contrastar varias variables conjuntamente mejor que una a una (por ejemplo todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo para variables indicadoras).
Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir variables distintas a las de interés, es sobre todo los cambios en los coeficientes y no los cambios en la significación del modelo.
Los distintos modelos a comparar se pueden construir de dos formas: por eliminación o hacia atrás ("backward") y por inclusión o hacia adelante ("forward").
Con la primera estrategia, se ajusta el modelo máximo y se calcula la F parcial para cada variable como si fuera la última introducida (que es equivalente a la t para esa variable), se elige la menor de ellas y se contrasta con el nivel de significación elegido. Si es mayor o igual que el valor crítico se adopta este modelo como resultado del análisis y si es menor se elimina esa variable y se vuelve a repetir todo el proceso hasta que no se pueda eliminar ninguna variable.
Con la estrategia hacia adelante, se empieza con un modelo de una variable, aquella que presente el mayor coeficiente de correlación simple. Se calcula la F parcial para la inclusión de todas las demás, se elige la mayor de ellas y se contrasta con el nivel de significación elegido. Si es menor que el valor crítico, se para el proceso y se elige el modelo simple como mejor modelo, y si es mayor o igual que dicho valor crítico, esa variable se incluye en el modelo y se vuelve a calcular la F parcial para la inclusión de cada una de todas las restantes, y así sucesivamente hasta que no se pueda incluir ninguna más.
Una modificación de esta última estrategia es la denominada "stepwise" que consiste en que, cada vez que con el criterio anterior se incluye una variable, se calculan las F parciales de todas las incluidas hasta ese momento como si fueran las últimas y la variable con menor F parcial no significativa, si la hubiera, se elimina. Se vuelven a calcular las F parciales y se continua añadiendo y eliminando variables hasta que el modelo sea estable.
Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se puede contrastar varias variables en lugar de una sola y que, en aplicación del principio jerárquico, cuando se contrasta un término de interacción, el modelo debe incluir todos los términos de orden inferior y, si como resultado del contraste, dicho término permanece en el modelo, también ellos deben permanecer en el mismo, aunque no se pueda rechazar que los coeficientes correspondientes no son distintos de cero.
En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias automáticamente (con un paquete estadístico, por ejemplo) por lo que se ha comentado más arriba sobre los distintos criterios dependiendo del objetivo del estudio, los términos de interacción y las variables indicadoras.
Ejemplo 9
Encontrar el mejor modelo para los datos del ejemplo 5 , con el objetivo de estimar el efecto del consumo de grasas sobre el nivel del colesterol y usando la estrategia hacia atrás.
El modelo máximo estaría formado por EDAD, GRASAS, EJERC (teniendo en cuenta que está codificado en 3 niveles podría ser conveniente analizarlo a través de 2 variables indicadoras, pero no se va a hacer por simplicidad del ejemplo), se considerará también el término (GRASAS)2 para analizar relaciones no lineales y los términos de interacción entre GRASAS y EDAD y entre GRASAS y EJERC. La interacción entre EDAD y EJERC en este caso no interesa, puesto que la variable de interés es GRASAS.
En el archivo de datos, habrá que crear 3 variables nuevas: GRASA2 = (GRASAS)2, GRAXED = GRASAS x EDAD y GRAXEJ = GRASAS x EJERC y el resultado del análisis del modelo máximo es


Recordando que la F parcial de una variable dadas todas las demás es el cuadrado del valor de t para el coeficiente de la misma, la variable que tiene menor F parcial no significativa es GRAXEJ, por lo tanto esta variable se elimina y se ajusta ahora un modelo excluyéndola.


Obsérvese que R apenas ha disminuido (R siempre disminuye al quitar variables y su disminución es otro de los estadísticos propuestos para comparar modelos) pero la F global ha mejorado (p=0,018 frente a 0,040).
En este modelo la menor F parcial no significativa corresponde a EDAD, sin embargo, en el modelo todavía está el término de interacción entre EDAD y GRASAS (GRAXED) en consecuencia EDAD no se puede quitar (principio jerárquico), la siguiente F parcial corresponde a EJERCI y no es significativa, en consecuencia se quita EJERCI. El nuevo modelo es

No hay cambios en los coeficientes de GRASAS, ni GRASA2, ni GRAXED (EJERCI no es variable de confusión, por lo tanto se puede eliminar definitivamente. Si hubiera habido cambios no se podría eliminar a pesar de no ser significativa).
La variable con menor F parcial sigue siendo EDAD y la siguiente GRAXED. Se quita y el nuevo modelo es

La menor F parcial no significativa es, ahora, la de GRASAS, pero GRASA2 debe contrastarse antes y como tampoco es significativa (obsérvese, no obstante, que está en el borde y podría tratarse de un problema de falta de potencia) se quitaría GRASA2. El modelo finalmente queda


Donde la F global es significativa siendo también significativas las F parciales de las dos variables que permanecen, de modo que éste podría ser el modelo final.
No obstante, como el objetivo del estudio es estimar el efecto de las grasas, se debería probar un modelo sin la edad y si en éste último modelo no hubiera cambios en la estimación del efecto de las grasas, podría quitarse la edad, en aplicación del principio de parsimonia.

Como el cambio en el coeficiente es mayor que el 10%, concluimos que EDAD es variable de confusión y el modelo final es el que comntoene GRASAs y EDAD.
iii) Evaluación de la fiabilidad del modelo
Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir, evaluar si se comporta igual en otras muestras extraídas de la misma población. Evidentemente, el modo más completo de evaluarlo será repetir el estudio con otra muestra y comprobar que se obtienen los mismos resultados, aunque generalmente esta aproximación resulta excesivamente costosa.
Otra aproximación alternativa consiste en partir aleatoriamente la muestra en dos grupos y ajustar el modelo con cada uno de ellos y si se obtienen los mismos resultados se considera que el modelo es fiable. Esta aproximación es demasiado estricta ya que, en la práctica, casi nunca se obtienen los mismos resultados.
Una validación menos estricta consiste en ajustar el modelo sobre uno de los grupos (grupo de trabajo) y calcular su R2, que se puede interpretar como el cuadrado del coeficiente de correlación simple entre la variable dependiente y las estimaciones obtenidas en la regresión.
Después, y con el modelo obtenido en el grupo de trabajo, calcular las estimaciones de la variable dependiente en el otro grupo (grupo de validación) y calcular el coeficiente de correlación simple al cuadrado entre estas estimaciones y la variable dependiente (R2*), a este coeficiente se le denomina coeficiente de correlación de validación cruzada. A la diferencia R2-R2* se le denomina reducción en la validación cruzada y, aunque no hay reglas firmes al respecto, se considera que una reducción superior a 0,90 indica un modelo no fiable y una reducción inferior a 0,10 indica un modelo muy fiable.



El problema de la colinealidad
Es uno de los problemas más desesperantes con que uno se puede encontrar en un análisis de regresión. Como ya vimos al hablar de la estimación de los coeficientes, si en un modelo de RLM alguna variable independiente es combinación lineal de otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular, es decir, su determinante es cero y no se puede invertir.
A este fenómeno se le denomina colinealidad. Que una variable X1 sea combinación lineal de otra X2, significa que ambas están relacionadas por la expresión X1 = b1 + b2X2, siendo b1 y b2 constantes, por lo tanto el coeficiente de correlación entre ambas variables será 1.
Del mismo modo, que una variable X1 sea combinación lineal de otras X2, ..., Xi con i>2, significa que dichas variables están relacionadas por la expresión X1 = b1 > + b2 X2 + ... + bi Xi, siendo b1,..., bi constantes y por tanto, el coeficiente de correlación múltiple RX1|X2,...Xi también será 1.
Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad cuando alguno de los coeficientes de correlación simple o múltiple entre algunas de las variables independientes es 1, es decir, cuando algunas variables independientes están correlacionadas entre sí.
En la práctica, esta colinealidad exacta raras veces ocurre, pero sí surge con cierta frecuencia la llamada casi-colinealidad, o por extensión, simplemente colinealidad en que alguna variable es "casi" combinación lineal de otra u otras, o dicho de otro modo, algunos coeficientes de correlación simple o múltiple entre las variables independientes están cercanos a 1, aunque no llegan a dicho valor.
En este caso la matriz X'X es casi-singular, es decir su determinante no es cero pero es muy pequeño. Como para invertir una matriz hay que dividir por su determinante, en esta situación surgen problemas de precisión en la estimación de los coeficientes, ya que los algoritmos de inversión de matrices pierden precisión al tener que dividir por un número muy pequeño, siendo además inestables.
Además, como la matriz de varianzas de los estimadores es proporcional a X'X, resulta que en presencia de colinealidad los errores estándar de los coeficientes son grandes (hay imprecisión también en sentido estadístico).
Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar previamente la existencia de casi-colinealidad (la colinealidad exacta no es necesario estudiarla previamente, ya que todos los algoritmos la detectan, de hecho no pueden acabar la estimación). Como medida de la misma hay varios estadísticos propuestos, los más sencillos son los coeficientes de determinación de cada variable independiente con todas las demás, es decir
y, relacionados con ellos, el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos como
Una regla empírica, citada por Kleinbaum, consiste en considerar que existen problemas de colinealidad si algún FIV es superior a 10, que corresponde a algún R2i 0,9 y T< 0,1.
Aunque puede existir colinealidad con FIV bajos, además puede haber colinealidades que no impliquen a todas las variables independientes y que, por tanto, no son bien detectadas por el FIV.
Otra manera, más completa, de detectar colinealidad es realizar un análisis de componentes principales de las variables independientes. Esta técnica es matemáticamente compleja y aquí se hace sólo un resumen de la misma necesario para entender el diagnóstico de la colinealidad.
Se denominan componentes principales de un conjunto de variables a otras variables, combinación lineal de las originales y que tienen tres propiedades características:
i) son mutuamente independientes (no están correlacionadas entre sí).
ii) mantienen la misma información que las variables originales.
iii) tienen la máxima varianza posible con las limitaciones anteriores.
De hecho, para modelos predictivos los componentes principales son las variables independientes ideales.
La varianza de cada componente principal es un autovalor (número asociado a una matriz) de la matriz de varianzas-covarianzas de las variables originales.
El número de autovalores nulos indica el número de variables que son combinación lineal de otras (el número de colinealidades exactas) y autovalores próximos a cero indican problemas graves de colinealidad.
El cálculo de los autovalores permite, por lo tanto, determinar no sólo la existencia de colinealidad, sino también el número de colinealidades.
Para determinar cuándo un autovalor pequeño está suficientemente próximo a cero se usa su valor relativo con respecto al mayor, en este sentido, para cada autovalor se define el índice de condición como la raíz cuadrada del cociente entre el mayor de ellos y dicho autovalor y se denomina número de condición al mayor de los índices de condición.
Para Belsley índices de condición entre 5 y 10 están asociados con una colinealidad débil, mientras que índices de condición entre 30 y 100 señalan una colinealidad moderada a fuerte.
Una vez determinada la presencia y el número de colinealidades, es conveniente averiguar qué variables están implicadas en ellas. Usando ciertas propiedades de la matrices se puede calcular la proporción de la varianza de las variables sobre cada componente.
Si dos o más variables tienen una proporción de varianza alta en un componente indica que esas variables están implicadas en la colinealidad y, por tanto, la estimación de sus coeficientes está degradada por la misma.
Belsley propone usar conjuntamente los índices de condición y la proporción de descomposición de varianza para realizar el diagnóstico de colinealidad, usando como umbral de proporción alta 0,5 de modo que, finalmente, dicho diagnóstico se hará:
Los índices de condición altos (mayores que 30) indican el número de colinealidades y la magnitud de los mismos mide su importancia relativa.
Si un componente tiene un índice de condición mayor que 30 y dos o más variables tienen un proporción de varianza alta en el mismo, esas variables son colineales.
Como ya se indicó más arriba, la mejor solución a los problemas de colinealidad consiste en plantear el modelo de regresión con los componentes principales en lugar de con las variables originales, si bien esta solución sólo está indicada en los modelos predictivos.
En los modelos estimativos no tiene sentido, ya que el interés del modelo es, justamente, estimar el efecto sobre la variable independiente de una variable determinada y no interesa, por lo tanto, usar otras variables distintas.
Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media) o, incluso, eliminar alguna de las variables colineales.
En este mismo sentido hay que tener en cuenta que las variables producto introducidas para estudiar la interacción pueden dan lugar a problemas de colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos términos de interacción.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe colinealidad exacta con el término independiente, y si una variable tiene varianza casi cero (toma valores muy próximos para todas las observaciones) existe casi-colinealidad.
Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para la variable, por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene una varianza 100 veces menor que si se midiera en años. En este caso un cambio de escala puede evitar el problema de la colinealidad.
También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sería el contrario, por ejemplo, podría dar lugar a problemas de precisión medir la edad en días.
Ejemplo 10
Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los índices de condición y la matriz de proporción de descomposición de la varianza de los estimadores.
Realizando los análisis de regresión de cada una de las variables independientes con todas las demás, se obtienen los siguientes coeficientes de determinación, tolerancia y factores de inflación de la varianza
que indican problemas graves de colinealidad.
Obsérvese que el factor de inflación mayor corresponde a la variable GRASAS, resultado esperable debido a que se han creado tres variables más (GRASA2, GRAXED y GRAXEJ) a partir de ella.
Los autovalores de la matriz X'X y los índices de condición, así como la matriz de proporción de descomposición de varianza son:
Hay un índice de condición alto (50,781) y asociado con el mismo hay cinco variables (el término constante, GRASAS, GRASA2, EDAD y GRAXED) con proporción de varianza alta.
Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos sorprende), EDAD y con la constante.
Al existir esta última colinealidad, el centrado de variables podría mejorar el problema, se podría también renunciar a estudiar los términos no lineales GRASA2 y GRAXED.
Empecemos por centrar las variables continuas.
GRASAC = GRASAS - 39,7
EDADC = EDAD - 36,25
GRASC2 = GRASAC x GRASAC
GRXEDC = GRASAC x EDADC
GRXEJC = GRASAC x EJERC
y, para ellas, el diagnóstico de colinealidad queda:
y tanto los índices de condición como la proporción de varianza, indican que el centrado ha resuelto los problemas de colinealidad.

No hay comentarios:

Publicar un comentario