viernes, 28 de abril de 2017

Bioestadística Clínica



Análisis de la varianza de la regresión
De un modo similar a RLS se puede descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si el modelo lineal no es adecuado, ambos estimadores estimarían la varianza de Y y si es adecuado no. Comparando ambos estimadores con la prueba de la F se contrasta lo adecuado del modelo. Para el ejemplo 5

Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los coeficientes.
Se define también el coeficiente de determinación como el cociente entre la suma de cuadrados de la regresión y la suma de cuadrados total (R2 = SSR/SST) y a su raíz cuadrada (R) se le denomina coeficiente de correlación múltiple.
Además de esta prueba global del modelo basada en el análisis de la varianza, se pueden plantear pruebas parciales sobre si una variable, o un grupo de variables, añadidas a un modelo previo lo mejoran.
Se tiene un modelo
y se añade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas será lo que ha mejorado la suma de cuadrados por añadir la variable X* y tendrá 1 grado de libertad.
SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X*)
y el cociente
llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en la hipótesis nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es totalmente equivalente a contrastar que el coeficiente a* de la nueva variable es cero con la prueba basada en la t.
Del mismo modo, si al modelo original se le añaden variables X1*,...,Xp*, se puede definir
SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*)
que tiene p grados de libertad, y el cociente
se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha hipótesis.
Ejemplo 6
Con los datos del ejemplo 5, realizar el contraste de la F parcial para añadir la variable ejercicio a un modelo que sólo contenga la edad y las grasas consumidas.
La tabla de anova correspondiente al modelo con EDAD y GRASAS es
Por lo tanto, comparando esta tabla con la del modelo completo
SSR(COLEST,EJERC|GRASAS,EDAD) = 
  SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) = 49275,94 - 48940,18 = 335,76
por tanto Fpar=335,76/3381,83=0,099
que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hipótesis de que EJERC no mejora el modelo. Obsérvese que esta Fpar es exactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables independientes.







Variables indicadoras ("dummy")
En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del ejercicio moderado (EJERC=1).
¿Es razonable esta asunción? y ¿para la variable FUMA codificada como 0: no fuma, 1:fumador y 2:ex-fumador?
Una solución podría ser crear tantas variables como categorías. No sirve porque serían combinación lineal y el modelo es irresoluble.
La solución es crear tantas variables como categorías menos 1 (en los ejemplos anteriores 2) denominadas variables indicadoras con el siguiente esquema
 X1X2
No-fumador00
Fumador10
Ex-fumador01
Las variables X1 y X2 ya no son combinación lineal y, por tanto, el modelo es resoluble. El modelo quedaría
a0 es mY cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; a0 + a1 es mYcuando X1 es 1 y X2 es 0, es decir fumadores, por lo tantoa1 es lo que cambia mY entre fumadores y no-fumadores y del mismo modoa2 es lo que cambia mY entre ex-fumadores y no-fumadores.
Con este esquema de codificación los coeficientes tienen una clara interpretación cuando, como en este caso, una de las categorías (no-fumador) se quiere usar como referencia para las demás.
A dicha categoría se le asigna el valor cero para todas las variables indicadoras. Sin embargo, para variables en las que no haya una categoría que sea natural usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es más útil otro esquema de codificación. Para discutirlo supóngase la variable lugar de residencia con cuatro lugares: A, B, C y D. Se crearán tres variables indicadoras (siempre una menos que categorías) con el siguiente esquema
X1X2X3
A-1-1-1
B100
C010
D001
El modelo quedará
y por lo tanto
mY = a0 - a1 - a2 - a3 = m Y|A para los residentes en AmY = a0 + a1 = mY|B para los residentes en BmY = a0 + a2 = mY|C para los residentes en CmY = a0 + a3 = mY|D para los residentes en D
si se suman las 4 ecuaciones:
a0 = ( mY|A + mY|B + mY|C + mY|D)/4 por lo tanto
a0 es la media de Y en los cuatro lugares de residenciaa1 la diferencia de los residentes en B con respecto a la mediaa2 la diferencia de los residentes en C con respecto a la media ya3 la diferencia de los residentes en D con respecto a la media y, evidentemente, - a1 - a2ala diferencia de los residentes en A con respecto a la media. De modo que a diferencia del esquema anterior, se usa como nivel de referencia la media en todas las categorías en lugar de una de ellas.
Otro posible esquema de codificación que a veces se usa en la literatura es
 X1X2X3
A111
B011
C001
D000
y queda para el lector, a modo de ejercicio, la interpretación de los coeficientes de regresión en este caso.
Conviene destacar que estas variables indicadoras no tienen ningún sentido por sí solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusión siempre en bloque, usando la F del modelo completo si sólo están dichas variables en el modelo, o la F parcial correspondiente a las mismas si hay más variables.
Ejercicio propuesto : Para los datos del Ejemplo 5, crear "dummys" para el ejercicio (¿con qué esquema?) y contrastar (con la F parcial) si estas variables mejoran el modelo que sólo contiene edad y grasas. Interpretar los coeficientes.
Ejemplo 7: Considérense los siguientes datos, procedentes de una muestra hipotética, sobre presión arterial en cm de Hg y "status" de fumador, codificado como 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresión entre presión arterial y "status" de fumador y estimar por intervalos la presión arterial media según el "status" de fumador, a partir de los resultados del modelo más adecuado.
PacientePresión arte.Fumador
115,00
219,02
316,31
422,01
518,02
619,80
723,21
814,40
920,32
1022,01
1120,52
1219,02
1312,70
1414,00
1511,80
1611,22
1714,00
1819,51
1922,31
2015,00
2112,62
2216,40
2313,52
2413,71
Los resultados de un modelo entre presión arterial y "status" de fumador tal y como está codificado en la tabla son:
 
En este caso de una única variable independiente, el contraste sobre el modelo global con la F es equivalente al realizado con la sobre el coeficiente a1 y con ninguno se puede rechazar la hipótesis nula (p=0,250) de no dependencia. Es decir, analizado de este modo no hay dependencia entre ambas variables.
Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema discutido antes la tabla de datos queda
PACIENPRE_ARFUMADORFUMAEX_FUMA
115.0000
219.0201
316.3110
422.0110
518.0201
619.8000
723.2110
814.4000
920.3201
1022.0110
1120.5201
1219.0201
1312.7000
1414.0000
1511.8000
1611.2201
1714.0000
1819.5110
1922.3110
2015.0000
2112.6201
2216.4000
2313.5201
2413.7110
y el modelo entre PRE_AR y FUMA y EX_FUMA
Para contrastar si la presión arterial depende del "status" de fumador, deberá usarse el contraste basado en la F (p=0,018) y por lo tanto al nivel de significación habitual a =0,05 se rechaza la hipótesis nula de no dependencia. A pesar de que el coeficiente para EX_FUMA no es significativamente distinto de 0 (p=0,220), se mantiene en el modelo porque FUMA no tiene sentido por sí sola.
Obsérvese que usando las variables indicadoras se ha encontrado una dependencia que antes no se había puesto de manifiesto, debido a la falta de linealidad para los códigos usados.
La estimación puntual de la presión arterial media de los no-fumadores (a0 en el modelo) es 14,789 con un error estándar estimado de 1,07 y, como t0,025(21) = 2,08, su intervalo de confianza al 95% es 14,789 ± 2,08x1,07 = (12,563 17,014).
La estimación del aumento medio de la presión arterial en los fumadores (a1) es 5,068 que es significativamente distinto de cero (p=0,005) y la estimación del aumento medio de la presión arterial en los ex-fumadores (a2) es 1,974 pero no es significativamente distinto de cero (p=0,220).
Para realizar la estimación por intervalos de la presión media en fumadores (a0+ a1) y ex-fumadores (a0 + a2) se necesita estimar sus respectivas varianzas
var(a0 + a1) = var( a0) + var( a1) + 2cov( a0 , a1) = 1,145 + 2,618 - 2 x 1,145 = 1,473
EE(a0 + a1) = 1,214
var(a0 + a2) = var( a0) + var( a2) + 2cov( a0 , a2) = 1,145 + 2,434 - 2 x 1,145 = 1,289
EE(a0 + a2) = 1,135
Por lo tanto los intervalos de confianza al 95% para la presión arterial media de fumadores y ex-fumadores son
fumadores: (14,789+5,068) ± 2,08x1,214 = (17,332 22,382)
ex-fumad : (14,789+1,974) 
± 2,08x1,135 = (14,402 19,124)
recordemos que para no-fumadores se había obtenido
no-fumad : 14,789 ± 2,08x1,07 = (12,563 17,015)
y que la diferencia entre no-fumadores y ex-fumadores no es significativa, mientras que la diferencia entre no-fumadores y fumadores sí lo es.





Interacción y confusión en la regresión
Los modelos de regresión pueden usarse con dos objetivos:
1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y
2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el interés podría ser encontrar el modelo que mejor prediga el nivel de colesterol en sangre, en función de las otras variables (objetivo 1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel de colesterol (objetivo 2).
El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimación del coeficiente de la variable de interés. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso.
La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras.
Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina variable de confusión para la asociación.
Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenómenos. En el ejemplo 5 la edad no presenta una correlación significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable de confusión para la asociación entre colesterol y edad. Para que exista confusión no es necesario que exista un cambio tan drástico (la correlación es significativa en un caso y no lo es en el otro), también puede ocurrir que, aún siendo significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la mejor estimación del coeficiente es la que se obtiene del modelo en que figura la variable de confusión, en el ejemplo, la mejor estimación del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas.
En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se diría que, para el nivel de colesterol, existe interacción entre la edad y el ejercicio realizado. En este caso no existe una única estimación del coeficiente de la variable de interés, sino que habría una estimación para cada nivel de la otra variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan.
Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable Y y otra variable X1 es
mY = a0 + a1 X1
donde a1 cuantifica la asociación: es el cambio en mY por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo
mY = a0 + a1 X1 + a2 X2
produce una estimación para a1 diferente del modelo anterior. Evidentemente esta definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusión si la estimación de a1 obtenida por el modelo
mY = a0 + a1 X1 + a2 X2 + ... + ak Xk
es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de a1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk
Contrastar la existencia de confusión requiere, por lo tanto, comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en la estimación, que puede afectar tanto al propio coeficiente como a su error estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su error estándar cambian en más del 10%).
El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es
mY = a0 + a1 X1 + a2 X2 + a3 X1 X2
En este modelo, el valor de mY para unos valores determinados x1, x2 de X1X2 es
mY = a0 + a1 x1a2 x2a3 x1x2
y para los valores x1 + 1 y x2
mY = a0 + a 1(x1+ 1) + a2 x2a3 (x1+ 1) x2 = a0 + a1 x1a1 + a2 x+ a3 x1x2 + a3x2
restando ambas se encuentra el cambio en mY por una unidad de cambio en X1manteniendo fijo X2
a1 + a3 x2
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en m Y por una unidad de cambio en X2 manteniendo fijo X1 es
a2 + a3 x1
Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente a 3 es cero (no hay interacción), o distinto de cero (existe interacción).
En caso de que exista interacción los coeficientes ay apor sí solos no significan nada y la asociación de las variables X1 X2 con Y estará cuantificada por las expresiones anteriores.
Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión.
Ejemplo 8
En un trabajo para estudiar la relación de la presión arterial sistólica con el consumo de tabaco y café, codificadas ambas como 0: no y 1: sí, se han obtenido los siguientes datos de una muestra aleatoria hipotética
PacientePresión arte.TabacoCafé
115,001
211,011
326,310
413,011
518,001
619,811
723,210
814,400
913,311
1012,011
1122,510
1223,510
1312,701
1414,001
1511,800
1621,210
1714,000
1815,511
1912,311
2015,000
2122,610
2216,401
2323,510
2413,711
Contrastar la existencia de interacción y confusión y obtener la mejor estimación por intervalos para el efecto de ambos factores.
Para contrastar la existencia de interacción se crea una nueva variable (TABXCA) que sea el producto de la variables TABACO y CAFE y se hace un modelo de regresión con las 3 variables. El resultado es


Según la tabla de anova, el modelo completo es muy significativo (p=0,000). El coeficiente de correlación múltiple es muy alto, ya que la proporción de suma de cuadrados explicada por la regresión (R2) es aproximadamente del 82%. El coeficiente del término de interacción es significativamente distinto de cero (p=0,000), y aunque el del término del CAFE no lo sea (p=0,332) se mantiene en el modelo en aplicación del principio jerárquico.
Hay interacción entre CAFE y TABACO y no puede hablarse, por lo tanto, de un efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de café y otro distinto para los no consumidores de café y, del mismo modo, hay un efecto del café para los consumidores de tabaco y otro efecto para los no consumidores de tabaco.
Vamos a estimar el efecto del tabaco.
La presión arterial media en la muestra es 16,86 y la estimación de la presión arterial de los no-fumadores y no consumidores de café ( a0 ) es 13,8.
Según vimos antes la estimación del efecto del tabaco (cambio en la presión arterial media por ser fumador) es para los no consumidores de café ay para los consumidores de café a1 + a3. La varianza estimada de esta última estimación es
var( a1 + a3) = var(a1) + var( a3) + 2cov( a1 , a3) = 1,779 + 3,251 + 2x(-1,779) = 1,472
por lo tanto EE(a1 + a3) = 1,213. Como t0,025(20)= 2,086 los intervalos de confianza estimados al 95% para el efecto del tabaco son
no consumidores de café: 9,457 ± 2,086x1,334 = ( 6,675 12,240)
consumidores: 9,457-10,852 ± 2,086x1,213 = (-3,925 1,135)
para los no consumidores de café, el tabaco aumenta la presión arterial media en 9,457 unidades y este aumento es significativamente distinto de cero, mientras que para los consumidores de café la disminuye en -1,395 unidades, si bien esta disminución no es significativamente distinta de cero (su intervalo de confianza incluye el cero).



No hay comentarios:

Publicar un comentario