domingo, 7 de junio de 2015

Estadística

Análisis de la regresión

 regresión logística es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras. Es útil para modelar la probabilidad de un evento ocurriendo como función de otros factores. El análisis de regresión logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función de enlace la función logit. Las probabilidades que describen el posible resultado de un único ensayo se modelan, como una función de variables explicativas, utilizando una función logística.
La regresión logística es usada extensamente en las ciencias médicas y sociales. Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logísticomodelo logit, y clasificador de máxima entropía.- ...............................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=12a07860e875a5f9ff4e25f248eb7395f5bf652b&writer=rdf2latex&return_to=Regresi%C3%B3n+log%C3%ADstica

LA REGRESION LOGISTICA (I)

Preparado por Luis M. Molinero (Alce Ingeniería)
CorreoE: bioestadisticaalceingenieria.netEnero 2001

Introducción

No cabe ninguna duda que la regresión logística es una de las herramientas estadísticas con mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de ahí su amplia utilización.
El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico).
De todos es sabido que este tipo de situaciones se aborda mediante técnicas de regresión. Sin embargo, la metodología de la regresión lineal no es aplicable ya que ahora la variable respuesta sólo presenta dos valores (nos centraremos en el caso dicotómico), como puede ser presencia/ausencia de hipertensión.
Si clasificamos el valor de la variable respuesta como 0 cuando no se presenta el suceso (ausencia de hipertensión) y con el valor 1 cuando sí está presente (paciente hipertenso), y buscamos cuantificar la posible relación entre la presencia de hipertensión y, por ejemplo, la cantidad media de sal consumida al día como posible factor de riesgo, podríamos caer en la tentación de utilizar una regresión lineal:
y estimar, a partir de nuestros datos, por el procedimiento habitual de mínimos cuadrados, los coeficientes a y b de la ecuación. Sin embargo, y aunque esto es posible matemáticamente, nos conduce a la obtención de resultados absurdos, ya que cuando se calcule la función obtenida para diferentes valores de consumo de sal se obtendrá resultados que, en general, serán diferentes de 0 y 1, los únicos realmente posibles en este caso, ya que esa restricción no se impone en la regresión lineal, en la que la respuesta puede en principio tomar cualquier valor.
Si utilizamos cómo variable dependiente la probabilidad p de que un paciente padezca hipertensión y construimos la siguiente función:
ahora sí tenemos una variable que puede tomar cualquier valor, por lo que podemos plantearnos el buscar para ella una ecuación de regresión tradicional:
que se puede convertir con una pequeña manipulación algebraica en
Y este es precisamente el tipo de ecuación que se conoce como modelo logístico, donde el número de factores puede ser más de uno, así en el exponente que figura en el denominador de la ecuación podríamos tener:
b1.consumo_sal + b2.edad + b3.sexo + b4.fumador

Los coeficientes del modelo logístico como cuantificadores de riesgo

Una de las características que hacen tan interesante la regresión logística es la relación que éstos guardan con un parámetro de cuantificación de riesgo conocido en la literatura como "odds ratio" (aunque puede tener traducción al castellano, renunciamos a ello para evitar confusión ya que siempre se utiliza la terminología inglesa).
El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra:
siendo p la probabilidad del suceso. Así, por ejemplo, podemos calcular el odds de presencia de hipertensión cuando el consumo diario de sal es igual o superior a una cierta cantidad, que en realidad determina cuántas veces es más probable que haya hipertensión a que no la haya en esa situación. Igualmente podríamos calcular el odds de presencia de hipertensión cuando el consumo de sal es inferior a esa cantidad. Si dividimos el primer odds entre el segundo, hemos calculado un cociente de odds, esto es un odds ratio, que de alguna manera cuantifica cuánto más probable es la aparición de hipertensión cuando se consume mucha sal (primer odds) respecto a cuando se consume poca. La noción que se está midiendo es parecida a la que encontramos en lo que se denomina riesgo relativo que corresponde al cociente de la probabilidad de que aparezca un suceso (hipertensión) cuando está presente el factor (consumo elevado de sal) respecto a cuando no lo está. De hecho cuando la prevalencia del suceso es baja (< 20 %) el valor del odds ratio y el riesgo relativo es muy parecido, pero no es así cuando el suceso es bastante común, hecho que a menudo se ignora y será objeto de un comentario más extenso en un nuevo artículo.
Si en la ecuación de regresión tenemos un factor dicotómico, como puede ser por ejemplo si el sujeto es no fumador, el coeficiente b de la ecuación para ese factor está directamente relacionado con el odds ratio OR de ser fumador respecto a no serlo
es decir que exp(b) es una medida que cuantifica el riesgo que representa poseer el factor correspondiente respecto a no poseerlo, suponiendo que el resto de variables del modelo permanecen constantes.
Cuando la variable es numérica, como puede ser por ejemplo la edad, o el índice de masa corporal, es una medida que cuantifica el cambio en el riesgo cuando se pasa de un valor del factor a otro, permaneciendo constantes el resto de variables. Así el odds ratio que supone pasar de la edad X1 a la edad X2, siendo b el coeficiente correspondiente a la edad en el modelo logístico es:
Nótese que se trata de un modelo en el que el aumento o disminución del riesgo al pasar de un valor a otro del factor es proporcional al cambio, es decir a la diferencia entre los dos valores, pero no al punto de partida, quiere esto decir que el cambio en el riesgo, con el modelo logístico, es el mismo cuando pasamos de 40 a 50 años que cuando pasamos de 80 a 90.
Cuando el coeficiente b de la variable es positivo obtendremos un odds ratio mayor que 1 y corresponde por tanto a un factor de riesgo. Por el contrario, si b es negativo el odds ratio será menor que 1 y se trata de un factor de protección.

Las variables cualitativas en el modelo logístico

Puesto que la metodología empleada para la estimación del modelo logístico se basa en la utilización de variables cuantitativas, al igual que en cualquier otro procedimiento de regresión, es incorrecto que en él intervengan variables cualitativas, ya sean nominales u ordinales.
La asignación de un número a cada categoría no resuelve el problema ya que si tenemos, por ejemplo, la variable ejercicio físico con tres posibles respuestas: sedentario, realiza ejercicio esporádicamente, realiza ejercicio frecuentemente, y le asignamos los valores 0, 1, 2, significa a efectos del modelo, que efectuar ejercicio físico frecuentemente es dos veces mayor que solo hacerlo esporádicamente, lo cual no tienen ningún sentido. Más absurdo sería si se trata, a diferencia de ésta, de una variable nominal, sin ninguna relación de orden entre las respuestas, como puede ser el estado civil.
La solución a este problema es crear tantas variables dicotómicas como número de respuestas - 1. Estas nuevas variables, artificialmente creadas, reciben en la literatura anglosajona el nombre de "dummy", traduciéndose en español con diferentes denominaciones como pueden ser variables internasindicadoras, o variables diseño.
Así por ejemplo si la variable en cuestión recoge datos de tabaquismo con las siguientes respuestas: Nunca fumóEx-fumadorActualmente fuma menos de 10 cigarrillos diariosActualmente fuma 10 o más cigarrillos diarios, tenemos 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:
I1I2I3
Nunca fumó000
Ex- fumador100
Menos de 10 cigarrillos diarios010
10 o más cigarrillos diarios001
En este tipo de codificación el coeficiente de la ecuación de regresión para cada variable diseño (siempre transformado con la función exponencial), se corresponde al odds ratio de esa categoría con respecto al nivel de referencia (la primera respuesta), en nuestro ejemplo cuantifica cómo cambia el riesgo respecto a no haber fumado nunca.
Existen otras posibilidades entre las que se destaca con un ejemplo para una variable cualitativa de tres respuestas:
I1I2
Respuesta 100
Respuesta 210
Respuesta 311
Con esta codificación cada coeficiente se interpreta como una media del cambio del riesgo al pasar de una categoría a la siguiente.
En el caso una categoría que NO pueda ser considerada de forma natural como nivel de referencia, como por ejemplo el grupo sanguíneo, un posible sistema de clasificación es:
I1I2
Respuesta 1-1-1
Respuesta 210
Respuesta 301
donde cada coeficiente de las variables indicadoras tiene una interpretación directa como cambio en el riesgo con respecto a la media de las tres respuestas.

Consejos sobre cómo presentar los resultados de una regresión logística

Es habitual presentar los resultados de la regresión logística en una tabla en la que aparecerá para cada variable el valor del coeficiente; su error estándar; un parámetro, denominado de chi² Wald, que permite contrastar si el coeficiente es significativamente diferente de 0 y el valor de p para ese contraste; así como los odds ratio de cada variable, junto con su intervalo de confianza para el 95 % de seguridad.
Ejemplo de presentación de una regresión logística:
Término
Coef.
Err.est.
chi²
p
Nivel signif.
Indepen.
-1.2168
0.9557
1.621
0.2029
NO
Edad
-0.0465
0.0374
1.545
0.2138
NO
Raza *
  
* 5.684
0.0583
casi(p < 0.1)
Raza 1
1.0735
0.5151
4.343
0.0372
p < 0.05
Raza 2
0.8154
0.4453
3.353
0.0671
casi(p < 0.1)
Fumador
0.8072
0.4044
3.983
0.0460
p < 0.05
HT
1.4352
0.6483
4.902
0.0268
p < 0.05
UI
0.6576
0.4666
1.986
0.1587
NO
LWD
0.8421
0.4055
4.312
0.0379
p < 0.05
PTD
1.2817
0.4621
7.692
0.0055
p < 0.01

Variable
Odds ratio
OR inf.95%
OR sup.95%
Edad
0.95
0.89
1.03
Raza 1
2.93
1.07
8.03
Raza 2
2.26
0.94
5.41
Fumador
2.24
1.01
4.95
HT
4.20
1.18
14.97
UI
1.93
0.77
4.82
LWD
2.32
1.05
5.14
PTD
3.60
1.46
8.91

Bondad del ajuste

Siempre que se construye un modelo de regresión es fundamental, antes de pasar a extraer conclusiones, el corroborar que el modelo calculado se ajusta efectivamente a los datos usados para estimarlo.
En el caso de la regresión logística una idea bastante intuitiva es calcular la probabilidad de aparición del suceso, presencia de hipertensión en nuestro caso, para todos los pacientes de la muestra. Si el ajuste es bueno, es de esperar que un valor alto de probabilidad se asocie con presencia real de hipertensión, y viceversa, si el valor de esa probabilidad calculada es bajo, cabe esperar también ausencia de hipertensión.
Esta idea intuitiva se lleva a cabo formalmente mediante la prueba conocida como de Hosmer-Lemeshow (1989), que básicamente consiste en dividir el recorrido de la probabilidad en deciles de riesgo (esto es probabilidad de hipertensión < 0.1, 0.2, y así hasta <1) y calcular tanto la distribución de hipertensos, como no hipertensos prevista por la ecuación y los valores realmente observados. Ambas distribuciones, esperada y observada, se contrastan mediante una prueba de chi².
En la presentación final de los datos de regresión logística debiera figurar siempre algún tipo de prueba de bondad de ajuste y las conclusiones comentadas que de ella se deducen, pues en el caso de la prueba Hosmer-Lemeshow es más ilustrativo que el propio resultado del contraste, los valores de la distribución obtenida.







 la regresión no lineal es un problema de inferencia para un modelo tipo:
 y = f(x,\theta) + \varepsilon
basado en datos multidimensionales x,y, donde f es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente, con el método de losmínimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.
El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función ftoma la forma:
f(x) = a x^2 + bx + c
la función f es no lineal en función de x pero lineal en función de los parámetros desconocidos ab, yc. Este es el sentido del término "lineal" en el contexto de la regresión estadística.- ............................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=4d4d84a08e2ce9f97718f85fd1cb46f86fc49bf8&writer=rdf2latex&return_to=Regresi%C3%B3n+no+lineal


Regresión no lineal

La regresión lineal no siempre da buenos resultados, porque a veces la relación entre Y yX no es lineal sino que exhibe algún grado de curvatura. La estimación directa de los parámetros de funciones no-lineales es un proceso bastante complicado. No obstante, a veces se pueden aplicar las técnicas de regresión lineal por medio de transformaciones de las variables originales.
Una función no-lineal que tiene muchas aplicaciones es la función exponencial:
Y = AXb 
donde A y b son constantes desconocidas. Si aplicamos logaritmos, esta función también puede ser expresada como:
log(Y) = log(A) + b.log(X)
Consideremos ahora la siguiente regresión lineal:
log(Y) = b0 + b1log(X)
En esta regresión (denominada regresión doble-log), en lugar de calcular la regresión deY contra X, calculamos la regresión del logaritmo de Y contra el logaritmo de X. Comparando estas dos ecuaciones, podemos apreciar que el coeficiente es un estimador de log(A), mientras que es un estimador de b (el exponente de la función exponencial). Este  modelo es particularmente interesante en aplicaciones econométricas, porque el exponente b en una función exponencial mide la elasticidad de Y respecto de X.
Cuadro 3
Demanda de Automóviles Nuevos
y Variables Relacionadas,
1932-56.
 X1X2X3Y
1932
126.5
83.4
18.7
1.10
1933
128.5
82.6
17.9
1.53
1934
128.5
90.9
18.9
1.93
1935
120.5
99.3
19.4
2.87
1936
117.0
111.6
20.1
3.51
1937
121.0
115.6
21.5
3.51
1938
133.8
109.0
22.3
1.96
1939
131.0
118.5
22.7
2.72
1940
134.3
127.0
23.2
3.46
1941
144.9
147.9
24.5
3.76
..........
1949
186.6
184.9
30.6
4.87
1950
186.6
200.5
33.1
6.37
1951
181.5
203.7
35.7
5.09
1952
195.7
209.2
37.6
4.19
1953
188.2
218.7
39.3
5.78
1954
190.2
221.6
41.6
5.47
1955
196.6
236.3
43.0
7.20
1956
193.4
247.2
47.0
5.90
Fuente: "The Demand for New
Automobiles in the United States," 
Review of Economics and Statistics
,
40 (August 1958): 279.
Como ejemplo, en el Cuadro 3 se muestran los datos básicos de un estudio de la demanda de carros nuevos en los Estados Unidos, publicado en 1958 por el Profesor D. B. Suits (nótese que Suits excluyó de su análisis los datos correspondientes al período 1942-48, por considerarlos poco representativos). Las variables consideradas para el análisis fueron las siguientes:
X1 = Índice del Precio Real de Automóviles Nuevos
X2 = Ingreso Disponible Real (en miles de millones de dólares)
X3 = Automóviles en Circulación al principio de cada año (millones de unidades)
Y = Ventas de Automóviles Nuevos (millones de unidades).
Con estos datos, podemos estimar la siguiente regresión doble-log:
log(Y) = b0 + b1log(X1) + b2log(X2) + b3log(X3)
Puesto que todas las variables se expresan en términos de logaritmos, los coeficientes de regresión son estimaciones de las elasticidades deY respecto de las variables independientes. La regresión estimada fue la siguiente:
log(Y) = - 1.5803 - 1.422 log(X1) + 3.216 log(X2) - 1.479 log(X3)
R2 = 0.942
En base a estos resultados, podemos concluir que la elasticidad-precio de la demanda de automóviles nuevos en este período era de aproximadamente —1.4, con una elasticidad-ingreso de aproximadamente 3.2. (¿Cuál sería la interpretación del coeficiente de la variable X3?)

No hay comentarios:

Publicar un comentario