Clasificación de los modelos de regresión.
Los modelos de regresión se pueden clasificar de dos formas:
Según la metodología utilizada para su estudio:
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Según la forma de recogida muestral, se distinguen dos tipos de modelos de regresión:
|
El tratamiento matemático en ambos modelos, de diseño fijo y de diseño aleatorio, es similar aunque las conclusiones e interpretación de los resultados varían según sea el caso. En este texto, el estudio se centra en el modelo de regresión con diseño fijo que tiene una menor complejidad.
El modelo de regresión lineal simple.
6.3.1 Formulación matemática del modelo.
El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta
y la variable regresora
, a partir de una muestra
i = 1n, que sigue el siguiente modelo:
|
Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial
|
donde
t =
,
t =
,
t =
,
t =
.
Se supone que se verifican las siguientes hipótesis:
- La función de regresión es lineal,o, equivalentemente, E
= 0, i = 1,...,n.
- La varianza es constante (homocedasticidad),o, equivalentemente, V ar
=
2, i = 1,...,n.
- La distribución es normal,o, equivalentemente,
i ~ N
, i = 1,...,n.
- Las observaciones Y i son independientes. Bajo las hipótesis de normalidad, esto equivale a que la Cov(Y i,Y j) = 0, si i
j.
Esta hipótesis en función de los errores sería “losi son independientes”, que bajo normalidad, equivale a que Cov
= 0, si i
j.
6.3.2 Estimación de los parámetros del modelo.
En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión,
0 y
1; y la varianza de la distribución normal,
2.
El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos, siendo los más utilizados el método de máxima verosimilitud y el método de mínimos cuadrados.
Método de máxima verosimilitud.
Conocida una muestra de tamaño n,
, de la hipótesis de normalidad se sigue que la densidad condicionada en yi es
y, por tanto, la función de densidad conjunta de la muestra es,
Una vez tomada la muestra y, por tanto, que se conocen los valores de
i = 1n, se define la función de verosimilitud asociada a la muestra como sigue
|
esta función (con variables
0,
1 y
2) mide la verosimilitud de los posibles valores de estas variables en base a la muestra recogida.
El método de máxima verosimilitud se basa en calcular los valores de
0,
1 y
2 que maximizan la función (9.3) y, por tanto, hacen máxima la probabilidad de ocurrencia de la muestra obtenida. Por ser la función de verosimilitud una función creciente, el problema es más sencillo si se toman logaritmos y se maximiza la función resultante, denominada función soporte,
Maximizando la anterior se obtienen los siguientes estimadores máximo verosímiles,
donde se ha denotado
e
a las medias muestrales de X e Y, respectivamente; sx2 es la varianza muestral de X y sXY es la covarianza muestral entre X e Y. Estos valores se calculan de la siguiente forma:
Método de mínimos cuadrados.
A partir de los estimadores:
0 y
1, se pueden calcular las predicciones para las observaciones muestrales, dadas por,
o, en forma matricial,
donde
t =
. Ahora se definen los residuos como
| ei | = yi - |
| Residuo | = Valor observado -Valor previsto, |
en forma matricial,
Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los cuadrados de los residuos, ésto es, minimizando la siguiente función,
|
derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas ecuaciones canónicas,
|
De donde se deducen los siguientes estimadores mínimo cuadráticos de los parámetros de la recta de regresión
Se observa que los estimadores por máxima verosimilitud y los estimadores mínimo cuadráticos de
0 y
1 son iguales. Esto es debido a la hipótesis de normalidad y, en adelante, se denota
0 =
0,MV =
0,mc y
1 =
1,MV =
1,mc.
6.3.3 Propiedades de los estimadores.
- De la primera ecuación canónica se deduce que la recta de regresión pasa por el punto
que es el centro geométrico de la nube de datos.
- El estimador
1 es la pendiente de la recta regresión, se denomina coeficiente de regresión y tiene una sencilla interpretación, indica el crecimiento (o decrecimiento) de la variable respuesta Y asociado a un incremento unitario en la variable regresora X.
- Utilizando las hipótesis de normalidad e independencia se obtiene que la distribución del estimador
1 es una normal de media
1 y varianza
. Ésto es,
Por tanto la V ar(6.6) - - disminuye al aumentar n,
- - disminuye al aumentar sx2
- - disminuye al disminuir
2.
- El estimador
0 indica el valor de la ordenada en la recta de regresión estimada para x = 0 tiene menor importancia y, en muchos casos, no tiene una interpretación práctica. La distribución de
0 es una normal de media
0 y varianza
+
=
. Ésto es,
Por tanto la V ar(6.7) - - disminuye al disminuir V ar
(disminuye al aumentar n o al aumentar sx2
- o al disminuir
2).
- - disminuye al disminuir
2.
- - disminuye al disminuir V ar
- Nuevamente, utilizando las hipótesis de normalidad e independencia se obtiene que la distribución del estimador máximo-verosímil de
2, viene dado por
De las ecuaciones canónicas se deduce que los residuos verifican quei = 1nei = 0 y
i = 1neixi = 0 (ver seción 6.4). Por tanto, el número de grados de libertad de los residuos es n - 2 porque hay n residuos relacionados por dos ecuaciones. De donde
yMV 2 es un estimador consistente pero sesgado. Por este motivo, como estimador de
2 se utiliza la varianza residual,
R2 definida como la suma de residuos al cuadrado dividida por el número de grados de libertad
(6.8) R2 es un estimador consistente e insesgado.La relación entre los dos estimadores de la varianza es
Para tamaños muestrales grandes, ambos estimadores,MV 2 y
R2 toman valores muy próximos.
- La distribución de la varianza residual viene dada por
A partir de este estadístico se pueden obtener intervalos de confianza de la varianza poblacional,(6.9) 2. Con nivel de confianza 1 -
el intervalo de confianza es
- En la práctica, de la distribución de
1 (6.6) no se pueden calcular intervalos de confianza de
1, porque la varianza poblacional (
2) no es conocida y se tiene que sustituir por un estimador,
R2. De la distribución de éste se obtiene que la distribución del estadístico pivote
1 que sigue la distribución tn-2,
(6.10)
Un intervalo de confianza para1 a un nivel de confianza 1 -
es
donde tn-2
(6.11) es un número que verifica que P
=
, siendo
una variable aleatoria con distribución t con n - 2 grados de libertad.
- De forma análoga se puede obtener un intervalo de confianza del parámetro
0. De las funciones de distribución de
0 y
R2 se deduce que la distribución del estadístico
0 verifica que
(6.12) - Los estimadores
0 y
1 no son variables aleatorias independientes ya que su covarianza viene dada por
por tanto, sies positiva, la Cov
es negativa, ésto es, al crecer
1 disminuye
0.
- Como ya se ha indicado el parámetro
0 tiene menor importancia que
1 y, en algunas situaciones, no tiene una interpretación realista si el cero no es un punto del rango de la X, por ejemplo, al estudiar la relación entre las variables peso y altura de un colectivo de personas. Por ello tiene interés la ecuación de la recta de regresión que utiliza solo el parámetro
1. Esta ecuación es la siguiente
o bien,(6.13) Para ello basta con centrar las dos variables en estudio y calcular la recta de regresión que pasa por el origen de coordenadas. - La recta de regresión de X sobre Y es distinta de la recta de regresión de Y sobre X. En el primer caso se obtiene quedonde
1 =
y
0 =
-
1
.
No hay comentarios:
Publicar un comentario