Teoría de Regresión Lineal
Interpretación geométrica del modelo.
Considérense los siguientes vectores del espacio n-dimensional Rn
Dado el modelo de regresión lineal
el método de estimación por mínimos cuadrados tiene la siguiente interpretación geométrica:
"el vector de predicciones
es la proyección ortogonal del vector
en el plano que generan los vectores
y
(Fig 6.3)".
De esta forma el vector de residuos
es de módulo mínimo (
2 =
i = 1nei2) . Por tanto, el vector de residuos
es perpendicular al plano generado por
y
. Y, en particular, es ortogonal a estos dos vectores, ésto es,
Del teorema de Pitágoras se deduce,
Figura 6.3. Interpretación geométrica del modelo de regresión lineal.
Contrastes sobre los parámetros del modelo.
Es de gran interés el siguiente contraste
ya que aceptar H0 implica que la recta de regresión es Y i =
0 +
i, por tanto, no existe relación lineal entre las variables X e Y .
|
Utilizando
1 como estadístico del contraste C1 que es bilateral, se obtiene la siguiente región de aceptación a un nivel de significación
,
|
El p - valor del contraste C1 es
siendo
una variable aleatoria con distribución tn-2. Este contraste se denomina contraste (individual) de la t.
De la misma forma se puede hacer el contraste
aunque este contraste tiene menor interés por su escaso significado. En este caso, a partir de la distribución (6.11) , si H0 es cierto, se verifica que
En este caso la región de aceptación a un nivel de confianza
es
Predicción en regresión lineal simple.
Como se comentó anteriormente hay dos objetivos básicos en el ajuste de un modelo de regresión:
- - Conocer la relación existente entre la variable respuesta y las variables regresoras. En el caso de la regresión lineal simple se estima la mejor recta de regresión que relaciona la variable Y con la variable X y se cuantifica la importancia de dicha relación por medio del coeficiente de correlación, r.
- - Utilizar el modelo de regresión ajustado para “predecir” el valor de la variable respuesta Y cuando la variable regresora toma un valor determinado, X = xt.
En esta sección se estudia este segundo objetivo. Ésto es, estimada la recta de regresión, ¿cómo predecir el valor de Y sabiendo que la variable regresora toma el valor X = xt? Ante esta pregunta, se deben distinguir dos situaciones diferentes:
- Estimar la media de la distribución condicionada de Y/X = xt : E
= mt.
- Se quiere responder a preguntas del tipo: “¿cuál es el gasto medio en material informático de las empresas que tienen unos ingresos globales de 300 millones anuales?”.
- Predecir el valor de la variable respuesta en un individuo de la población en estudio del que se sabe que X = xt. Esto es, predecir un valor de la variable condicionada Y/X=xt
- Se quiere responder a preguntas del tipo: “La empresa MEGA tiene unos ingresos anuales de 300 millones, ¿cuál será el gasto en material informático de estaempresa?”.
6.9.1 Estimación de las medias condicionadas.
Una vez calculada la recta de regresión de la variable Y respecto a X,
se quiere estimar el parámetro mt = E
. Para ello, como estimador se utiliza el que proporciona la recta de regresión, sustituyendo xt por x en la ecuación de la recta,
|
- Es centrado o insesgado, E
= mt.
- La varianza es,
donde(6.20) nt se denomina número equivalente de observaciones para estimar mt.(6.21) Teniendo en cuenta que en una muestra de tamaño n, la varianza de la media muestral es V ar=
2/n, la interpretación de nt es la siguiente: “la información que proporciona la muestra, de tamaño n, de datos bivariantes
i = 1n para estimar mt es la misma que proporcionaría una muestra de tamaño nt de observaciones univariantes de una población con distribución igual a la de Y/X = xt”.
De la expresión de nt se deduce que este valor será mayor cuanto más próximo esté xt de. Y si xt =
se verifica que nt = n.
La inversa de nt, htt = 1/nt se denomina valor de influencia de la observación xt (muy utilizado el nombre en inglés leverage) y se verá más adelante que es una medida de la influencia de la observación(si este es uno de los datos muestrales) en el cálculo de la recta de regresión.
- La distribución del estimador
t es normal,
- En la práctica el estadístico anterior no se puede utilizar para calcular intervalos de confianza de mt porque
es desconocido. Por ello, se sustituye
por su estimador
R y bajo la hipótesis de normalidad se obtiene la siguiente distribución,
(6.22)
|
Al utilizar el modelo de regresión lineal para estimar una media condicionada o predecir una observación debe de tenerse en cuenta que el método proporciona resultados aceptables dentro del rango de valores muestrales de la X (interpolar), aquí está garantizado que 1 < nt < n. Si xt es un punto muy alejado de
(aún estando dentro de la nube de observaciones está muy alejado del centro de la misma) entonces nt
1 y la varianza de
t será muy grande con lo que se obtienen estimaciones con poca precisión (mucha variabilidad). El caso opuesto es que xt =
y, por tanto, nt = n, ahora la varianza de
t es
2/n, la menor posible.
Por otra parte, si se quiere predecir fuera del rango de valores muestrales de X (extrapolar), entonces xt -
puede ser muy grande y, en consecuencia, nt
0, lo que hace que la precisión de la estimación de mt sea muy pequeña por tener el estimador
t una varianza muy grande y, por tanto, obtener resultados con muy poca validez.
6.9.2 Predicción de una observación.
Se quiere predecir el valor de la variable aleatoria Y/X = xt teniendo en cuenta que se ha ajustado una recta de regresión. El problema es conceptualmente diferente del anterior, ya que en el apartado anterior se estima un parámetro (la media condicionada) y ahora se quiere predecir el resultado de una variable aleatoria. El predictor que se utiliza
t se obtiene como aquel que minimize el Error Cuadrático Medio de Predicción. Esto es,
t se obtiene como el valor que minimiza la siguiente función
Al resolver este problema de minimización se obtiene como predictor el resultado de sustituir el valor de xt en la recta de regresión calculada,
Por tanto, la predicción de Y/X = xt es la misma que la estimación de mt pero su varianza aumenta ya que la variabilidad debida a la muestra
se incrementa con la variabilidad propia de la variable aleatoria que se quiere predecir
. Ahora la varianza de la predicción es
| Var( |
No hay comentarios:
Publicar un comentario