sábado, 6 de junio de 2015

Estadística

Análisis de la regresión

 modelo de regresión múltiple no postulado es uno de los métodos de regresión lineal.- .....................................................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=60ae16312be52af6a958bf6251797a8423aa1478&writer=rdf2latex&return_to=Modelos+de+regresi%C3%B3n+m%C3%BAltiple+postulados+y+no+postulados







mínimos cuadrados generalizados (en inglésgeneralized least squares (GLS)) es una técnica para la estimación de los parámetros desconocidos en un modelo de regresión lineal. El GLS se aplica cuando las varianzas de las observaciones son desiguales, es decir, cuando se presenta heterocedasticidad, o cuando existe un cierto grado de correlación entre las observaciones.1 En estos casos los mínimos cuadrados ordinarios pueden ser estadísticamente ineficaces o incluso dar inferencias engañosas.- ...................................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=0b3e4eec6b939691b5d9d2af84a5b5422b5849c6&writer=rdf2latex&return_to=M%C3%ADnimos+cuadrados+generalizados




Estimación por mínimos cuadrados generalizados.

En un modelo de regresión lineal se supone que la matriz de varianzas-covarianzas de los errores es de la forma
  (  ) E eet = s2In,
(10.1)
siendo In la matriz identidad de orden n. Si no se verifica la hipótesis de homocedasticidad, o la de independencia, o ambas, entonces la matriz de varianzas-covarianzas tiene  la forma general
  ( t)    2 E  ee  = s Y,
(10.2)
siendo Y una matriz simétrica, definida positiva de orden × n. En este caso, se puede calcular el estimador de a por el método de mínimos cuadrados generalizados. Este método se desarrolla en dos etapas: en una primera etapa se transforma el modelo de regresión original
Y = Xa  +e.
Para ello y por ser Y una matriz simétrica, definida positiva, existe una matriz cuadrada tal que
    t             -1( t)-1    - 1
t PYP  = In ==> Y = P    P     ==> Y   = P P,
esta matriz Y no tiene porque ser única, pero si existe. Multiplicando por  la ecuación de regresión se obtiene
PY = PXa  + Pe.
(10.3)
Denominando Y* = PYX* = PX y e * = Pe se obtiene la ecuación de regresión
Y* = X*a + e*,
(10.4)
y los errores del modelo verifican
  ( * *t)      (  t)  t   2     t
2 E  e e   = PE  e e  P = s PYP   = s In,
por tanto los errores son incorrelados y homocedásticos. Ahora se puede aplicar el método de mínimos cuadrados ordinarios a estos datos transformados (       )
 PX, PYpara obtener el estimador
     (    t    )-1     t     (  t
t   )-1  t t     (  t -1  )-1  t -1 ^aG =  (PX) PX     (PX)  PY =
X  P PX    X  P PY =  X  Y  X    X Y   Y.
(10.5)
Por el Teorema de Gauss-Markov, este estimador ^aG es el mejor estimador lineal insesgado. En la práctica, la matriz P, aunque existe, es desconocida y es necesario estimarla (^)
 P a partir de las observaciones, obteniendo el estimador
     ( t  t  )- 1 t  t     (  t -1
)-1  t -1 ^aF =  X ^P ^PX     X ^P P^Y  =  X  ^Y  X    X  ^Y  Y.
(10.6)
A continuación se exponen dos situaciones comunes en las que se puede aplicar este método de estimación.

Heterocedasticidad.

Si las observaciones son independientes pero heterocedásticas entonces la matriz de varianzas-covarianzas viene dada por
         ( s2  0   ...  0  )
            1       .   .
  (  t)     0   s22   ..  ..
E  ee  =   ..   ..   ..   ..
           .     .   .  .
           0   0   ...  s2n
Y la matriz P
    (  1               )
       s-  0   ...  0
        1   1  .    .
       0   s-   ..  ..
P =    ..   .2.  ..   ..
       .     .   .  .
       0   0   ...  1--
                    sn
En este caso los datos transformados son
          (  -1  0    ...  0   ) (
)    ( Y1  )
             s1                   Y1        s1
             0    1-  ...  ...       ..         ..
Y* = PY =         s2              .    =    .
             ...   ...  ...  ...       ...         ...
                           1                Yn
             0   0    ...  s--     Yn        sn-
                           n
           (                  ) (
)
              1-  0   ...  0    (     )      x1.
              s1           .       x1.        s1
             0    1-  ...  ..       ...         ...
X* = PX  =   .    s.2  .    .       .    =    .
             ..     ..   ..  ..       ..         ..
                           1--     xn.       xn.
             0    0   ...  sn                 s1
Esto equivale a trabajar con el modelo transformado
Yi = xi.a + ei, i = 1,...,n. si si
si
(10.7)
Sobre este modelo se aplica ahora el método de mínimos cuadrados ordinarios. En particular, si se trabaja con el modelo de regresión lineal se obtiene el siguiente estimador del coeficiente de regresión (a1)
        sum n 1
          s2(xi- x)(yi- y)
a^1,G = i=1-in--------------.
           sum  1--      2
             s2i (xi- x)
          i=1
(10.8)
Este estimador se denomina estimador por mínimos cuadrados ponderados y es un caso particular del estimador por mínimos cuadrados generalizados. En la práctica, para utilizar este estimador hay que calcular estimadores de los parámetros s12,...,sn lo que puee hacerse por uno de los siguientes métodos:
* Suponer que la varianza se ajusta a una función
s2i = g(xi.),  i = 1,...,n.
y estimar la función g.
* Hacer grupos en las observaciones (en el orden en que se han recogido) normalmente del mismo tamaño y suponer que en cada grupo la varianza es constante. Entonces se estima la varianza en cada grupo a partir de las observaciones del grupo. una forma de conseguir ésto es ajustar el modelo de regresión por mínimos cuadrados ordinarios a las observaciones originales y a partir de los residuos de este modelo obtener los estimadores de la varianza en cada grupo.

Observaciones dependientes.

Si las observaciones son homocedásticas pero dependientes entonces la matriz de varianzas-covarianzas es de la forma general
           ( 1     r     ...  r )
                    1          n- 1
  ( t)    2  r1    1     ...  rn- 2
E  ee  = s    ..     ..    ..   ..     ,
             .       .     .  .
             rn-1  rn-2  ...  1
En la mayoría de las situaciones la estructura de dependencia de los errores puede ajustarse a un modelo paramétrico. Un modelo sencillo y muy utilizado es el modelo AR(1)(modelo autorregresivo de orden uno). En este caso se verifica que los errores siguen la ecuación
ei = rei-1 + ai, i = 1,... ,n,
(10.9)
siendo r la autocorrelación de orden 1 del proceso etpor tanto, |r| 1at es una sucesión de variables aleatorias independientes e igualmente distribuídas.
En este caso, la matriz de varianzas-covarianzas es
                       ( 1     r
... rn-1 )
                                     .
  (  t)    2     2--1---  r     1      .. rn-2
E  ee  = s Y = s 1- r2   ..     ...   ... ..      ,
                         .               .
                         rn-1  rn-2  ... 1
la matriz de transformación es
    (  V~ ------ )
        1 - r2 0    0   ... 0    0

      - r      1    0   ... 0    0
      0        - r  1   ... 0    0
P =   ...        ...  ...  ...  ...    ...   ,

      0        0    0   ... 1    0
      0        0    0   ... - r  1
y la matriz Y-1 es
      (  1   - r    0      ...  0
0  )
                 2
         -r  1+ r   - r    ...  0      0
 - 1     0   - r    1+ r2  ...  0      0
Y   =    ..   ...    ...    ...  ..      ..    ,
         .                      .      .
         0   0      0      ...  1+ r2  -r
         0   0      0      ...  -r     1
(10.10)
Utilizando esta matriz se obtiene el estimador por mínimos cuadrados generalizados
     (  t -1 )- 1 t  -1 ^aG =  X Y
X    X Y   Y.
(10.11)
Nuevamente, en la práctica, Y-1 es desconocido y se tiene que estimar. Por la forma de la matriz Y-1es suficiente con estimar el parámetro r y sustituir en la matriz. Para estimar rpuede utilizarse el siguiente procedimiento:  ajustar a los datos el modelo de regresión lineal por mínimos cuadrados ordinarios y calcular los residuos mínimo cuadráticos
ei = Yi- xi.a^MCO,  i = 1,...,n.
A partir de estos residuos se obtiene el siguiente estimador de r,
     sum n -1 ^r = - sum
i=1-eiei+1,
       ni=1e2i
(10.12)
sustituyendo r por ^r en la matriz Y-1 se obtiene la matriz estimada ^ Y-1a partir de la cual se obtiene el estimador
     (  t^ -1 ) -1  t^ -1 ^aF =  X
Y   X    X Y   Y.
(10.13)
Siguiendo este procedimiento se puede obtener el siguiente estimador iterativo:
Paso 1. Se utiliza el estimador ^aF para obtener nuevos residuos ei'.
Paso 2. De estos residuos se obtiene un nuevo estimador ^r'.
Paso 3. Utilizando ^r' se calcula un nuevo estimador ^aF'.
Se continúa el proceso de forma iterativa (volver al Paso 1) hasta obtener la convergencia del estimador ^aF (estimador iterativo de Cochran y Orcutt (1949)).
En este problema también se pueden considerar otros estimadores del parámetro r o modelos de dependencia más complejos que dependen de un número mayor de parámetros.
Ejemplo 10.1.
“Se desea ajustar un modelo de regresión lineal simple de diseño fijo a cien observaciones, donde los valores de la variable explicativa son xi i/n, = 1,...,100(diseño fijo equiespaciado) y los valores de la variable respuesta vienen dados en la tabla adjunta (leídos por columnas). Analizar la hipótesis de independencia de los residuos”.
Datos del Ejemplo 10.1
2'411'432'342'112'914'523'553'632'322'59










3'101'492'562'132'644'143'043'642'463'15










2'611'852'551'852'534'173'343'402'313'29










1'871'692'952'252'753'663'213'172'413'23










1'472'282'722'152'292'703'313'162'692'70










1'012'422'842'802'812'562'763'473'242'08










1'481'912'083'143'192'303'393'522'802'57










1'472'732'103'033'433'103'843'533'293'17










1'851'932'033'053'223'894'073'223'142'80










1'911'931'703'314'243'603'452'522'782'38
Ajustando la recta de regresión por mínimos cuadrados se obtiene
^     '      '             '
Yi = 2096 + 1 310xi,  R = 0 535
Las observaciones muestrales y la recta ajustada se representan en la Figura 10.1.
^     '      '             '
Yi = 2096 + 1 310xi,  R = 0 535

Figura 10.1. Datos y recta ajustada por MCO.
Los residuos de este modelo presentan una clara dependencia positiva. Esto se observa en el gráfico de residuos frente al índice (Figura 10.2).
^     '      '             '
Yi = 2096 + 1 310xi,  R = 0 535

Figura 10.2. Residuos MCO según índice.
En la Figura 10.3. se representa el correlograma (f.a.s.) de los residuos del modelo y se observa que las primeras autocorrelaciones de los residuos son muy altas. En particular, r1 = 0'758con desviación típica s(r1) = 0'099Utilizando el contraste de independencia de Ljung-Box (Sección 4.7.2.) se obtiene para = 5 (número de retardos) que
              sum 5    2
Q =  n(n+ 2)    r(k)- = 108'299 ==> p - valor = 0'000.
             k=1n - k

^     '      '             '
Yi = 2096 + 1 310xi,  R = 0 535

Figura 10.3. F.a.s. de los residuos MCO.
En la Figura 10.4 se representa el gráfico de autocorrelaciones parciales (f.a.p.) de los residuos y se observa que la fap de orden uno es muy grande. De todo se concluye que no se acepta la hipótesis de independencia.
^     '      '             '
Yi = 2096 + 1 310xi,  R = 0 535

Figura 10.4. F.a.p. de los residuos MCO.
De los gráficos representados en las Figuras 10.3 y 10.4 se deduce que la sucesión de errores del modelo de regresión sigue una estructura de dependencia del tipoAR(1) con ^r = 0'758. En base a ello se estima la recta de regresión por mínimos cuadrados generalizados utilizando la matriz de transformación ^P dada anteriormente. Se obtiene el siguiente modelo de regresión
^Yi = 2'161 + 1'163 xi.
Las dos rectas de regresión obtenidas por mínimos cuadrados y por mínimos cuadrados generalizados se representan en la Figura 10.5. En este ejemplo la diferencia entre las dos rectas estimadas es pequeña.
^     '      '             '
Yi = 2096 + 1 310xi,  R = 0 535

Figura 10.5. Las dos rectas ajustadas.

No hay comentarios:

Publicar un comentario