lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

 El modelo de regresión lineal simple. 

Clasificación de los modelos de regresión.

Los modelos de regresión se pueden clasificar de dos formas:
bulletSegún la metodología utilizada para su estudio:
1. Modelos de regresión paramétricos. Se supone que la función de regresión, m, que relaciona a la variable respuesta con las variables regresoras pertenece una determinada familia paramétrica:
m (x) = m (a,x),
donde x (x1,...,xk) y a (a1,...,ap)  (-  Qp < Rp.
Por ejemplo, se supone que la familia paramétrica es lineal,
m (x) = m (a,x) = a0 + a1x1 + ...+
akxk.
En este caso, el problema básico es estimar los parámetros (a) de la familia supuesta a partir de las observaciones muestrales. En el ejemplo anterior hay que estimar los parámetros a 0,a1,2a,...,ak. También se debe contrastar la hipótesis de que la función de regresión pertenece a la familia paramétrica supuesta. Este enfoque es el que se ha estudiado clásicamente y que con mayor frecuencia se utiliza en la práctica.
2. Modelos de regresión no paramétricos. Es un enfoque alternativo que está teniendo una gran aceptación, con este método no se hace ninguna suposición acerca de la forma funcional  de la regresión y se estima la función de regresión punto a punto. Ésto es, se estima el valor de m(x1,i,x2,i,...,xi,k) en un enrejado (grid) de valores {(x1,i,x2,i,...,xk,i)}= 1N de las variables regresoras.
Los métodos de regresión no paramétrica, también llamados de suavización de la función de regresión se han desarrollado a partir de los años setenta y tienen una gran aceptación por varios motivos: son versátiles, permiten observar comportamientos locales y para su desarrollo teórico utilizan hipótesis muy débiles. Un inconveniente de estos métodos es que exigen una razonable capacidad de cálculo computacional, problema que se ha solventado en losúltimos años con el continuo y rápido avance de los medios computacionales.
No deben de considerarse los métodos de regresión paramétricos y los no paramétricos como competidores sino como métodos complementarios. Siendo recomendable, en la práctica, utilizar ambos enfoques, pues los dos métodos proporcionan información complementaria acerca del problema en estudio.
bulletSegún la forma de recogida muestral, se distinguen dos tipos de modelos de regresión:
1. Modelos de regresión de diseño fijo, en estos modelos las variables regresoras son valores predeterminados. Este modelo se utiliza en el estudio del comportamiento de una variable respuesta cuando las variables regresoras varían en una determinada dirección. En este caso se debe diseñar y realizar un experimento en el que las variables regresoras se muevan en dicha dirección. Por tanto, en este diseño se controla en todo momento el valor de las variables regresoras.
Ejemplo 6.1.
“La resistencia del cemento (r) depende del tiempo de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de cemento con diferente tiempo de secado los resultados fueron los de la tabla adjunta. Analizar la relación entre estas dos variables.”
     


Tiempo (días)Resistencia (kg/cm2)


1
13.013.311.8


2
21.924.524.7


3
29.828.024.124.226.2


7
32.430.434.533.135.7


28
41.842.640.335.737.3


 (Hald, A. (1952) Statistical Theory with Engneering Applications. Wiley & Sons).
En la Figura 6.1, se representan estas observaciones y tres ajustes paramétricos:
- Lineal, con coeficiente de determinación R2 = 0'618(este coeficiente es una medida de bondad del ajuste realizado y se estudia en la sección 6.8.)
r = a0 + a1t ==> r = 22'587+ 0'658t
Cuadrático, con coeficiente de determinación R2 = 0'868,
                 2         '      '       '   2
r = b0 + b1t + b2t ==> r = 14024 + 3608t - 0096t
- Forma de S, este modelo lo proponía Hald, A, y consiste en estudiar la relación del logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado. Esto es,
       (        )
             g1-                 g1-
r = exp  g0 + t   <==> lg(r) = g0 + t
Obteniéndose el siguiente ajuste
               '
lg (r) = 3'688- 1-146
                t
Con coeficiente de determinación R2 = 0'961.
               '
lg (r) = 3'688- 1-146
                t

Figura 6.1. Datos del ejemplo 6.1. y ajustes paramétricos realizados.

2. Modelos de regresión con diseño aleatorio, en estos modelos las variables regresoras son variables aleatorias. Se utiliza este modelo cuando se estudia la relación entre la variable respuesta y las variables regresoras a partir de una muestra obtenida de la observación de las variables en unidades de experimentación elegidas al azar. Esto es, el experimentador es un observador pasivo en la recogida muestral y los resultados sólo serán válidos para el rango de variación conjunta de las variables implicadas en el estudio.
Ejemplo 6.2.
 “El siguiente conjunto de datos era tomado sobre grupos de trabajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado por trabajadores de la misma profesión (médicos, decoradores, trabajadores textiles,...etc.), en cada uno de los veinticinco grupos muestrados se han observado dos variables: el índice de estandarizado de consumo de cigarrillos (variable regresora, x) y el índice de muertes por cáncer de pulmón (variable dependiente, y).  Se desea estudiar la relación entre estas dos variables. ”












x
y
x
y
x
y
x
y
x
y
x
y
77
84
102
88
133
146
116
155
112
96
91
85
137
116
91
104
115
128
102
101
113
144
100
120
117
123
104
129
105
115
111
118
110
139
76
60
94
128
107
86
87
79
93
113
125
113
66
51
88
104












(Occupational mortality: the Registar general’s decennial supplement for England and Wales, 1970-72, series Ds, n.1, London:HMSO,149).
y = -2'885 + 1'088 x

Figura 6.2. Datos del ejemplo 6.2. y los modelos de regresión ajustados.
Se ha realizado un ajuste paramétrico lineal, obteniendo R2 = 0'513con el siguiente ajuste
y = -2'885 + 1'088 x
También se ha realizado un ajuste de tipo no paramétrico utilizando la técnica núcleo. En la Figura 6.2 se representan las observaciones muestrales y los dos ajustes realizados.
El tratamiento matemático en ambos modelos, de diseño fijo y de diseño aleatorio, es similar aunque las conclusiones e interpretación de los resultados varían según sea el caso. En este texto, el estudio se centra en el modelo de regresión con diseño fijo que tiene una menor complejidad.

El tratamiento matemático en ambos modelos, de diseño fijo y de diseño aleatorio, es similar aunque las conclusiones e interpretación de los resultados varían según sea el caso. En este texto, el estudio se centra en el modelo de regresión con diseño fijo que tiene una menor complejidad.



El modelo de regresión lineal simple.

6.3.1 Formulación matemática del modelo.

El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta (Y ) y la variable regresora (X), a partir de una muestra {(xi,Yi)}= 1n, que sigue el siguiente modelo:
Y  = a + a x + e    i = 1,2,...,n.
 i    0   1 i   i
(6.1)
Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial
Y = a01+ a1X  +e,
(6.2)
donde Yt (y1,...
,yn), 1t (1,...,1), Xt (x1,...,xn), e t (e1,...,en).
Se supone que se verifican las siguientes hipótesis:
  1. La función de regresión es lineal,
    m
(xi) = E (Y /xi) = a0 + a1xi, i = 1,...,n,
    o, equivalentemente, E(ei) = 0, i = 1,...,n.
  2. La varianza es constante (homocedasticidad),
                 2 V ar(Y /xi) = s ,  i =
1,...,n,
    o, equivalentemente, V ar(ei) s2, i = 1,...,n.
  3. La distribución es normal,
             (          2) Y/xi ~ N a0 +
a1xi,s  , i = 1,...,n,
    o, equivalentemente, ei N(   2)
 0,s, i = 1,...,n.
  4. Las observaciones Y i son independientes. Bajo las hipótesis de normalidad, esto equivale a que la Cov(Y i,Y j) = 0si i/=j.
    Esta hipótesis en función de los errores sería “los ei son independientes”, que bajo normalidad, equivale a que Cov(ei;ej) = 0si i/=j.

6.3.2 Estimación de los parámetros del modelo.

En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión, a0 a1y la varianza de la distribución normal, s2.
El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos, siendo los más utilizados el método de máxima verosimilitud y el método de mínimos cuadrados.
Método de máxima verosimilitud.
Conocida una muestra de tamaño n{(xi,yi) : i = 1,...,n}de la hipótesis de normalidad se sigue que la densidad  condicionada en  yi  es
                   ( 2) f (yi/xi)
=  V~ -1-exp  - 1(yi--(a0-+2-a1xi))-  ,  i = 1,...,n,
           2ps2        2       s
y, por tanto, la función de densidad conjunta de la muestra es,
  (          )   n            n (
) f  Y/a  a ,s2 =  prod  f (y /x ) =  prod V~ -1-exp  - -1-(y - a
- a x )2 .
       0, 1      i=1   i  i   i=1  2ps2       2s2  i   0   1 i
Una vez tomada la muestra y, por tanto, que se conocen los valores de {(xi,yi)}= 1nse define la función de verosimilitud asociada a la muestra como sigue
 (      2)   n prod   --1---   (
-1-              2) l a0,a1,s   =     V~ 2ps2-exp -2s2 (yi -a0 -
a1xi)  ,
             i=1
(6.3)
esta función (con variables a0, a1 s2) mide la verosimilitud de los posibles valores de estas variables en base a la muestra recogida.
El método de máxima verosimilitud se basa en calcular los valores de a0, a1 s2 que maximizan la función (9.3) y, por tanto, hacen máxima la probabilidad de ocurrencia de la muestra obtenida. Por ser la función de verosimilitud una función creciente, el problema es más sencillo si se toman logaritmos y se maximiza la función resultante, denominada función soporte,

  (        )         (        )
L  a0,a1,s2   =   ln l a0,a1,s2  =
                                  (   )       n
                  - n-ln (2p) - n-ln s2  -  -1- sum  (y - (a  + a x ))2.   (1.4)
                    2         2           2s2i=1  i     0   1 i

Maximizando la anterior se obtienen los siguientes estimadores máximo verosímiles,
a^0,MV = y - ^a1,MV x
a^    =  sXY--
  1,MV    s2x
  2    1- sum n 2 s^MV = n    (yi-
(a^0,MV + ^a1,MV xi))
         i=1
donde se ha denotado x e y a las medias muestrales de Y, respectivamente;  sx2 es la varianza muestral de  y sXY  es la covarianza muestral entre Y. Estos valores se calculan de la siguiente forma:

       sum n              sum n
x = 1-   xi,    y = 1-   yi,
    n i=1            n i=1
     1  sum n           ( 1  sum n  )
s2x = --   (xi- x)2 =   --   x2i  - x2,
     n i=1             n i=1
          n                  (    n     )
sXY  = 1- sum  (xi- x) (yi- y) =  1- sum  xiyi  - xy.
       n i=1                   n i=1
Método de mínimos cuadrados.
A partir de los estimadores: ^a0 y ^a1, se pueden calcular las predicciones para las observaciones muestrales, dadas por,
^ Yi = ^a0 +a^1xi,   i = 1,2,...
,n,
o, en forma matricial,
 ^ Y  = ^a01+ ^a1X,
donde ^Yt (^y1,y^2,...,^yn)Ahora se definen los residuos como

eiyi -^y i, i = 1,2,...,n,
Residuo =  Valor observado  -Valor previsto,
en forma matricial,
e = Y - Y^,  con  et = (e ,...,e
).
                      1      n
Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los cuadrados de los residuos, ésto es, minimizando la siguiente función,
           n      n             n
Y (a0,a1) =  sum  e2 =  sum  (yi- ^yi)2 =  sum  (yi- (a0 +
a1xi))2,
          i=1 i   i=1           i=1
(6.4)
derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas ecuaciones canónicas,
{   sum sum            }
     ni=1(yi- (a0 + a1xi))   =   ni=1ei   = 0
   sum n  (yi- (a0 + a1xi))xi =  sum n  eixi  = 0   ==>
    i=1                        i=1
{   sum n sum n       }
    sum  i=1yi  =      sum ^a0n+ a^1  i=1 sum  xi      ==>
     ni=1xiyi  =   ^a0  ni=1xi + ^a1  ni=1x2i
(6.5)
{                    }
   y   =    ^a0 + ^a1x
   ---            -2
   xy  =   ^a0x+ a^1x
De donde se deducen los siguientes estimadores mínimo cuadráticos de los parámetros de la recta de regresión
^a0,mc = y - ^a1,mc x
       sXY- ^a1,mc =  s2x .
Se observa que los estimadores por máxima verosimilitud y los estimadores mínimo cuadráticos de a0 a1 son iguales. Esto es debido a la hipótesis de normalidad y, en adelante, se denota ^a 0 = ^a0,MV = ^a0,mc y ^a1 = ^a1,MV = ^a1,mc.

6.3.3 Propiedades de los estimadores.

  1. De la primera ecuación canónica se deduce que la recta de regresión pasa por el punto (x,y) que es el centro geométrico de la nube de datos.
  2. El estimador a^1 es la pendiente de la recta regresión, se denomina coeficiente de regresión y tiene una sencilla interpretación, indica el crecimiento (o decrecimiento) de la variable respuesta asociado a un incremento unitario en la variable regresora X.
  3. Utilizando las hipótesis de normalidad e independencia se obtiene que la distribución del estimador a^ 1 es una normal de media a1 y varianza s2- ns2x Ésto es,
           (    s2 ) ^a1 ~ N  a1, ns2 .
              x
    (6.6)
    Por tanto la V ar(^a1)
    - disminuye al aumentar n,
    - disminuye al aumentar sx2
    - disminuye al disminuir s2.
  4. El estimador ^a0 indica el valor de la ordenada en la recta de regresión estimada para = 0 tiene menor importancia y, en muchos casos, no tiene una interpretación práctica. La distribución de a^0 es una normal de media a0 y varianza s2- n + s2x2 ns2x = s2- n(      )
     x2
  1+ s2x Ésto es,
           (     2(     2)) a^0 ~ N  a0,
s-- 1+ x-   .
            n      s2x
    (6.7)
    Por tanto la V ar(^a0)
    - disminuye al disminuir V ar(^a1) (disminuye al aumentar o al aumentar sx2
    o al disminuir s2).
    - disminuye al disminuir x2.
  5. Nuevamente, utilizando las hipótesis de normalidad e independencia se obtiene que la distribución del estimador máximo-verosímil de s2  viene dado por
    n^s2
--sM2V-~ x2n-2
    De las ecuaciones canónicas se deduce que los residuos verifican que  sum  = 1nei = 0 y  sum  = 1neixi = 0 (ver seción 6.4). Por tanto, el número de grados de libertad de los residuos es  porque hay residuos relacionados por dos ecuaciones. De donde
    E (^s2  )= n---2s2 ===> Sesgo(^s2 )=
2s2 --> 0  cuando n-- >   oo .
    MV      n               MV     n
    y ^sMV 2 es un estimador consistente pero sesgado. Por este motivo, como estimador de s2 se utiliza la varianza residual,  ^s R2  definida como la suma de residuos al cuadrado dividida por el número de grados de libertad  
              n ^s2 = --1-- sum   e2 =
-scR-- R   n - 2 i=1 i   n - 2
    (6.8)
    ^s R2  es un estimador consistente e insesgado.La relación entre los dos estimadores de la varianza es
    ^s2   = n---2^s2 .
 MV      n   R
    Para tamaños muestrales grandes, ambos estimadores, ^sMV 2 y ^s R2 toman valores muy próximos.
  1. La distribución de la varianza residual viene dada por
    (n--2)^s2R-   2
   s2    ~ xn- 2
    (6.9)
    A partir de este estadístico se pueden obtener intervalos de confianza de la varianza poblacional, s2 Con nivel de confianza - a el intervalo de confianza es 
    --(n---2)^s2R--    2   -(n---2)^s2R-
     (    a ) < s  <      (a )
x2n- 2 1 - 2-         x2n-2  2-
  2. En la práctica, de la distribución de ^a1 (6.6) no se pueden calcular intervalos de confianza de a1, porque la varianza poblacional (s2) no es conocida y se tiene que sustituir por un estimador, s^R2De la distribución de éste se obtiene que la distribución del estadístico pivote w1 que sigue la distribución tn-2,
    w1 = ^a1--a1-sx V~ n-~ tn- 2.
       ^sR
    (6.10)
Un intervalo de confianza para a1 a un nivel de confianza - a es
                    (     )
a1  (-  ^a1± -^sR V~ --tn-2  1 - a- ,
          sx n           2
(6.11)
donde tn-2(h) es un número que verifica que P(z < tn- 2(h)) = hsiendo z una variable aleatoria con distribución con grados de libertad.

  1. De forma análoga se puede obtener un intervalo de confianza del parámetro a0De las funciones de distribución de ^a0 y ^s R2 se deduce que la distribución del estadístico w0 verifica que
        ----a^0---a0---- w0 =   V~  1( x2)
~ tn-2.
    ^sR   -- 1+ -2
         n     sx
    (6.12)
  2. Los estimadores a^0 y ^a1 no son variables aleatorias independientes ya que su covarianza viene dada por
                 -xs2 Cov(^a0, ^a1) = ns2-
               x
    por tanto, si x es positiva, la Cov(^a , ^a )
  0  1 es negativa, ésto es, al crecer ^a1 disminuye a^ 0.
  3. Como ya se ha indicado el parámetro a0 tiene menor importancia que a1 y, en algunas situaciones, no tiene una interpretación realista si el cero no es un punto del rango de la X, por ejemplo, al estudiar la relación entre las variables peso y altura de un colectivo de personas. Por ello tiene interés la ecuación de la recta de regresión que utiliza solo el parámetro a1. Esta ecuación es la siguiente 
    yi- y = a1(xi- x)+ ei,
    (6.13)
    o bien,
    ^yi- y = ^a1 (xi- x) .
    Para  ello basta con centrar las dos variables en estudio y calcular la recta de regresión que pasa por el origen de coordenadas.
  4. La recta de regresión de sobre es distinta de la recta de regresión de sobre X. En el primer caso se obtiene que
    ^xi = ^g0 +
^g1yi
    donde ^g1 = sXY -2--
sY y ^g0 = x-^g1y .

No hay comentarios:

Publicar un comentario