domingo, 7 de junio de 2015

Estadística

Análisis de la regresión

 regresión no paramétrica es una forma de análisis de la regresión en el que el predictor no tiene una forma predeterminada, sino que se construye de acuerdo a la información derivada de los datos. La regresión no paramétrica requiere tamaños de muestra más grandes que los de una regresión sobre la base de modelos paramétricos porque los datos deben suministrar la estructura del modelo, así como las estimaciones del modelo.La regresión Kernel estima la variable dependiente continua a partir de un conjunto limitado de puntos de datos por convolución de las ubicaciones de los puntos de datos con una función kernel - aproximadamente hablando, la función del núcleo especifica la forma de "desenfoque" la influencia de los puntos de datos de modo que sus valores pueden ser utilizados para predecir el valor de localidades cercanas.La regresión no paramétrica multiplicativa (NPMR) es una forma de regresión no paramétrica basada en una estimación multiplicativa del kernel. Al igual que otros métodos de regresión, el objetivo es estimar una respuesta (variable dependiente) sobre la base de uno o más predictores (variables independientes). La NPMR puede ser una buena opción para un método de regresión si se cumplen las siguientes condiciones:
  • La forma de la superficie de respuesta es desconocida.
  • Los predictores son propensos a interactuar en la producción de la respuesta, en otras palabras, la forma de la respuesta a un predictor es probable que dependa de otros predictores.
  • La respuesta es o bien una variable cuantitativa o binaria (0/1).
Esta es una técnica de suavizado que se puede cruzar validado y aplicado de una manera predecible.





regresión no paramética .- ............................:http://masteres.ugr.es/moea/pages/tfm0809/regresin-no-paramtrica-en-r/!




 regresión robusta es una forma de análisis de la regresión diseñada para eludir algunas limitaciones tradicionales de los métodos paramétricos y no paramétricos. El análisis de regresión busca encontrar la relación entre una o más variables independientes y una variable dependiente. Algunos métodos utilizados de regresión, como mínimos cuadrados ordinarios, tienen propiedades favorables si sus suposiciones subyacentes se cumplen para los datos estudiados, pero pueden dar resultados engañosos si esas suposiciones no son ciertas; se dice que mínimos cuadrados ordinarios no es robusto a violaciones de los supuestos. Los métodos de regresión robusta están diseñados para no ser excesivamente afectados por violaciones de los supuestos por el proceso de generación de datos subyacente.- .........................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=3093537e9d9706155979d1bd2cc6613f00f0c225&writer=rdf2latex&return_to=Regresi%C3%B3n+robusta

Análisis Robusto de la Regresión
El Modelo Lineal es, sin duda, una de las técnicas estadísticas más utilizadas desde un punto de vista práctico. No obstante, el método de mínimos cuadrados, utilizado en la estimación de los parámetros  b0, ... , bk  que relacionan las  k   covariables   X1 , ... , Xk  , con la variable de respuesta  Y  mediante el modelo de regresión lineal de la forma
                        
es un método simple pero que proporciona  unos estimadores muy sensibles a la posible presencia de datos anómalos y a la no normalidad y homocedasticidad del error aleatorio  e.
En este capítulo estudiaremos las soluciones propuestas para resolver esta falta de robustez, analizando, en la sección segunda, el estimador de regresión de Huber y, en la sección tercera, el propuesto por Maronna y Yohai.
En la sección  cuarta se estudiarán otros métodos en la determinación de la Recta de Regresión Robusta.
Finalmente, en la sección quinta, se analizará el Análisis de la Covarianza Robusto.
Como ejemplo de las situaciones que vamos a resolver en este capítulo, consideremos los siguientes 13 pares de datos

 

27.1
20.9
33.4
77.6
37
21.6
17.6
35.1
32.6
26
27.6
38.7
27.8

 

19.7
18
26.1
15.7
26.1
19.9
15.7
27.6
24.9
23.4
23.1
31.3
23.8
La recta de mínimos cuadrados sería la de ecuación
                                           y = 23.165 - 0.0138 x
aunque su representación gráfica (la recta verde del siguiente dibujo) demuestra que, debido al dato anómalo (77.6, 15.7),  ésta no explica a la variable dependiente  Y  en función de la independiente  X
En este capítulo veremos que la M-recta de regresión robusta óptima, de ecuación
                             y = 8.748 + 0.5117 x
(recta azul del mismo dibujo), calculada con los trece datos, sí es más explicativa para la variable dependiente  Y  que la de mínimos cuadrados.



Estimación robusta.

Cuando existe evidencia existen una o varias observaciones heterogéneas que influyen en la estimación del modelo, la regresión robusta es una alternativa a la regresión por mínimos cuadrados ordinarios. La idea básica es calcular el estimador ^aR que minimiza la siguiente función
        n
        sum       2
Y (a) =    w(ei)ei,
       i=1
(10.14)
donde w(.) es una función de ponderación que se introduce para reducir (e incluso eliminar) el efecto de los residuos altos. Por tanto se definen los pesos w(ei) de forma que tomen valores pequeños en los residuos ei “grandes”. Para aplicar esta definición es necesario conocer los residuos ei. Este razonamiento conduce al siguiente algoritmo iterativo análogo al descrito para el método de mínimos cuadrados generalizados:
Etapa 1Calcular un estimador inicial (por ejemplo, el estimador por mínimos cuadrados ordinarios) ^a(0) = ^aMCO de los parámetros del modelo, a partir del cual se obtienen los residuos iniciales, ei(0)
 (0)
ei  = Yi- xi.^a(0),  i = 1,...,n.

Etapa 2. Se define una función de ponderación “razonable”. Por ejemplo, la función de Huber
                                |   |
             1/2              si||r(0)||< k
   ( (0))  {  |   |    |   |2       i      }
wi  ei  =    ||-k-||  1 ||-k-||    || (0)||
             ||r(0)||- 2 ||r(0)||  si|ri |> k
               i       i
(10.15)
donde ri(0) es el residuo estandarizado asociado a ei(0) es una constante. Si toma valores pequeños (inferior a 1'5) entonces las observaciones con residuos relativamente grandes influyan poco en la estimación del modelo.
Graphic: fig10-6
Figura 10.6. Función de ponderación de Huber.
Etapa 3. Se calcula el valor de a que minimiza la función
Y(a) =  sum  = 1nw(   )
 e(i0)ei2
A este vector se le denomina ^a(1)'.
En el modelo de regresión lineal simple, el estimador que se obtiene para el coeficiente de regresión lineal es
        n
        sum  w (e(0))(x - x)(y - y)
       i=1    i    i      i
^a1,(1) =--- sum n--(---)-----------
             w  e(0i) (xi- x)2
          i=1

Etapa 4. Con los nuevos estimadores a(1) se obtienen unos nuevos residuos et(1) y se continúa el proceso en la etapa 2 hasta obtener la convergencia de las estimaciones que según Huber (1981) se consigue de forma rápida en la mayoría de las situaciones.

No hay comentarios:

Publicar un comentario