sábado, 6 de junio de 2015

Estadística


Análisis de la regresión

El análisis del camino (Path analysis) o análisis de pautas es un análisis de regresión múltiple más un diagrama de flujo de las interdependencias. Es una aplicación de la inferencia estadística y la teoría de grafos. Primero se determina el orden de las dependencias o prioridades entre variables por una Encuesta, por un método intuitivo u otro método. Hecha la selección se analiza este material con Tablas de contingencia y Matriz de correlación y el análisis medirá los caminos críticos con valores esperados o reales. Es un test que puede fallar si no se establece racionalmente el orden de las dependencias en la red del modelo causal, se emplean variables no relevantes y no se cumplen los supuestos básicos.
Un ejemplo puede ser las influencias de la educación y los ingresos de los padres en los hábitos de lectura y compra de libros de los hijos. Se dibuja una gráfica con todas las posibles rutas, que en la forma más simple tomará la apariencia en estrella de un triángulo con una Y inscrita entre sus vértices. Los vectores resultarán bidireccionales <--> cuando no se supo o pudo establecer dependencias -educación/ingresos- y en los otros casos positivos, estarán orientados en la dirección causa --> efecto <-- -h="" a="" an="" bitos="" camino.="" causa="" coeficientes="" como="" compra-.="" con="" correspondientes="" cuando="" cuantitativos="" de="" ecuaciones="" el="" era="" es="" esperar="" establecer="" estructurales="" expresivo="" fico="" gr="" la="" las="" lineales="" lisis="" m="" modelo="" multivariable.="" n="" ndices="" p="" para="" principal="" propiedad="" pueden="" que="" recurre="" regresi="" rutas="" s="" se="" sus="" tabla="" todo="" tr="" un="" una="">





En estadística, el coeficiente de determinación, denominado  y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo.1
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existe varios resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde este valor puede tomar valores negativos.- .....................................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=e22a1e9725170329fa4c9ee9e8490050f7886152&writer=rdf2latex&return_to=Coeficiente+de+determinaci%C3%B3n

Coeficiente de determinación. Coeficiente de correlación.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue
            sum n      2
 2   scE    i=1 (y^i- y)
R =  scG--=  sum n------2-
              (yi- y)
           i=1
(6.15)
o bien
        scR      n - 2 ^s2 R2 = 1
-----= 1- ----- -R2-
        scG      n - 1 ^sY
Como scE < scG, se verifica que < R2 < 1.
El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente (Y ) respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.
Por otra parte, teniendo en cuenta que y^ i -y = ^a1(xi- x), se se obtiene
      s2 R2 = -2XY2
     sX sY
(6.16)
Dadas dos variables aleatorias cualesquiera , una medida de la relación lineal que hay entre ambas variables es el coeficiente de correlación definido por
     Cov(X, Y) r = -----------
    s (X)  s(Y)
(6.17)
donde s(X) representa la desviación típica de la variable (análogamente para s(Y )). Un buen estimador de este parámetro es el coeficiente de correlación lineal muestral (o coeficiente de correlación de Pearson), definido por
    sXY--            V~ -2- r = sX
sY = signo(^a1) R .
(6.18)
Por tanto,  (- [-1,1]. Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresión. Evidentemente, existe una estrecha relación entre  ^a1 aunque estos estimadores proporcionan diferentes interpretaciones del modelo:
es una medida de la relación lineal entre las variables Y.
a^1 mide el cambio producido en la variable al realizarse un cambio de una unidad en la variable X.
De las definiciones anteriores se deduce que:
s   = 0 <==> ^a = 0
<==> r = 0.
 XY        1
Es importante estudiar si es significativo (distinto de cero) ya que ello implica que el modelo de regresión lineal es significativo. Desafortunadamente la distribución de es complicada pero para tamaños muestrales mayores que 30 su desviación típica es s(r)  -~  1/ V~ ny puede utilizarse la siguiente regla
      2 |r| >  V~ n  ==>   r
es significativo (con a = 0'05)
En la interpretación del coeficiente de correlación se debe tener en cuenta que:
· ±indica una relación lineal exacta positiva (creciente) o negativa (decreciente),
· = 0 indica la no existencia de relación lineal estocástica, pero no indica independencia de las variables ya que puede existir una relación no lineal incluso exacta,
· valores intermedios de (< r < ó -< r < 0) indican la existencia de una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor der.
Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 6.7. Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R2 = 1, recta de regresión: y = x.
Graphic: fig6-7  
Figura 6.7. Dependencia funcional lineal.
Figura 6.8. La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación entre ellas, la nube de puntos indica que las variables son “casi” independientes.
= 0'192, R2 = 0'037recta de regresión: = 6'317 + 0'086x.
Contraste de regresión: F^R = 0'687  (-  F1,18 ==> valor = 0'418Se acepta la no influencia de la variable regresora en Y.
Graphic: fig6-8  
Figura 6.8. Observaciones “casi”independientes.
Figura 6.9. Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la correlación es muy pequeña
= 0'391, R2 = 0'153recta de regresión: = 32'534 1'889x.
Contraste de regresión: F^R = 3'252  (-  F1,18 ==> p-valor = 0'088Se acepta que no existe relación lineal con a = 0'05. En base a la Figura 6.6. se debe de hacer un ajuste del tipo parabólico = a0 + a1+ a2x2.
Graphic: fig6-9  
    Figura 6.9. Existe una relación cuadrática.
Figura 6.10. La nube de datos se ajusta razonablemente a una recta con pendiente positiva.
= 0'641, R2 = 0'410recta de regresión: -3' 963 + -1'749x.
Contraste de regresión: F^R = 12'522  (-  F1,18 ==> valor = 0'002Se rechaza la no influencia lineal de la variable x.
Graphic: fig6-10  
Figura 6.10. Relación estocástica lineal.
Figura 6.11. Existe una fuerte dependencia lineal negativa entre las dos variables y la correlación es muy alta (próxima a 1).
= 0'924, R2 = 0'846recta de regresión: -2'528 2'267x
Contraste de regresión: F^R = 105'193  (-  F1,18 ==> valor = 0'000Se acepta la existencia de una relación lineal.
Graphic: fig6-11  
Figura 6.11. Fuerte relación estocástica lineal.

No hay comentarios:

Publicar un comentario