domingo, 7 de junio de 2015

Estadística

Análisis de la regresión

regresión lineal o ajuste lineal es un método matemáticoque modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Y_t = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon
Y_t: variable dependiente, explicada o regresando.
X_1, X_2, \cdots, X_p : variables explicativas, independientes o regresores.
\beta_0,\beta_1,\beta_2,\cdots ,\beta_p : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.- ............................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=fb8b913473cc85dd4e6efb1a95bd96b4478fdcd5&writer=rdf2latex&return_to=Regresi%C3%B3n+lineal

Regresión lineal

prev.gif (997 bytes)chapter.gif (1105 bytes)home.gif (1232 bytes)next.gif (998 bytes)

Tratamiento de datos

Regresión lineal
Variantes de la regresión lineal
La clase Regresion
Uso de la clase Regresion
El código fuente
java.gif (886 bytes)El applet que traza la recta de regresión

Regresión lineal

Abordaremos en esta página las distribuciones bidimensionales. Las observaciones se dispondrán en dos columnas, de modo que en cada fila figuren la abscisa x y su correspondiente ordenada y. La importancia de las distribuciones bidimensionales radica en investigar como influye una variable sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la producción agrícola (efecto). O bien, el aumento del precio de un bien, da lugar a una disminución de la cantidad demandada del mismo.
Si utilizamos un sistema de coordenadas cartesianas para representar la distribución bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersión, cuyo análisis permite estudiar cualitativamente, la relación entre ambas variables tal como se ve en la figura. El siguiente paso, es la determinación de la dependencia funcional entre las dos variables x e y que mejor ajusta a la distribución bidimensional. Se denomina regresión lineal cuando la función es lineal, es decir, requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de la recta de regresión, y=ax+b.
La regresión nos permite además, determinar el grado de dependencia de las series de valores X e Y, prediciendo el valor y estimado que se obtendría para un valor x que no esté en la distribución.
regresion1.gif (1748 bytes)
Vamos a determinar la ecuación de la recta que mejor ajusta a los datos representados en la figura. Se denomina error ei a la diferencia yi-y, entre el valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura inferior. El criterio de ajuste se toma como aquél en el que la desviación cuadrática media sea mínima, es decir, debe de ser mínima la suma

regresion2.gif (2074 bytes)
El extremos de una función: máximo o mínimo se obtiene cuando las derivadas de s respecto de a y de b sean nulas. Lo que da lugar a un sistema de dos ecuaciones con dos incógnitas del que se despeja a yb.

El coeficiente de correlación es otra técnica de estudiar la distribución bidimensional, que nos indica la intensidad o grado de dependencia entre las variables X e Y. El coeficiente de correlación r es un número que se obtiene mediante la fórmula.

El numerador es el producto de las desviaciones de los valores X e Y respecto de sus valores medios. En el denominador tenemos las desviaciones cuadráticas medias de X y de Y.
El coeficiente de correlación puede valer cualquier número comprendido entre -1 y +1.
· Cuando r=1, la correlación lineal es perfecta, directa.
· Cuando r=-1, la correlación lineal es perfecta, inversa
· Cuando r=0, no existe correlación alguna, independencia total de los valores X e Y

Variantes de la regresión lineal

  • La función potencial

y=c·xa
Se puede trasformar en

Si usamos las nuevas variables X=log x e Y=log y, obtenemos la relación lineal
Y=aX+b.
Donde b=log c
Ejemplo:
x1020304050607080
y1.061.331.521.681.811.912.012.11
Usar la calculadora para transformar esta tabla de datos en esta otra
X=log x1.01.301.4771.601.6991.7781.8451.903
Y=log y0.0250.1240.1820.2250.2580.2810.3030.324
Calcular mediante el programa regresión lineal los parámetros a y c.

  • Función exponencial

y=c·eax
Tomando logaritmos neperianos en los dos miembros resulta
ln y=ax+ln c
Si ponemos ahora X=x, e Y=ln y, obtenemos la relación lineal
Y=aX+b
Donde b=ln c.
Ejemplo:
x124193147204264373509773
y9308156324873702651477617
Usar la calculadora para transformar esta tabla de datos en esta otra
X= x124193147204264373509773
Y=ln y6.8356.7036.4496.1885.9135.5804.9904.3302.833
Calcular mediante el programa regresión lineal los parámetros a y c.

La clase Regresion

La clase Regresion que describe la regresión lineal no difiere substancialmente de la clase Estadistica que se ha descrito en la sección anterior. La diferencia estriba en que los miembros datos son dos arrays xy que guardan las series de valores X e Y, cuya dependencia funcional deseamos determinar. En los miembros dato públicos a y se guarda la pendiente de la recta de regresión y la ordenda en el origen.
La función miembro lineal, calcula la pendiente a, y ordenada en el origen b de la recta de regresión. Se hace uso de variables auxiliares para guardar resultados intermedios: sx guarda la suma de todas las abscisas, sy la suma de todas las ordenadas, sx2 la suma de los cuadrados de las abscisas, sy2 la suma de las cuadrados de las ordenadas, y pxy, la suma de los productos de cada abscisa por su ordenada. Los valores calculados a partir de las fórmulas respectivas, se guardan en los miembros públicos a y b de la clase Regresion.
Para obtener el coeficiente de correlación hemos de calcular primero el valor medio  de la serie de datos X, y el valor medio  de Y. No calculamos las desviaciones cuadráticas medias sino que empleamos una expresión equivalente a la dada anteriormente para el coeficiente de correlación.
public class Regresion {
    private double[] x;
    private double[] y;
    private int n;          //número de datos
    public double a, b;    //pendiente y ordenada en el origen
    public Regresion(double[] x, double[] y) {
        this.x=x;
        this.y=y;
        n=x.length; //número de datos
    }
    public void lineal(){
        double pxy, sx, sy, sx2, sy2;
        pxy=sx=sy=sx2=sy2=0.0;
        for(int i=0; i

Uso de la clase Regresion

Una fábrica de bebidas refrescantes observa que sus temperaturas (x)  y las ventas (y) de la calle han sido.
x57101216202327191496
y9111516202427292220149
Los datos los guardamos en dos arrays denominados temperatura y ventas
       
        double[] temperatura={5, 7, 10, 12, 16, 20, 23, 27, 19, 14, 9, 6};
 double[] ventas={9, 11, 15, 16, 20, 24, 27, 29, 22, 20, 14, 9};
Creamos un objeto regresion de la clase Regresion, pasándole al constructor los dos arrays..
        Regresion regresion=new Regresion(temperatura, ventas);
Se llama desde el objeto regresion a su función miembro lineal, para calcular los coeficentes a y b.
        regresion.lineal();
        System.out.println("Pendiente             "+regresion.a);
        System.out.println("Ordenada en el origen "+regresion.b);
Se llama también, a la función miembro correlacion, la cual devuelve el coeficiente de correlación
        System.out.println("Indice de correlación "+regresion.correlacion());

No hay comentarios:

Publicar un comentario