sábado, 6 de junio de 2015

Estadística


Análisis de la regresión

El coeficiente de determinación corregido en un modelo de regresión lineal mide el porcentaje de variación de la variable dependiente (al igual que el coeficiente de determinación) pero teniendo en cuenta el número de variables incluidas en el modelo.
Sabemos que a medida que vamos incluyendo variables en el modelo, el coeficiente de determinación aumenta aunque las variables que incluyamos no sean significativas. Esto supone un problema, ya que no debemos olvidar que la inclusión de nuevas variables supone un aumento en el número de parámetros a estimar para el modelo.
El coeficiente de determinación corregido viene a resolver este problema del coeficiente de determinación.
Se defines como:
 \bar R^2 = 1-{N-1\over N-k-1}[1-R^2]

Usos:
- Se emplea habitualmente para comparar modelizaciones alternativas que manteniendo el mismo número de observaciones varían en el número de regresores especificados.
- Resulta de especial interés en situaciones en las que el número de variables explicativas está cercano al número de observaciones de la muestra.


Coeficiente de determinación ajustado o corregido
Coeficiente de determinación ajustado o corregido 
Supongamos que una múltiple relaciona una variable dependiente en K variables independientes.
El coeficiente de determinación ajustado se define como
Se utiliza cuando el número de variables independientes no es una pequeña de n (tamaño de la muestra) pues al aumentar el número de variables puede que disminuya SRC lo cual hace que aumente R2 pero pueden existir variables independientes que no tienen vínculo fuete como variable dependiente.
Al comparar dos modelos por el R2 el tamaño de la muestra (n) y la variable dependiente deberá ser la misma.
Algunas medidas de la bondad de la estimación y de la capacidad de predicción
En la literatura se suele encontrar que los criterios para determinar la bondad de las predicciones se basa en el examen de los valores del coeficiente de correlación y, principalmente, del coeficiente de determinación R(también denominado coeficiente de correlación múltiple al cuadrado o coeficiente de determinación múltiple).
  • Coeficiente de determinación múltiple, R2, y R2 ajustado, son algunas medidas habituales en el análisis de regresión, denotando el porcentaje de varianza justificado por las variables independientes. El R2 ajustado tiene en cuenta el tamaño del conjunto de datos, y su valor es ligeramente inferior al de su correspondiente R[Norusis, 1993].
El R2 es un criterio de valoración de la capacidad de explicación de los modelos de regresión, y  representa el porcentaje de la varianza justificado por la variable independiente. Se puede interpretar como el cuadrado del coeficiente de correlación de Pearson entre las variables dependiente e independiente, o también como el cuadrado del coeficiente de correlación entre los valores reales de una variable y sus estimaciones. Si todas las observaciones están en la línea de regresión, el valor de R2 es 1, y si no hay relación lineal entre las variables dependiente e independiente, el valor de R2 es 0. El coeficiente R2 es una medida de la relación lineal entre dos variables. A medida que su valor es mayor, el ajuste de la recta a los datos es mejor, puesto que la variación explicada es mayor; así, el desajuste provocado por la sustitución de los valores observados por los predichos es menor.
Los valores que se han obtenido para el coeficiente R2 en los diferentes estudios publicados, por ejemplo, sobre los puntos de función varían desde 0,44 hasta 0,87. Apoyándose en estos valores, algunos autores afirman la validez de la técnica de los puntos de función. Sin embargo, es una conclusión que no se desprende directamente de esos datos. Fijémonos que son valores explicativos, no predictivos. Tanto el R2 como el coeficiente de correlación no son las medidas más adecuadas para evaluar la predicción de un modelo; en el mejor de los casos se trata de medidas del ajuste de la ecuación a los datos, no de la capacidad predictiva del modelo. En algunos casos la idea que nos transmite el R2 puede coincidir con la de las variables que a continuación se muestran, pero en otros no.
Desde este punto de vista, las variables más convenientes para la evaluación son PRED(0,25), nivel de predicción al 25%, y MMRE, magnitud media del error relativo, definidas en [Conte et al., 1986], y descritas a continuación.
  • Magnitud Media del Error Relativo, MMRE, se define como, donde e es el valor real de la variable, ê es su valor estimado y n es el número de proyectos. Así si el MMRE es pequeño, entonces tenemos un buen conjunto de predicciones. Un criterio habitual para considerar un modelo como bueno es el de MMRE < 0,25. La Figura 1 muestra las distancias que se utilizan para el cálculo de esta medida.
 
Figura 1. Distancias utilizadas en el MMRE. Las líneas continuas representan la diferencia entre el valor real y el estimado.
  • Predicción de Nivel l -PRED(l)-, donde l es un porcentaje, se define como el cociente del número de casos en los que las estimaciones están dentro del límite absoluto l de los valores reales entre el número total de casos. Por ejemplo PRED(0.1) = 0,9 quiere decir que 90% de los casos tienen estimaciones dentro del 10% de sus valores reales; PRED(0,25) = 0,9 quiere decir que el 90% de los casos tiene estimaciones dentro del 25% de sus valores reales. Un criterio habitual para aceptar un modelo suele ser el de PRED(0,25) ³ 0,75, aunque algunos autores rebajan este requisito. La Figura 2 representa gráficamente el nivel de predicción.
    Figura 2. El nivel de predicción se calcula sumando el número de veces que la línea continua se corta con los trazos verticales (rango del 25% de los valores reales), y después dividiendo esa suma entre el número total de puntos.
Volviendo a lo comentado anteriormente sobre los puntos de función y utilizando estos dos criterios, la supuesta capacidad de predicción de esas variables disminuye notablemente. Este es un caso donde los valores de explicación pueden desfigurar la verdadera capacidad predictiva [Dolado y Fernández, 1998]. Igual ocurre en algunos modelos de estimación de costes mediante las líneas de código.

Análisis de varios conjuntos de datos
La Tabla 1 muestra los resultados finales obtenidos para diversos conjuntos de datos. En la columna "Valores de Explicación" aparecen descritos el coeficiente de correlación múltiple R (Multiple R), el  R2(R Square) -en negrita-, y el R2 ajustado (Adjusted R Square). En la última columna se muestra la ecuación que mejores valores consigue en el PRED(0,25) y en el MMRE. De esta manera podemos comparar los valores explicativos con los valores predictivos. En todos los casos observamos el "optimismo" del R2 en comparación con las variables explicativas. Excepto en el último caso (datos de 1997, en el J. of Systems and Software), donde el Rpresenta un valor bajo (0,4) y unos valores no muy buenos de las variables explicativas, en el resto de datos el R2 nos invita a pensar en buenas capacidades predictivas, cuando lo único que tenemos es una cierta explicación. Por ejemplo, en el primer conjunto de datos el valor del R2 de 0,84 es excesivamente bueno para después obtener un PRED(0,25)=53,4, que no se puede considerar muy aceptable. No obstante el MMRE entra dentro del límite de lo aceptable.
Los R2 expuestos son los que corresponden a los mejores valores predictivos según lo denotado por las variables PRED(0,25) y MMRE, lo que todavía nos indica que pueden existir diferencias mayores a las presentadas en la tabla; de hecho esto ocurre, puesto que han aparecido algunas ecuaciones de regresión con mejores valores en el R2 que los mostrados en la tabla 1.
Es curioso el caso de los conocidos datos de B. Boehm en los que una simple regresión sobre los datos consigue unos valores predictivos muy pobres. Sin embargo COCOMO mejora considerablemente los resultados predicitvos, indicando que las ecuaciones de COCOMO incorporan "conocimiento" a los datos, sobre todo a través de los multiplicadores.

Tabla 1. Valores de R2, PRED(0,25) y MMRE para diversos conjuntos de datos

Origen de los Datos
VALORES DE  EXPLICACION
 
ESTIMACIÓN DE LA CURVA Y VALORES DE LAS VARIABLES DE PREDICCIÓN
Abran y Robillard, IEEE TSE, 1996
Multiple R .91844R Square .84353
Adjusted R Square .82614
Ecuación
  Pred (0.25)
57.14
 
 MMRE
0.2339
Miyazaki et al., JSS, 1994
Multiple R .88005R Square .77450
Adjusted R Square .76949
Ecuación
 
Pred (0.25)
42.55
  MMRE
0.3999
Aproximación a los datos de Matson et al, IEEE TSE, 1994
Multiple R .72057R Square .51922
Adjusted R Square .51450
Ecuación
  Pred (0.25)
27.88
  MMRE
0.8485
Belady y Lehman, 1979
Multiple R .88388R Square .78124
Adjusted R Square .77418
Ecuación
  Pred (0.25)
33.33
  MMRE
0.6258
Boehm, 1981
Multiple R .85862R Square .73723
Adjusted R Square .73293
Ecuación
  Pred (0.25)
17.46
  MMRE
1.1336
Conjunto de datos combinación de los de Albrecht y 
Gaffney, (IEEE TSE 1983) y los de Kemerer, CACM, 1987
Multiple R .72805R Square .53006
Adjusted R Square .51735
Ecuación
  Pred (0.25)
7.69
  MMRE
1.18
Dolado, JSS, 1997
Multiple R .63998R Square .40957
Adjusted R Square .39674
Ecuación
  Pred (0.25)
37.99
  MMRE
0.4375
Conclusión
En bastantes artículos sobre modelos de estimación nos podemos encontrar con validaciones de modelos (o de métodos) en los que las únicas variables documentadas son el coeficiente de correlación y el coeficiente de determinación, que son variables estadísticas relacionadas con el ajuste a los datos del modelo especificado. Y téngase en cuenta también que el R2 se construye desde el punto de vista de la regresión lineal. Bien es cierto que las transformaciones de las variables dependiente e independiente nos permiten construir otros tipos de relaciones y seguir utilizando el R2, correctamente, para laexplicación. Pero resulta inaplicable a otros modos de estimar como, por ejemplo, el juicio de expertos, razonamiento basado en casos, etc.
En definitiva, lo que queremos es realizar predicciones lo más acertadas posibles, sin importarnos el método; aceptaríamos hasta la bola mágica, si ésta funcionara. Y para medir esa capacidad de predicción se deben utilizar variables predictivas principalmente, no sólo explicativas. Además, siempre deben tenerse en cuenta la aparición de casos anómalos, la normalidad de los datos (difícilmente conseguible, por otra parte), la colinealidad entre variables independientes y muchas otras.
Se pueden cuestionar todavía más aspectos problemáticos a la hora de dar validez a un modelo predictivo, y que muchas veces son descuidados cuando se construyen, validan e, incluso, se enseñan. Sólo una visión global de todas las variables, las de ajuste y las puramente expresivas de capacidad de predicción nos pueden mostrar verdaderamente las posibilidades de nuestro método y de nuestros datos.

No hay comentarios:

Publicar un comentario