domingo, 7 de junio de 2015

Estadística

Análisis de la varianza

análisis de la varianza (ANOVA, ANalysis OVAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.- ........................................................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=b6783e5402e2128293b13a88bdbae4c31e8d4ef3&writer=rdf2latex&return_to=An%C3%A1lisis+de+la+varianza

Página anterior
ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés.
El Anova requiere el cumplimiento los siguientes supuestos:
  • Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales.
  • Las K muestras sobre las que se aplican los tratamientos son independientes.
  • Las poblaciones tienen todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de  obtenida a partir de toda la información muestral, en dos partes:
  • Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias.
  • Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.
Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:
Media Global: 
Variación Total: 
Variación Intra-grupos: 
Variación Inter-grupos: 
Siendo xij el i-ésimo valor de la muestra j-ésima; nj el tamaño de dicha muestra y su media.
Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la varianza poblacional y el cociente entre ambos se distribuye según una F de Snedecor con K-1 grados de libertad en el numerador y N-K grados de libertad en el denominador. Por lo tanto, si H0 es cierta es de esperar que el cociente entre ambas estimaciones será aproximadamente igual a 1, de forma que se rechazará H0 si dicho cociente difiere significativamente de 1.
La secuencia para realizar un ANOVA es:
Analizar
Comparar medias
ANOVA de un factor
Se abre el siguiente cuadro de diálogo:
Se selecciona la variable que se considera Dependiente y la variable Factor y con el botón Opciones se activan EstadísticosDescriptivos y Homogeneidad de varianzas.
Al aceptar en el visor de resultados aparecen los siguientes cuadros:
  • Descriptivos. Recoge la media, la desviación típica, el intervalo de confianza del 95% (por defecto) para la media correspondientes a la variable dependiente para cada uno de los grupos definidos por el factor.
  • Prueba de homogeneidad de varianzas. Contiene el valor del estadístico de Levene del contraste de la hipótesis de homoscedasticidad con el nivel de significación crítico.
  • ANOVA. Contiene las sumas de cuadrados inter-grupos, intra-grupos y total, sus correspondientes grados de libertad y el valor del estadístico de prueba F junto con el nivel de significación crítico.
Como complemento gráfico de este análisis, para obtener una primera aproximación acerca de si es razonable o no la hipótesis nula, se selecciona Gráficos > Barras de error y se activa la opción Simple. Con el botón Definir se abre el siguiente cuadro de diálogo:
Se selecciona en Variable la variable dependiente del ANOVA y en el Eje de categorías la variable factor. El intervalo de confianza
para la media se calcula por defecto al 95% de confianza. Al aceptar aparece en el visor de resultados los puntos que respresentan a la media de cada grupo junto con los límites del correspondiente intervalo de confianza para la media poblacional. Si los puntos que representan las medias están desigualmente distribuidos en el gráfico se tiene un indicio de que a nivel poblacional no puede sostenerse la hipótesis de igualdad de medias; es decir, por lo menos uno de los niveles del factor influye significativamente sobre la variable dependiente.
EJEMPLOS
Con los datos de la encuesta sobre transporte, Enctrans.sav, razonar si puede aceptarse que el tipo de transporte utilizado, Trans, influye sobre la variable tiempo.
Con la opción de menú Gráficos > Barras de error > Simple y con el botón Definir se selecciona como Variable Tiempo y en Eje de categorías la variable Trans; al aceptar se obtiene la siguiente representación gráfica:
Como puede observarse, los puntos que representan a las medias de cada grupo aparecen dispersos a diferentes niveles; sobre todo la media del grupo definido por el factor Tren. El intervalo de confianza para la media correspondiente al grupo definido por el factor Metro está contenido dentro del intervalo correspondiente al grupo definido por el factor Bus, así como, el intervalo correspondiente al factor Coche está contenido dentro de los intervalos correspondientes definidos por los factores Metro y Otros. El gráfico, por tanto, parece sugerir no una única población sino tres poblaciones con distintas medias.
Para realizar el análisis de la varianza propiamente dicho la secuencia es Analizar > Comparar medias > ANOVA de un factor. En el cuadro de diálogo se selecciona Tiempo como variable Dependiente y Trans como Factor. Para contrastar la hipótesis de igualdad de varianzas se abre con el botón correspondiente el cuadro de diálogo ANOVA de un factorOpciones y se activa Homogeneidad de varianzas. Si se desea un análisis descriptivo del comportamiento de la variable dependiente dentro de cada grupo se activa también la opción Descriptivos. Al aceptar se obtienen los siguientes cuadros de resultados:
Este cuadro contiene un análisis descriptivo de la variable dependiente por grupos, así como, los límites superior e inferior para la media de cada grupo al 95% de confianza.
El estadístico de Levene toma un valor lo suficientemente pequeño para no rechazar la hipótesis de homocesdaticidad a los niveles de significación habituales.
En el cuadro de resultados del ANOVA, el valor del estadístico de prueba, F=6,450, es significativamente distinto de 1 para cualquier nivel de significación y, por lo tanto, se rechaza la hipótesis nula de igualdad de medias y queda confirmada la primera impresión proporcionada por el gráfico de barras de error.







análisis multivariante de la varianza o MANOVA (por su nombre en inglés, Multivariate analysis of variance) es una extensión del análisis de la varianza o ANOVA para cubrir los casos donde hay más de una variable dependiente que no pueden ser combinadas de manera simple. Además de identificar si los cambios en las variables independientes tienen efectos significativos en las variables dependientes, la técnica también intenta identificar las interacciones entre las variables independientes y su grado de asociación con las dependientes.
Cuando aparece la suma de cuadrados en el análisis univariante de la varianza, en el análisis multivariante de la varianza aparecen ciertas matrices definidas positivas. Los elementos diagonales son del mismo tipo de sumas de cuadrados que aparecen en el ANOVA univariante. Los elementos fuera de la diagonal se corresponden con sumas de productos. Asumiendo condiciones de normalidad sobre distribuciones de error, el homólogo de la suma de cuadrados debido al error tendrá una distribución de Wishart.
Análogamente a ANOVA, MANOVA está basado en el producto del modelo de la matriz de varianza y el inverso de la matriz de varianza del error. Las consideraciones de invarianza implican que las estadísticas de MANOVA deberían ser una medida de magnitud de ladescomposición del valor singular de esta matriz producto, pero no hay una única elección pendiente de la naturaleza multi-dimensionalde la hipótesis alternativa.
Las distribuciones estadísticas más comunes son la lambda (Λ) de Samuel Stanley Wilks, la traza de Pillai-M. S. Bartlett (ver traza de una matriz), la traza de Lawley-Hotelling y la raíz mayor de Roy. La discusión continúa sobre los méritos de cada una, aunque la raíz más grande que conduce sólo a una cota de significancia no es de interés práctico. Una complicación más es que la distribución de estas estadísticas bajo la hipótesis nula no es sencilla y sólo puede ser aproximada, excepto en unos casos de pocas dimensiones. La mejor aproximación de la lambda de Wilks fue hallada por C. R. Rao.
En el caso de dos grupos, todas las estadísticas son equivalentes y las pruebas se reducen a la distribución T cuadrada de Hotelling.

ANÁLISIS MULTIVARIANTE DE LA VARIANZA (MANOVA)
Si el análisis de la varianza univariante pretende contrastar hipótesis lineales sobre la influencia de los distintos niveles de uno o varios factores en el comportamiento de una variable (unidimensional), el análisis multivariante de la varianza (MANOVA) tiene la misma pretensión, pero considerando un vector (multidimensional) de variables.
La aplicación paradigmática del análisis de la varianza es determinar si existen diferencias significativas entre los distintos niveles o grupos de un factor ( categórico), a través del contraste de igualdad de medias. Porque es, fundamentalmente, ésta la aplicación que nos interesa, aquí nos detendremos un poco en ella, para el caso multivariante del MANOVA, para luego poder extender sus resultados y consideraciones al análisis factorial discriminante.
Los supuestos del análisis serán los mismos en el caso del MANOVA que en el del análisis factorial discriminante y, en consecuencia, los mantendremos ya desde aquí:
  1. Consideramos un vector aleatorio Y de dimensión n sobre el cuál obtenemos g muestras correspondientes a los g niveles, categorías o grupos considerados.
  2. Suponemos que Y sigue, en cada una de las poblaciones de los g grupos una distribución Normal n-variante con vector de medias M (i= 1,2,...g),eventualmente distinto para cada grupo y matriz de covarianzas V, la misma para todas las poblaciones.
Bajo estos supuestos, consideraremos, también, que cada observación n-dimensional para cada grupo, i, puede expresarse de acuerdo con el siguiente modelo:
                                                                                Yi = M + Ai + Ei
Donde: M es el vector de medias general. Ai es un vector n-dimensional que nos indica el efecto propio del nivel o grupo i-simo. Ei es un vector aleatorio que nos indica la desviación errática de las observaciones y se supone que sigue una distribución normal n-dimensional con vector de medias el vector nulo y matriz de varianzas V, la misma para todos los grupos (i=1,2,...g)
En estas circunstancias es fácil comprobar cómo el vector Yi tendrá, en cada grupo, i, una distribución:
                                                                            Yi ® N [ (M + A); V ]
Sobre este modelo nos plantemos contrastar la hipótesis nula de que todos los vectores A sean nulos:
                                                                                H0: A1= A2=....= Ag =0
Esta hipótesis equivale a considerar que no hay diferencias en los vectores de medias de Y en cada uno de los grupos o que las medias en cada grupo son las mismas y coinciden el vector M .
Para la realización del contraste, partimos, como en el caso univariante, de la descomposición de la varianza total; en este caso de la matriz de varianzas y covarianzas total.
La matriz de varianzas muestrales T puede verse como la suma de otras dos matrices de varianzas: T = B + W
Donde B es la matriz de varianzas "entre-grupos" (Between-groups) y W es la matriz de varianza "intra- grupos" (Within-groups).
B expresa las varianzas y covarianzas, considerando los centroides de los grupos como observaciones.
W, en cambio, expresa la suma para todos los grupos de las varianzas y covarianzas de las observaciones de cada grupo.
Pues bien, la matriz NB, donde N es el número total de observaciones muestrales, puede probarse que sigue una distribución de Wishart con parámetros n, g-1 , V (lo que se expresa como Wn(g-1, V ) ).
La distribución puede considerarse como una generalización de la distribución c 2 de Pearson, que puede definirse de acuerdo con el siguiente esquema general:
Si tenemos una matriz de n columnas y m filas, Z; donde cada columna está formada por un vector aleatorio m-dimensional que tiene una distribución normal m-variante con vector de medias el vector nulo y matriz de varianzas V, la misma para todas las columnas de la matriz; entonces la matriz A = Z'Z sigue una distribución de Wishart de parámetros n, m y V [lo que puede expresarse como: Wn(m,V) ]
Una propiedad importante de esta distribución es que si realizamos un muestreo aleatorio de tamaño N sobre una población normal multivariante N [M,V],la matriz formada por el producto del escalar N y la matriz de varianzas muestral,S, sigue una distribución de Wishart de parámetros n, N-1, V: NS ® Wn (N-1, V )
Es, precisamente, a partir de esta propiedad como puede probarse el resultado de que :
                                                            NB ® Wn (g-1,V)
Igualmente puede probarse también que si la hipótesis nula: H0: A1= A2=....= Ag =0 es cierta, entonces la matriz NW seguirá, también una distribución de Wishart de parámetros n, N-g, V y será independiente de la distribución de NB.
Obviamente también, considerando esa misma propiedad, NS (siendo S la matriz de varianzas totales muestral ) seguirá también una distribución Wn (N-1,V)
Teniendo en cuenta ésto, el contraste de la hipótesis nula: H0: A1= A2=....= Ag =0 se lleva a cabo evaluando el valor del estadístico L (lambda de Wilks):      L = |W| / |T|
Estadístico que sigue una distribución L de Wilks de parámetros n, N-g ,g-1 .
Es, precisamente este estadístico el que nos conducirá a determinar si los vectores de medias de los grupos son significativamente diferentes o no; es decir, si la hipótesis nula es rechazable o no:
Para un nivel de significación a:
  • Aceptaremos la hipótesis nula si L > La
  • Rechazaremos la hipótesis nula si L < La
Siendo L el valo crítico que verifica P (L > La) = a en una distribución L (n, N-g,g-1).
En la práctica el contraste se realiza después de una transformación previa del estadístico en una F o una c2
anova0.jpg (131645 bytes)

No hay comentarios:

Publicar un comentario