martes, 4 de abril de 2017

Estadística descriptiva

MEDIDAS DE DISPERSIÓN


Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.
Las medidas de dispersión son:

Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Desviación media

La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.
Di = x - x
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.
La desviación media se representa por signo
desviación media
desviación media

Ejemplo

Calcular la desviación media de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
media
desviación media

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:
delegación media
desviación media

Ejemplo

Calcular la desviación media de la distribución:
 xifix· fi|x - x||x - x| · fi
[10, 15)12.5337.59.28627.858
[15, 20)17.5587.54.28621.43
[20, 25)22.57157.50.7144.998
[25, 30)27.541105.71422.856
[30, 35)32.526510.17421.428
  21457.5 98.57
media
desviación media

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.
La varianza se representa por signo.
varianzavarianza

Varianza para datos agrupados

varianzavarianza
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
varianzavarianza

Varianza para datos agrupados

varianzavarianza

Ejercicios de varianza

Calcular la varianza de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
media
varianza

Calcular la varianza de la distribución de la tabla:
 xifixi · fixi2 · fi
[10, 20)15115225
[20, 30)2582005000
[30,40)351035012 250
[40, 50)45940518 225
[50, 6055844024 200
[60,70)65426016 900
[70, 80)75215011 250
  421 82088 050
media
varianza

Propiedades de la varianza

La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
Si a todos los valores de la variable se les suma un número la varianza no varía.
Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.
Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.
Si todas las muestras tienen el mismo tamaño:
varianzas
Si las muestras tienen distinto tamaño:
varianzas

Observaciones sobre la varianza

La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.
En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.
La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.
Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.
La desviación típica se representa por σ.
de relación típicadesviación

Desviación típica para datos agrupados

desviación típicadesviación
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
desviación típicadesviación típica

Desviación típica para datos agrupados

desviación típicadesviación típica

Ejercicios de desviación típica

Calcular la desviación típica de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
media
Desviación típica
Calcular la desviación típica de la distribución de la tabla:
 xifixi · fixi2 · fi
[10, 20)15115225
[20, 30)2582005000
[30,40)351035012 250
[40, 50)45940518 225
[50, 60)55844024 200
[60,70)65426016 900
[70, 80)75215011 250
  421 82088 050
media
desvición típica

Propiedades de la desviación típica

La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
Si a todos los valores de la variable se les suma un número la desviación típica no varía.
Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.
Si todas las muestras tienen el mismo tamaño:
desviación típica
Si las muestras tienen distinto tamaño:
desviación típica

Observaciones sobre la desviación típica

La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.
Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Rango estadístico

El rango o recorrido estadístico es la diferencia entre el valor máximo y el valor mínimo en un grupo de números aleatorios. Se le suele simbolizar con R.

Requisitos del rango

  • Ordenamos los números según su tamaño.
  • Restamos el valor mínimo del valor máximo
Ejemplo
Para la muestra (8, 7, 6, 9, 4, 3, 2, 5), el dato menor es 2 y el dato mayor es 9. Sus valores se encuentran en un rango de:

Medio rango o Rango medio

El medio rango o rango medio de un conjunto de valores numéricos es la media del mayor y menor valor, o la tercera parte del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia, el medio rango es:

Ejemplo

Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería:
Representación del medio rango: Medio rango.jpg

Varianza

La varianza es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, es el cuadrado de las desviaciones: 

Propiedades

  • La varianza es siempre positiva o 0: 
  • Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
  • Si a los datos de la distribución los multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.
  • Propiedad distributiva:  cov 

Desviación típica

La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.

Desviación típica muestral

Desviación típica poblacional

-->x = [17 14 2 5 8 7 6 8 5 4 3 15 9]
x = 17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.
-->stdev(x)
ans = 4.716311
-->
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando stdev se hallará la desviación típica.

Covarianza

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (σ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "".
La fórmula suele aparecer expresada como:
Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada).
Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctúa entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.

Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson, r, permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).
Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:
Ejemplo Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería: 

Propiedades

  • El coeficiente de correlación, r, presenta valores entre –1 y +1.
  • Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
  • Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
  • Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.es

No hay comentarios:

Publicar un comentario