martes, 4 de abril de 2017

Estadística descriptiva

MEDIDAS DE POSICIÓN CENTRAL


Las medidas de tendencia central (o de centralización) son medidas que tienden a localizar en qué punto se encuentra la parte central de un conjunto ordenado de datos de una variable cuantitativa.

Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos.
Las medidas de posición son de dos tipos:
a) Medidas de posición central: informan sobre los valores medios de la serie de datos.
b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie.
a) Medidas de posición central
Las principales medidas de posición central son las siguientes:
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

Xm =
(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
---------------------------------------------------------------------------------------
n


b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).

estadistica


Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido).
3.- Moda: es el valor que más se repite en la muestra.
Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los alumnos que vimos en la lección 2ª.

Variable
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
Acumulada
xxxxx
1,20
1
1
3,3%
3,3%
1,21
4
5
13,3%
16,6%
1,22
4
9
13,3%
30,0%
1,23
2
11
6,6%
36,6%
1,24
1
12
3,3%
40,0%
1,25
2
14
6,6%
46,6%
1,26
3
17
10,0%
56,6%
1,27
3
20
10,0%
66,6%
1,28
4
24
13,3%
80,0%
1,29
3
27
10,0%
90,0%
1,30
3
30
10,0%
100,0%

Vamos a calcular los valores de las distintas posiciones centrales:

1.- Media aritmética:

Xm =
(1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)
--------------------------------------------------------------------------------------------------
30
Luego:
Xm =
1,253

Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

2.- Media geométrica:

X =
((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30)
Luego:
Xm =
1,253

En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por qué ser así.

3.- Mediana:
La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior.

4.- Moda:
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas.

Medidas de tendencia central: Media, Mediana, Moda

Supóngase que un determinado alumno obtiene 35 puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy poco significado a menos que podamos conocer el total de puntos que obtiene una persona promedio al participar en esa prueba, saber cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones.
En otras palabras, para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos.
x
El promedio de notas es muy importante.
Las medidas de tendencia central (media, mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba.
Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que hizo el alumno  fue de 20 puntos. Con este dato podemos decir que la calificación del alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Las medidas de tendencia central más comunes son:
La media aritmética : comúnmente conocida como media o promedio . Se representa por medio de una letra o por una con una línea en la parte superior.
La mediana : la cual es el puntaje que se ubica en el centro de una distribución. Se representa como Md .
La moda : que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo .
x
La media, el mejor dato.
De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil. Sin embargo, cuando en una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dadas las características de la media, esta es afectada por los valores extremos).
La media es considerada como la mejor medida de tendencia central, por las siguientes razones:
Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
Es la medida de tendencia central más conocida y utilizada.
Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las modas de las distribuciones no se promedian.
La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy pocos casos.
Cómo calcular, la media, la moda y la mediana

Media aritmética PyE_001 o promedio

Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total . En palabras más simples, corresponde a la suma de un conjunto de datos dividida por el número total de dichos datos.
PyE_002
Ejemplo 1:
En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
PyE_003
La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio .
Ejemplo 2:
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de 63 varas de pino lo ilustra.
Largo (en m)
Frecuencia absoluta
Largo por Frecuencia absoluta
5
10
5          .       10  =   50
6
15
6          .        15 =   90
7
20
7          .        20 =  140
8
12
8          .        12 =    96
9
6
9            .          6 = 54
Frecuencia total = 63
430
PyE_004
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces).

Moda (Mo)

Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil.
5, 7, 3, 3 , 7, 8, , 5, 9, 5, , 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda.

Mediana (Med)
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante corresponde al número del caso que representa la mediana de la distribución.
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos.
Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos:  5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene:  1, 2, 4, , 8, 9, 10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los valores centrales.
21, 19, 18, 15, 13, 11 , 10, 9, 5, 3
PyE_005
Ejemplo 3 :
estadística004
Interpretando el gráfico de barras podemos deducir que:
5 alumnos obtienen puntaje de 62
5 alumnos obtienen puntaje de 67
8 alumnos obtienen puntaje de 72
12 alumnos obtienen puntaje de 77
16 alumnos obtienen puntaje de 82
4 alumnos obtienen puntaje de 87
lo que hace un total de 50 alumnos
Sabemos que la mediana se obtiene haciendo
estadistica004a
lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25 y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro:
puntaje
alumnos
62
1
62
2
62
3
62
4
62
5
67
6
67
7
67
8
67
9
67
10
72
11
72
12
72
13
72
14
72
15
72
16
72
17
72
18
77
19
77
20
77
21
77
22
77
23
77
24
77
25
77
26
77
27
77
28
77
29
77
30
82
31
82
32
82
33
82
34
82
35
82
36
82
37
82
38
82
39
82
40
82
41
82
42
82
43
82
44
82
45
82
46
87
47
87
48
87
49
87
50
El alumno 25 obtuvo puntaje de 77 
El alumno 26  obtuvo puntaje de 77
Entonces, como el total de alumnos es par debemos promediar esos puntajes:
estadistica005a
La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia abajo (alumnos 25 hasta el 1 en el cuadro)  y 25 alumnos obtuvieron puntaje de 77 hacia arriba (alumnos 26 hasta el 50 en el cuadro).

No hay comentarios:

Publicar un comentario