viernes, 16 de octubre de 2015

Diagramas


curva de Lorenz es una representación gráfica utilizada frecuentemente para plasmar la distribución relativa de una variable en un dominio determinado. El dominio puede ser el conjunto de hogares o personas de una región o país, por ejemplo. Lavariable cuya distribución se estudia puede ser el ingreso de los hogares o las personas. Utilizando como ejemplo estas variables, la curva se trazaría considerando en el eje horizontal el porcentaje acumulado de personas u hogares del dominio en cuestión y en el eje vertical el porcentaje acumulado del ingreso. Su autoría es de Max O. Lorenz en 1905.
Cada punto de la curva se lee como porcentaje acumulativo de los hogares o las personas. La curva parte del origen (0,0) y termina en el punto (100,100). Si el ingreso estuviera distribuido de manera perfectamente equitativa, la curva coincidiría con la línea de 45 grados que pasa por el origen (por ejemplo el 30% de los hogares o de la población percibe el 30% del ingreso). Si existiera desigualdad perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría con el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En general la curva se encuentra en una situación intermedia entre estos dos extremos.

Curva de Lorenz y desigualdad

Si una curva de Lorenz se encuentra siempre por encima de otra (y, por lo tanto, está más cerca de la línea de 45 grados que la otra), entonces podemos decir, sin ambigüedad, que la primera exhibe menor desigualdad que la segunda. Esta comparación gráfica entre distribuciones de distintos dominios geográficos o temporales es el principal empleo de las curvas de Lorenz. El indicador gráfico de bienestar más usado es la Curva de Lorenz Generalizada (CLG), que es una derivación de la curva de Lorenz habitual. La CLG sólo se diferencia de la de Lorenz en que en la escala vertical no se representan las cantidades relativas acumuladas sino las cantidades acumuladas (no relativas) divididas por el número N de elementos de la población. La lógica pretendida es representar qué cantidad absoluta corresponde a cada porcentaje de individuos. Para clarificar este aspecto, supóngase que la curva de Lorenz normal de una población nos dice que el 50% de los menos ricos poseen el 25% de la riqueza total. Se puede comprender que es muy diferente la situación de bienestar de este 50% de la población según si la riqueza total es muy pequeña o muy grande. Es obvio que es peor poseer el 50% de una cantidad pequeña que poseer el 25% de una cantidad mucho mayor. El dividir las cantidades acumuladas por el total de elementos N es necesario para poder comparar riquezas entre poblaciones distintas que tengan un número diferente de elementos: no es lo mismo una riqueza total de 1.000.000€ en un conjunto de 10 personas que esa misma riqueza total en un conjunto formado por 1.000 personas.

Ecuación de la curva de Lorenz

Si se conoce la distribución de la renta como densidad de probabilidad \scriptstyle f_r(r) para cada valor de renta, la curva de Lorenz puede encontrarse analíticamente en función de ésta. La proporción de personas o unidades familiares con una renta inferior a un nivel de renta r viene dada por:
(1)P(r) = \int_0^r f_r(\rho)\ d\rho
Mientras que la proporción de renta acumulada por las personas con rentas iguales o inferiores a r viene dada por:
(2)R(r) = \frac{\int_0^r \rho f_r(\rho)\ d\rho}{\int_0^\infty \rho f_r(\rho)\ d\rho} =
\frac{1}{R_m} \int_0^r \rho f_r(\rho)\ d\rho
Donde R_m es la renta media. Las ecuaciones (1) y (2) constituyen juntas las ecuaciones paramétricas de la curva en función del parámetro r.

Propiedades

La curva de Lorenz tiene pendiente positiva en todos sus puntos como se deduce de la siguiente relación:
(3)\left(\frac{dR}{dP}\right)_{P_0 = P(r_0)} = \frac{\frac{dR(r_0)}{dr}}{\frac{dP(r_0)}{dr}} =
\frac{r_0 f_r(r_0)/R_m}{f_r(r_0)} = \frac{r_0}{R_m} \ge 0
En el punto inicial \scriptstyle r_0 = 0 la pendiente será nula (aun en el caso \scriptstyle f_r(0) = 0 el límite anterior sigue siendo válido, pero en el resto de puntos será estrictamente positiva.
Además la curva de Lorenz es convexa ya que su derivada segunda siempre es positiva:
(4)\left(\frac{d^2 P}{dR^2}\right)_{P_0 = P(r_0)} = \frac{d}{dr}\left( \frac{dR}{dP} \right) \frac{dr}{dP} =
\frac{1}{R_m} \frac{dr(P_0)}{dP} = \frac{1}{R_m} \frac{1}{f_r(r_0)} \ge 0

Ejemplo 1

En esta sección calculamos la curva de Lorenz y el índice de Gini para una distribución de renta exponencial. Aunque ésta no parece una distribución adecuada para la renta nacional de ningún país, la sencillez de las expresiones obtenidas permite entender de modo sencillo la aplicación de las ecuaciones (1) a (4). Para un país con una renta nacional media \scriptstyle R_m con una distribución exponencial la densidad de probabilidad de la distribución será:
f_r(\rho) = \frac{1}{R_m} e^{-\frac{\rho}{R_m}}
Esta expresión permite calcular la proporción de personas por debajo de una cierta renta y la renta acumulada de ese grupo de personas fácilmente:
\begin{cases}
P = P(r) = \int_0^{r} \frac{e^{-\frac{\rho}{R_m}}}{R_m} d\rho = 1-e^{-\frac{r}{R_m}}\\
R = R(r) = \int_0^{r} \frac{\rho}{R_m}e^{-\frac{\rho}{R_m}} d\rho =
\left( 1-e^{ -\frac{r}{R_m} } \right)  \cfrac{r}{R_m}e^{-\frac{r}{R_m}} \end{cases}
Despejando \scriptstyle r de la primera ecuación y substituyendo el resultado en la segunda se obtiene la curva de Lorenz explícitamente:
R = R(P) = P + (1-P) \ln (1-P)\,
El índice de Gini se puede calcular simplemente como:
IG = 1 - 2 \int_0^1 R(P)\ dP = 0.5
Este es el valor exacto. Cuando para calcular este valor en lugar de una distribución continua se usa un cálculo aproximado por decilas en cambio resulta sólo \scriptstyle IG\ \approx 0,4911.

Ejemplo 2

Índice de Gini para diferentes curvas de Lorenz asociadas a distribuciones gamma \scriptstyle \Gamma_{n,\lambda}. El valor de n corresponde a cada distribución, mientras que el factor \scriptstyle \lambda está relacionado con la renta media y no influye en el índice de Gini.
Una aproximación más verosimil para la renta nacional es usar en lugar de una simple distribución exponencial, unadistribución gamma:
f_r(\rho) = \frac{\lambda^n}{\Gamma(n)} \rho^{n-1}e^{-\lambda\rho}
Donde el parámetro \scriptstyle \lambda está relacionado con la renta media mediante \scriptstyle \lambda = n/R_m. Después de una cierta cantidad de álgebra trivial pero engorrosa puede encontrarse que la proporción de personas por debajo de una cierta renta y la renta acumulada de ese grupo de personas vienen dadas por:
\begin{cases}
P = P(r) = \int_0^{r} f_r(\rho) d\rho = 1-e^{-\lambda r}P_{n-1}(\lambda r)\\
R = R(r) = \int_0^{r} \rho f_r(\rho) d\rho = 1-e^{-\lambda r}P_{n}(\lambda r) \end{cases}
Donde:
P_n(x) = \sum_{k=1}^n \frac{x^k}{k!} = 1 + x + \frac{x^2}{2} + \dots +\frac{x^n}{n!}
En este caso no es posible despejar explícitamente \scriptstyle r de la primera ecuación. Aunque puede calcularse el índice de Gini mediante la expresión (para \scriptstyle n entero):
IG = 1- 2\int_0^1 R\ dP = 1 - 2 \int_0^\infty R(r)\frac{dP(r)}{dr}\ dr
= \begin{cases}
\prod_{i=1}^n \frac{2k-1}{2k} & n\in \mathbb{N}\\
\frac{\Gamma(n+1/2)}{\Gamma(n+1)\Gamma(1/2)} & n\notin \mathbb{N} \end{cases}
En este caso el coeficiente de Gini tampoco depende de la renta media. Dado que el índice de Gini de la mayor parte de países está entre 0,50 y 0,25 la distribución gamma anterior puede usarse de manera aproximada para reproducir la distribución real de la renta.







gráfico de barras, también conocido como gráfico de columnas, es una forma de representar gráficamente un conjunto de datos o valores, y está conformado por barras rectangulares de longitudes proporcionales a los valores representados. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden orientarse verticalmente u horizontalmente

Ejemplo

Este diagrama de ejemplo está basado en los resultados de la Elección del Parlamento Europeo en el 2004 y en el de 1999. La tabla siguiente lista el número de asientos asignadas a cada partido. Los resultados de 1999 han sido multiplicados por 1.16933, para compensar el cambio en el número de asientos entre estos años.
GrupoAsientos (2004)Asientos (1999) a escala
EURO3333
33
33
EFA333333EDD333333ELDR6760
EPP276272
UEN2736
Otros6629
Un gráfico de barras que represente los resultados anteriores de la elección del 2004 se vería así:
(Si todos los datos fuesen ordenados en orden descendiente, este tipo de gráfico de barras sería llamado un diagrama de Pareto.)
Este gráfico de barras muestra ambos resultados (2004 y 1999):








Diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes

Cómo expresarlo gráficamente

                            +-----+-+    
  *       o     |-----------|     | |---|
                            +-----+-+    
                                         
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0   1   2       4   5       7       9   10      12          15
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango inter-cuartílico (RIC):
En el ejemplo, para trazar la caja:
  • Valor 7: es el Q1 (25% de los datos)
  • Valor 8.5: es el Q2 o mediana (el 50% de los datos)
  • Valor 9: es el Q3 (75% de los datos)
  • Rango inter-cuartílico RIC (Q3–Q1)
  • Los bigotes, las líneas que se extienden desde la caja, se extienden hasta los valores máximo y mínimo de la serie o hasta 1.5 veces el RIC.
Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls.
Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC.
En el ejemplo:
  • inferior: 7–1.5·2 = 4
  • superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que NO son atípicos, que serán los extremos de los bigotes.
  • En el ejemplo: 4 y 10
  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0.5 y 2.5
  • Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:
  • inferior: 7–3·2 = 1
  • superior: 9+3·2 = 15

Utilidad

  • Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  • Son útiles para ver la presencia de valores atípicos también llamados outliers.
  • Pertenece a las herramientas de las estadística descriptiva. Permite ver como es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.

No hay comentarios:

Publicar un comentario