sábado, 6 de junio de 2015

Estadística

Análisis de la regresión

Las Diferencias en diferencias (a veces 'Diferencia en diferencias", 1 'DID',2 or 'DD'3 ) es una técnica cuasi-experimental utilizada eneconometría que mide el efecto de un tratamiento en un determinado período en el tiempo. A menudo se utiliza para medir el cambio inducido por un tratamiento o un evento en particular, aunque puede estar sujeto a ciertas tendencias (reversión a la media prejuicios, etc.) En contraste con una estimación dentro de los sujetos del efecto del tratamiento (que mide la diferencia en un resultado después y antes del tratamiento) o una estimación de entre-sujetos del efecto del tratamiento (que mide la diferencia en el resultado entre los grupos de tratamiento y control), el estimador DID representa la diferencia entre el pre-post tratamiento, dentro de los grupos de tratamiento y control.- .................................................................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=dd1267643693b83da499b3c1dc04f108f7ba3000&writer=rdf2latex&return_to=Diferencias+en+diferencias


El estimador de Dif en Dif puede realizarse como un test estándar de diferencia de medias entre dos grupos de observaciones que son a su vez diferencias. Pero a su vez este test puede implementarese a través de una regresión econométrica.
En el primer caso, lo que haces es calcular para todas las firmas que tienes la diferencia en el tiempo de tu indicador de interés. Por ejemplo supongamos que sea un indicador de productividad como por ejemplo: ventas/numero de trabajadores, le llamemos V/N. Y supongamos que tienes dos períodos de tiempo, por ejemplo 2004 y 2006. Entonces primero para cada firma calculas la diferencia en el ratio ventas/numero de trabajadores. Sería: Dj=V06j/N06j-V04j/N04j , donde a todo le puse una “j” indicando que tienes una observacion para cada firma. Lo que obtuviste para cada firma es una medida de la variación en la productividad, con la idea de que nos permitirá saber quienes incrementaron (o redujeron) y en qué medida su productividad.
El siguiente paso es tomar dos grupos: un grupo con las firmas que fueron FONTAR en ese período (el tratamiento) y aquellas que no (el grupo de control). Con los dos grupos haces una diferencia de medias. En STATA podés hacer el test usando el menu desplegable:
Statistics>summaries tests..>classical tests>two group mean comparison test
Esto tiene su correlato en la estimación de un modelo de regresion. Van dos alternativas:
La primera consiste en estimar un modelo en base a observaciones que son las diferencias (en el tiempo) – por ejemplo las diferencias en productividad que ya mencioné. Por ejemplo:
Dj= a+b*Grupoj
donde Dj es la diferencia como la definimos antes y Grupo es una dummy que toma el valor 1 para el tratamiento y 0 para el control.
La otra forma es usando una variable de interacción. Pero corrés el modelo sobre la variable de productividad en vez de sobre la diferencia. De esta forma:
Vj/Nj=a+b*Tj+c*Grupoj+d*Interaccion
donde Tj es una dummy para el año (en este caso ponele que haces una dummy 2006=1 y 2004 queda con 0; pero podría generalizarse para tantas dummys como períodos distintos tengas- siempre una dummy menos que la cantidad de periodos porque un período es el punto de comparacion)
Grupoj es la misma que antes y por ultimo:
Interaccion=Tj*Grupoj;
El coeficiente que obtengas para la variable interaccion (la estimacion de “d”) va a ser el coeficiente de dif-en-dif; si la variable te da significativa es que hay efectivamente una diferencia en productividad que es atribuible al programa (al haber controlado ya por el tiempo y el grupo estas buscando si aquellos que estaban en el grupo tratamiento les fue mejor).
El último paper que leí donde el autor estima usando diferencias en diferencias es el “Urbanization Quality and Property Rights” de Marco Gonzalez Navarro. Él busca evaluar el impacto de un programa de otorgamiento de títulos (privados) de propiedad en México. Para ello compara grupos de parcelas de propiedad comunal (Ejidos) que fueron gradualmente accediendo al programa de otorgamiento de títulos. Puesto que cuenta con datos del Censo de 1990 y 2000, y un grupo de Ejidos que entraron al programa antes de 2000 y posteriormente a 2000, puede comparar aquellos que se habrían beneficiado de la titularización (grupo tratamiento) contra los otros (grupo control) como estrategia para evaluar el efecto del programa. A continuación muestro una tabla de ese paper pues su organizacion permite ver la diferencia en diferencia de una forma bastante intuitiva.
La tabla muestra distintos indicadores que utiliza para evaluar el impacto del programa. En esta tabla muestra indicadores de acceso a servicios básicos, por ejemplo, la conexión agua corriente, cloacas y electricidad. Recordemos que la base de datos de Navarro contiene una observación de los indicadores mencionados por cada Ejido y por cada censo.
Notar que en las filas reporta la variación de los indicadores en el tiempo. Como es esperable, en el transcurso de una década, la mayoría de los indicadores de conexión resultó con un inremento significativo. A su vez, las columnas reportan la diferencia entre los grupos de tratamiento (early titled) y control (late titled). Como ejemplo, observar que los grupos de tratamiento y control no difieren significativamente en términos de conexion a agua o cloacas ni en el año 90 ni en el 2000. En cambio el grupo tratamiento posee mayor conexión a electricidad en ambos períodos. ¿Es esta evidencia de conexión a electricidad a favor de los efectos del programa de titularización? No necesariamente. El test ubicado en la esquina inferior derecha es el test correspondiente a la dif en dif. La intuición del test es evaluar si los incrementos en la tasa de conexión fueron superiores para el grupo tratamiento que el control. Notar que en el caso de electricidad la diferencia no es significativa. En otras palabras, si bien el grupo tratamiento presenta mayor conexión, no se observa un incremento en dicha tasa que sea superior al incremento del grupo control. Podrán observar también que la población y la proporción de hogares con pisos firmes creció más en el grupo control (late titled).




de los parámetros de un tipo de regresión del modelo cuando se aplica este modelo en situaciones en las que las hipótesis estándar de análisis de regresión no se aplican.1 Es fue ideado por K. Whitney Newey y Kenneth D. West en 1987, aunque hay un número de variantes posteriores.2 3 4 5 El estimador se utiliza para tratar de superar autocorrelación, o correlación , y heteroscedasticidad en los términos de error en los modelos. Esto a menudo se utiliza para corregir los efectos de la correlación de los términos de error en las regresiones aplicadas a las series temporales de datos.
El problema en la autocorrelación, a menudo se encuentran en los datos de series de tiempo, es que los términos de error están correlacionadas con el tiempo. Esto se puede demostrar en Q*, Una matriz de sumas de cuadrados y productos cruzados que implica \sigma_{(ij)} y las filas de X. El estimador de mínimos cuadrados b es una constante estimador de \beta. Esto implica que los mínimos cuadrados residuales e_i son las "punto-sabios" estimadores consistentes de sus homólogos de población E_i. El enfoque general, a continuación, será el uso de X y e diseñar un estimador de Q*.6 Lo que esto significa es que a medida que el tiempo entre los términos de error aumenta, la correlación entre los términos de error disminuye. El estimador por lo tanto se puede utilizar para mejorar los mínimos cuadrados ordinarios (MCO) de regresión cuando las variables tienen heterocedasticidad o autocorrelación.
w_\ell=1 - \frac{\ell}{L+1}



regresión .- .............................:
http://www.sucarrat.net/teaching/econometria2/05_autocorrelacion.pdf

No hay comentarios:

Publicar un comentario