AMIGOS PARA SIEMPRE: Estadística

el sobreajuste (también es frecuente emplear el término en inglésoverfitting) es el efecto de sobreentrenar un algoritmo de aprendizaje con unos ciertos datos para los que se conoce el resultado deseado. El algoritmo de aprendizaje debe alcanzar un estado en el que será capaz de predecir el resultado en otros casos a partir de lo aprendido con los datos de entrenamiento, generalizando para poder resolver situaciones distintas a las acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena demasiado (se sobreentrena) o se entrena con datos extraños, el algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los datos de entrenamiento que no tienenrelación causal con la función objetivo. Durante la fase de sobreajuste el éxito al responder las muestras de entrenamiento sigue incrementándose mientras que su actuación con muestras nuevas va empeorando.

El emplear la línea verde como clasificador se adapta mejor a los datos con los que hemos entrenado al clasificador, pero está demasiadoadaptada a ellos, de forma que ante nuevos datos probablemente arrojará más errores que la clasificación usando la línea negra.

Sobreajuste/Sobreentrenamiento en aprendizaje supervisado (p. ej. una red neuronal). El error de entrenamiento se muestra en azul, mientras que el error de validación se muestra en rojo. Si el error de validación se incrementa mientras que el de entrenamiento decrece puede que se esté produciendo una situación de sobreajuste.

método de variables instrumentales permite una estimación consistente cuando las variables explicativas (covariables) secorrelacionan con los términos de error de la regresión. Dicha correlación puede ocurrir cuando la variable dependiente causa por lo menos una de las covariables (relación causal "inversa"), cuando hay variables explicativas relevantes que se han omitido en el modelo, o cuando las covariables están sujetas a errores de medición. En esta situación, la regresión lineal generalmente produce estimaciones sesgadas e inconsistentes.² Sin embargo, si un instrumento está disponible, aún puede obtenerse estimaciones consistentes. Un instrumento es una variable que no pertenecen en sí en la ecuación explicativa y se correlaciona con las variables explicativas endógenas, condicionada a las otras variables. En los modelos lineales, hay dos requisitos principales para el uso de un IV:

El instrumento debe estar correlacionado con las variables explicativas endógenas, condicionada a las otras variables.
El instrumento no puede estar correlacionado con el término de error en la ecuación explicativa, es decir, el instrumento no puede sufrir el mismo problema que la variable original que pretende predecir.- ...................................................:http://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=6d91b338cc105ec9022cbf93a3b63cdbf3e29c96&writer=rdf2latex&return_to=Variable+instrumental

En estadística, econometría, la epidemiología y disciplinas afines, el método de variables instrumentales se utilizan para estimar relaciones causales cuando los experimentos controlados no son factibles.

Métodos de variables instrumentales permiten una estimación consistente cuando las variables explicativas están correlacionadas con los términos de error de una relación de regresión. Dicha correlación se puede producir cuando la variable dependiente causa por lo menos una de las covariables cuando hay variables explicativas relevantes que se han omitido en el modelo o en las que las covariables están sujetas a error de medición. En esta situación, la regresión lineal ordinaria suele producir estimaciones sesgadas e inconsistentes. Sin embargo, si un instrumento está disponible, aún puede obtener estimaciones consistentes. Un instrumento es una variable que no pertenecen en sí en la ecuación explicativa y se correlaciona con las variables explicativas endógenas, condicionada a las otras variables. En los modelos lineales, hay dos requisitos principales para el uso de un IV:

El instrumento debe estar correlacionada con las variables explicativas endógenas, condicionada a las otras variables.
El instrumento no puede ser correlacionado con el término de error en la ecuación explicativa, es decir, el instrumento no puede sufrir el mismo problema, ya que la variable original de predecir.

Definiciones

Definiciones formales de variables instrumentales, utilizando contrafácticos y criterios gráficos, están dadas por las Perlas. Las nociones de causalidad en la econometría, y su relación con variables instrumentales y otros métodos, son discutidos por Heckman.

La teoría de las variables instrumentales se obtuvo por primera vez por Philip G. Wright en su libro de 1928 El Arancel de aceites animales y vegetales.

Ejemplo

Informalmente, al tratar de estimar el efecto causal de alguna variable x en otro y, un instrumento es una variable z tercero y que afecta sólo a través de su efecto en x. Por ejemplo, supongamos que un investigador desea estimar el efecto causal del consumo de tabaco en la salud general. Correlación entre la salud y el fumar no implica que el fumar causa problemas de salud debido a que otras variables pueden afectar tanto la salud como fumar, o porque puede afectar la salud de fumar, además de fumar causan problemas de salud. Es en el mejor de difícil y costoso de llevar a cabo experimentos controlados en el consumo de tabaco en la población general. El investigador puede proceder a tratar de estimar el efecto causal del consumo de tabaco en la salud a partir de datos observacionales utilizando la tasa del impuesto sobre el tabaco como un instrumento para fumar en un análisis causal. Si los impuestos del tabaco afectan de salud sólo porque afectan fumar, la correlación entre los impuestos del tabaco y de salud evidencia de que fumar produce cambios en la salud. Una estimación del efecto del tabaquismo sobre la salud se puede realizar también haciendo uso de la correlación entre los impuestos y los patrones de fumar.

Aplicaciones

Métodos IV se utilizan comúnmente para estimar los efectos causales en contextos en los que experimentos controlados no están disponibles. La credibilidad de las estimaciones depende de la selección de los instrumentos adecuados. Buenas instrumentos son a menudo creadas por los cambios de política. Por ejemplo, la cancelación de un programa de becas para estudiantes de ayuda federal puede revelar los efectos de la ayuda sobre los resultados de algunos alumnos. Otros experimentos naturales o cuasi naturales de diversos tipos son explotados comúnmente, por ejemplo, Miguel, Satyanath y Sergenti utilizan shocks climáticos para determinar el efecto de los cambios en el crecimiento económico en el conflicto civil. Angrist y Krueger presenta un estudio de la historia y los usos de técnicas de variables instrumentales.

Estimación

Supongamos que los datos son generados por un proceso de la forma

donde

i indexa observaciones,
Es la variable dependiente,
es una variable independiente,
es un término de error inadvertido que representa todas las causas de que no sea, y
es un parámetro escalar observada.

El parámetro es el efecto causal de un cambio de una unidad en, la celebración de todas las otras causas de la constante. El objetivo es estimar econométrico. Para simplificar asumir los sorteos de están correlacionados y que provienen de distribuciones con la misma varianza, es decir, que los errores están correlacionados serialmente y homocedástico.

Supongamos también que se propone un modelo de regresión de nominalmente la misma forma. Dada una muestra aleatoria de T observaciones de este proceso, el estimador de mínimos cuadrados ordinaria es

donde X, Y y denotar vectores columna de longitud T. Cuando x y no están correlacionadas, bajo ciertas condiciones de regularidad el segundo término tiene un valor esperado condicional de x de cero y converge a cero en el límite, por lo que el estimador es imparcial y consistente. Cuando x y las otras, las variables causales no medidos se derrumbó en el término se correlacionan, sin embargo, el estimador MCO es generalmente sesgado e inconsistente para. En este caso, es válido utilizar las estimaciones para predecir los valores de los valores dados a de x, pero la estimación no se recupera el efecto causal de x de y.

Una variable instrumental z es uno que está correlacionada con la variable independiente, pero no con el término de error. Utilizando el método de los momentos, tener expectativas condicionales en z para encontrar

El segundo término del lado derecho es cero por supuesto. Resuelva para y escribir la expresión resultante en términos de momentos de la muestra,

Cuando Z y no están correlacionados, el término final, bajo ciertas condiciones de regularidad, se aproxima a cero en el límite, proporcionar un estimador consistente. Dicho de otra manera, el efecto causal de x en y se puede estimar consistentemente a partir de estos datos a pesar de que x no se asigna al azar a través de métodos experimentales.

El enfoque se generaliza a un modelo con múltiples variables explicativas. Supongamos que X es la matriz de K variables explicativas resultan de T observaciones de las variables K T. Sea Z un T K matriz de instrumentos. Entonces se puede demostrar que el estimador

es consistente bajo una generalización multivariante de las afecciones expuestas anteriormente. Si hay más instrumentos que los que hay covariables en la ecuación de interés para que Z es un T matriz M con M> K, el método generalizado de momentos puede ser utilizado y el estimador IV resultante es

dónde. La segunda expresión colapsa a la primera cuando el número de instrumentos es igual al número de covariables en la ecuación de interés.

La interpretación como dos etapas de mínimos cuadrados

Un método computacional que puede ser utilizado para calcular las estimaciones IV es de dos etapas de mínimos cuadrados. En la primera etapa, cada variable explicativa que es una covariable endógena en la ecuación de interés es retrocedido en todas las variables exógenas en el modelo, incluyendo ambas covariables exógenos en la ecuación de interés y los instrumentos excluidos. Se obtienen los valores predichos a partir de estas regresiones.

Etapa 1: retroceder cada columna de X en Z,

y guardar los valores pronosticados:

En la segunda fase, la regresión de interés se calcula como de costumbre, excepto que en esta etapa cada uno de covarianza endógena se sustituye con los valores predichos a partir de la primera etapa.

Etapa 2: la regresión de Y en los valores predichos a partir de la primera etapa:

El estimador resultante es numéricamente idéntica a la expresión se muestra arriba. Una pequeña corrección debe ser hecha a la suma de los cuadrados de los residuos en el modelo ajustado de la segunda etapa con el fin de que la matriz de covarianza de se calcula correctamente.

Identificación

En la regresión de variable instrumental, si tenemos múltiples regresores endógenos y múltiples instrumentos de los coeficientes de los regresores endógenos se dice que:

Exactamente identificado si m = k. Sobreidentificado si m> k. Underidentified si m

Los parámetros se underidentified Si hay menos de instrumentos hay covariables o, de manera equivalente, si hay menos instrumentos excluidos de allí son covariables endógenas en la ecuación de interés.

Análisis no paramétrico

Cuando la forma de las ecuaciones estructurales es desconocida, una variable instrumental todavía se puede definir a través de las ecuaciones:

donde y son dos funciones arbitrarias y es independiente de. A diferencia de los modelos lineales, sin embargo, las mediciones de y no permiten identificar el efecto causal promedio de sobre, denominado ACE

Balke y Pearl derivan límites estrictos a ACE y demostraron que estos pueden proporcionar información valiosa sobre el signo y el tamaño de la ECA.

En el análisis lineal, no existe una prueba para falsificar la hipótesis de la relación es fundamental para el par. Este no es el caso cuando es discreta. Pearl ha demostrado que, para todos y, la siguiente restricción, llamada "La desigualdad Instrumental" debe tener siempre satisface a las dos ecuaciones anteriores:

En la interpretación de las estimaciones IV

La exposición anterior supone que la efecto causal de interés no varía a través de observaciones es decir, que es una constante. En general, los distintos temas responden de manera diferente a los cambios en el "tratamiento" x. Si se reconoce esta posibilidad, el efecto medio en la población de un cambio en x de y puede diferir del efecto en una subpoblación determinada. Por ejemplo, el efecto medio de un programa de capacitación para el trabajo puede diferir sustancialmente entre el grupo de personas que realmente reciben la formación y el grupo que opte por no recibir capacitación. Por estas razones, los métodos IV invocan suposiciones implícitas en la respuesta de comportamiento, o más generalmente suposiciones más de la correlación entre la respuesta al tratamiento y la propensión a recibir el tratamiento.

El estimador estándar IV puede recuperar los efectos de tratamiento promedio de locales en lugar de los efectos promedio de tratamiento. Imbens y Angrist demuestran que la estimación lineal IV se puede interpretar en condiciones débiles como una media ponderada de los efectos locales de tratamiento promedio, en donde los pesos dependen de la elasticidad de la regresor endógeno a los cambios en las variables instrumentales. Aproximadamente, eso significa que el efecto de una variable sólo se revela para las subpoblaciones afectadas por los cambios observados en los instrumentos, y que las subpoblaciones que responden más a los cambios en los instrumentos tendrán los efectos más grandes en la magnitud de la estimación IV.

Por ejemplo, si un investigador utiliza la presencia de una universidad de concesión de tierras como instrumento para la educación universitaria en una regresión de los ingresos, se identifica el efecto de la universidad en las ganancias en la subpoblación que obtener un título universitario si una universidad está presente pero que, sin no obtener un título de una universidad si no está presente. Este enfoque empírico no es así, sin más suposiciones, dice el investigador nada sobre el efecto de la universidad entre personas que ya sea siempre o nunca conseguir un título universitario, independientemente de si existe o no una universidad local.

Los problemas potenciales

Estimaciones de variables instrumentales son generalmente incompatibles si los instrumentos están correlacionadas con el término de error en la ecuación de interés. Otro problema es causado por la selección de los instrumentos "débiles", instrumentos que son malos predictores de la cuestión endógena predictor en la ecuación de la primera etapa. En este caso, la predicción de la cuestión predictor por el instrumento será pobre y los valores predichos tendrá muy poca variación. Por consiguiente, es poco probable que tener mucho éxito en la predicción del resultado final cuando se utilizan para reemplazar la pregunta predictor en la ecuación de la segunda etapa.

En el contexto del fumar y el ejemplo de la salud se discutió anteriormente, los impuestos al tabaco son instrumentos débiles para fumar si el hábito de fumar es en gran parte no responde a los cambios en los impuestos. Si los impuestos más altos no inducen a la gente a dejar de fumar, entonces la variación de los tipos impositivos no nos dice nada acerca de los efectos del tabaquismo sobre la salud. Si los impuestos afectan a la salud a través de canales distintos a través de su efecto sobre el tabaquismo, a continuación, los instrumentos son válidos y el enfoque de variables instrumentales pueden producir resultados erróneos. Por ejemplo, los lugares y los tiempos con poblaciones relativamente preocupados por su salud pueden aplicar tanto a los altos impuestos del tabaco y exhibir una mejor salud, incluso la celebración de las tasas de tabaquismo constante, por lo que se observa una correlación entre los impuestos sobre el tabaco y la salud, incluso si fuera el caso de que fumar no tiene ningún efecto en la salud. En este caso, sería un error inferir un efecto causal del consumo de tabaco en la salud de la correlación observada entre los impuestos sobre el tabaco y la salud.

Propiedades de muestreo y pruebas de hipótesis

Cuando las covariables son exógenos, las pequeñas de muestra propiedades del estimador MCO se pueden derivar de una manera directa mediante el cálculo de los momentos de la estimador condicional en X. Cuando algunas de las covariables son endógenas por lo que la estimación de variables instrumentales se implementa, expresiones simples para los momentos de la estimador no pueden ser obtenidos de esta manera. En general, los estimadores de variables instrumentales sólo tienen deseable asintótica, muestra no finito, propiedades, y la inferencia se basa en aproximaciones asintóticas a la distribución muestral del estimador. Incluso cuando los instrumentos no están correlacionadas con el error en la ecuación de interés y cuando los instrumentos no son débiles, las propiedades de la muestra finitas del estimador de variables instrumentales pueden ser pobres. Por ejemplo, los modelos identificados exactamente producen estimadores muestra finita sin momentos, por lo que el estimador se puede decir que ser ni parcial ni imparcial, el tamaño nominal de la estadística de prueba se distorsione sustancialmente, y las estimaciones pueden ser habitualmente muy lejos del valor real del parámetro.

Prueba de fuerza de instrumento y sobreidentificación de restricciones

La fuerza de los instrumentos se puede evaluar directa porque tanto las covariables endógenos y los instrumentos son observables. La regla común para los modelos con un regresor endógeno: el F-estadística en contra de la nula de que los instrumentos excluidos son irrelevantes en la regresión de la primera etapa debe ser mayor que 10.

La suposición de que los instrumentos no están correlacionados con el término de error en la ecuación de interés no es comprobable en los modelos identificados con exactitud. Si se sobreidentificado el modelo, no hay información disponible que se puede utilizar para poner a prueba esta hipótesis. La prueba más común de estas restricciones de sobreidentificación, llamada la prueba de Sargan, se basa en la observación de que los residuos deben ser correlacionadas con el conjunto de variables exógenas si los instrumentos son realmente exógenas. El estadístico de la prueba de Sargan se puede calcular a partir de la regresión MCO de los residuos en el conjunto de variables exógenas. Esta estadística será asintótica chi-cuadrado con m - k grados de libertad bajo la hipótesis nula de que el término de error está correlacionado con los instrumentos.

AMIGOS PARA SIEMPRE

Páginas

domingo, 7 de junio de 2015

Estadística