sábado, 13 de abril de 2019

ECUACIONES


 ecuación de Bellman , llamada así por Richard E. Bellman , es una condición necesaria para la optimización asociada con el método de optimización matemática conocido como programación dinámica . [1]Escribe el "valor" de un problema de decisión en un momento determinado en términos de la recompensa de algunas elecciones iniciales y el "valor" del problema de decisión restante que resulta de esas elecciones iniciales. cita requerida ] Esto divide un problema de optimización dinámica en una secuencia de subproblemas más simples, como lo prescribe el "principio de optimalidad" de Bellman . [2]
La ecuación de Bellman se aplicó por primera vez a la teoría del control de la ingeniería y a otros temas de matemática aplicada, y posteriormente se convirtió en una herramienta importante en la teoría económica ; aunque los conceptos básicos de la programación dinámica se prefiguró en John von Neumann y Oskar Morgenstern 's Teoría de Juegos y Comportamiento Económico y Abraham Wald ' s análisis secuencial . cita requerida ]
Casi cualquier problema que se pueda resolver utilizando la teoría de control óptimo también se puede resolver analizando la ecuación de Bellman apropiada. ¿Por qué? se necesita explicación adicional ] Sin embargo, el término 'ecuación de Bellman' generalmente se refiere a la ecuación de programación dinámica asociada con problemas de optimización de tiempo discreto . [3] En los problemas de optimización de tiempo continuo, la ecuación análoga es una ecuación diferencial parcial que generalmente se llama ecuación de Hamilton-Jacobi-Bellman . 

Conceptos analíticos en la programación dinámica editar ]

Para entender la ecuación de Bellman, se deben entender varios conceptos subyacentes. Primero, cualquier problema de optimización tiene algún objetivo: minimizar el tiempo de viaje, minimizar el costo, maximizar los beneficios, maximizar la utilidad, etc. La función matemática que describe este objetivo se llama función objetivo .
La programación dinámica divide un problema de planificación de múltiples períodos en pasos más simples en diferentes momentos. Por lo tanto, se requiere hacer un seguimiento de cómo la situación de decisión está evolucionando con el tiempo. La información sobre la situación actual que se necesita para tomar una decisión correcta se denomina "estado". [6] [7] Por ejemplo, para decidir cuánto consumir y gastar en cada momento, las personas necesitarán saber (entre otras cosas) su riqueza inicial. Por lo tanto, la riquezasería una de sus variables de estado , pero probablemente habría otras.
Las variables elegidas en cualquier momento dado a menudo se denominan variables de control . Por ejemplo, dada su riqueza actual, las personas podrían decidir cuánto consumir ahora. Elegir las variables de control ahora puede ser equivalente a elegir el siguiente estado; más generalmente, el siguiente estado se ve afectado por otros factores además del control actual. Por ejemplo, en el caso más simple, la riqueza de hoy (el estado) y el consumo (el control) podrían determinar exactamente la riqueza del mañana (el nuevo estado), aunque otros factores también afectarán la riqueza del mañana.
El enfoque de programación dinámica describe el plan óptimo al encontrar una regla que indique qué deben ser los controles, dado cualquier valor posible del estado. Por ejemplo, si el consumo ( c ) depende solo de la riqueza ( W ), buscaríamos una regla Eso da al consumo en función de la riqueza. Dicha regla, que determina los controles en función de los estados, se denomina función de política (ver Bellman, 1957, capítulo III.2). [6]
Finalmente, por definición, la regla de decisión óptima es la que logra el mejor valor posible del objetivo. Por ejemplo, si alguien elige el consumo, dada la riqueza, para maximizar la felicidad (asumiendo que la felicidad Hpuede ser representada por una función matemática, como una función de utilidad y es algo definido por la riqueza), entonces cada nivel de riqueza se asociará con un alto nivel de felicidad posible,El mejor valor posible del objetivo, escrito como una función del estado, se llama la función de valor .
Richard Bellman demostró que un problema de optimización dinámica en tiempo discreto puede plantearse en una forma recursiva , paso a paso, conocida como inducción hacia atrásal escribir la relación entre la función de valor en un período y la función de valor en el período siguiente. La relación entre estas dos funciones de valor se llama la "ecuación de Bellman". En este enfoque, la política óptima en el último período de tiempo se especifica de antemano como una función del valor de la variable de estado en ese momento, y el valor óptimo resultante de la función objetivo se expresa en términos de ese valor de la variable de estado. A continuación, la optimización del período siguiente al último implica maximizar la suma de la función objetivo específica del período de ese período y el valor óptimo de la función objetivo futura, dando a la política óptima de ese período contingente sobre el valor de la variable de estado a partir del siguiente. decisión del último período. Esta lógica continúa recursivamente en el tiempo, hasta que se derive la regla de decisión del primer período, como una función del valor de la variable de estado inicial, al optimizar la suma de la función objetivo específica del primer período y el valor de la función de valor del segundo período, que da el valor para todo el futuro periodos Por lo tanto, la decisión de cada período se toma reconociendo explícitamente que todas las decisiones futuras se tomarán de manera óptima.

Derivación editar ]

Un problema de decisión dinámica editar ]

Dejar que el estado en el momento  ser Para una decisión que comienza en el momento 0, tomamos el estado inicial dadoEn cualquier momento, el conjunto de acciones posibles depende del estado actual; podemos escribir esto como, donde la acción representa una o más variables de control. También asumimos que el estado cambia de a un nuevo estado  cuando la acción  se toma, y ​​que la recompensa actual de tomar medidas  en estado  es Finalmente, asumimos la impaciencia, representada por un factor de descuento. .
Bajo estas suposiciones, un problema de decisión de horizonte infinito toma la siguiente forma:
sujeto a las restricciones
Note que hemos definido la notación. para indicar el valor óptimo que se puede obtener al maximizar esta función objetivo sujeta a las restricciones asumidas. Esta función es la función de valor . Es una función de la variable de estado inicial., ya que el mejor valor obtenible depende de la situación inicial.

Principio de Optimidad de Bellman editar ]

El método de programación dinámica divide este problema de decisión en subproblemas más pequeños. El principio de optimalidad de Richard Bellman describe cómo hacer esto:
Principio de Optimalidad: Una política óptima tiene la propiedad de que, independientemente de cuál sea el estado inicial y la decisión inicial, las decisiones restantes deben constituir una política óptima con respecto al estado resultante de la primera decisión. (Ver Bellman, 1957, Capítulo III.3.) [6] [7] [8]
En ciencias de la computación, se dice que un problema que puede dividirse de esta manera tiene una subestructura óptima . En el contexto de la teoría de juegos dinámicos , este principio es análogo al concepto de equilibrio perfecto en subjuegos , aunque lo que constituye una política óptima en este caso está condicionado a que los opositores del tomador de decisiones elijan políticas óptimamente similares desde sus puntos de vista.
Según lo sugerido por el principio de optimalidad , consideraremos la primera decisión por separado, dejando de lado todas las decisiones futuras (comenzaremos de nuevo desde el momento 1 con el nuevo estado).). Recopilando las decisiones futuras entre paréntesis a la derecha, el problema anterior es equivalente a: aclaración necesaria ]
sujeto a las restricciones
Aquí estamos eligiendo , sabiendo que nuestra elección causará que el estado del tiempo 1 sea Ese nuevo estado afectará el problema de decisión desde el momento 1 en adelante. Todo el problema de la decisión futura aparece dentro de los corchetes a la derecha. aclaración necesaria ] explicación adicional necesaria ]

La ecuación de Bellman editar ]

Hasta ahora, parece que solo hemos resuelto el problema separando la decisión de hoy de las decisiones futuras. Pero podemos simplificar notando que lo que está dentro de los corchetes a la derecha es el valor del problema de decisión del tiempo 1, comenzando desde el estado.
Por lo tanto, podemos reescribir el problema como una definición recursiva de la función de valor:
, sujeto a las restricciones: 
Esta es la ecuación de Bellman. Se puede simplificar aún más si eliminamos los subíndices de tiempo y conectamos el valor del siguiente estado:
La ecuación de Bellman se clasifica como una ecuación funcional , porque resolverla significa encontrar la función desconocida V , que es la función de valor . Recuerde que la función de valor describe el mejor valor posible del objetivo, como una función del estado x . Al calcular la función de valor, también encontraremos la función a ( x ) que describe la acción óptima como una función del estado; Esto se llama la función de política .

En un problema estocástico editar ]

En el entorno determinista, se pueden utilizar otras técnicas además de la programación dinámica para abordar el problema de control óptimo anterior Sin embargo, la Ecuación de Bellman es a menudo el método más conveniente para resolver problemas de control óptimo estocástico .
Para un ejemplo específico de la economía, considere un consumidor con una vida infinita y dotado de riqueza inicial  en el periodo Tiene una función de utilidad instantánea .  dónde  Denota consumo y descuenta la utilidad del próximo período a una tasa de Supongamos lo que no se consume en el período.prorroga el siguiente periodo con tasa de interés Entonces el problema de maximización de la utilidad del consumidor es elegir un plan de consumo que resuelve
sujeto a
y
La primera restricción es la acumulación de capital / ley de movimiento especificada por el problema, mientras que la segunda restricción es una condición de transversalidad que el consumidor no tiene deuda al final de su vida. La ecuación de Bellman es
Alternativamente, uno puede tratar el problema de secuencia directamente usando, por ejemplo, las ecuaciones hamiltonianas .
Ahora, si la tasa de interés varía de un período a otro, el consumidor se enfrenta a un problema de optimización estocástica. Deje que el interés r siga un proceso de Markov con función de transición de probabilidaddónde denota la medida de probabilidad que rige la distribución de la tasa de interés en el próximo período si la tasa de interés actual esEl momento del modelo es que el consumidor decida su consumo del período actual después de que se anuncie la tasa de interés del período actual.
En lugar de simplemente elegir una sola secuencia , el consumidor ahora debe elegir una secuencia para cada posible realización de un  de tal manera que su utilidad esperada de por vida se maximiza:
La expectativa se toma con respecto a la medida de probabilidad apropiada dada por Q en las secuencias de r's. Debido a que r se rige por un proceso de Markov, la programación dinámica simplifica significativamente el problema. Entonces la ecuación de Bellman es simplemente
Bajo algún supuesto razonable, la función de política óptima resultante g ( a , r ) es mensurable .
Para un problema de optimización secuencial estocástica general con choques de Markovian y donde el agente se enfrenta con su decisión ex-post , la ecuación de Bellman toma una forma muy similar

Métodos de solución editar ]

  • El método de coeficientes indeterminados , también conocido como "adivinar y verificar", se puede utilizar para resolver algunas ecuaciones de Bellman autónomas de horizonte infinito [9]
  • La ecuación de Bellman se puede resolver por inducción hacia atrás , ya sea analíticamente en algunos casos especiales, o numéricamente en una computadora. La inducción numérica hacia atrás es aplicable a una amplia variedad de problemas, pero puede no ser factible cuando hay muchas variables de estado, debido a la maldición de la dimensionalidad . DP Bertsekas y JN Tsitsiklis han introducido una programación dinámica aproximada con el uso de redes neuronales artificiales ( perceptrones multicapa ) para aproximar la función de Bellman. [10] Esta es una estrategia de mitigación efectiva para reducir el impacto de la dimensionalidad al reemplazar la memorización del mapeo completo de funciones para todo el dominio del espacio con la memorización de los únicos parámetros de la red neuronal.
  • Al calcular las condiciones de primer orden asociadas con la ecuación de Bellman y luego usar el teorema dela envolvente para eliminar las derivadas de la función de valor, es posible obtener un sistema de ecuaciones en diferencias o ecuaciones diferenciales llamadas " ecuaciones de Euler ". [11] Las técnicas estándar para la solución de diferencias o ecuaciones diferenciales se pueden usar para calcular la dinámica de las variables de estado y las variables de control del problema de optimización.

Aplicaciones en economía editar ]

La primera aplicación conocida de una ecuación de Bellman en economía se debe a Martin Beckmann y Richard Muth . [12] Martin Beckmann también escribió extensamente sobre la teoría del consumo utilizando la ecuación de Bellman en 1959. Su trabajo influyó en Edmund S. Phelps , entre otros.
Una aplicación económica celebrada de una ecuación de Bellman es el artículo seminal de Robert C. Merton de1973 sobre el modelo intertemporal de valoración de activos de capital . [13] (Consulte también el problema de la cartera de Merton ). La solución al modelo teórico de Merton, una en la que los inversores eligieron entre los ingresos actuales y los ingresos futuros o las ganancias de capital, es una forma de la ecuación de Bellman. Debido a que las aplicaciones económicas de la programación dinámica generalmente resultan en una ecuación de Bellman que es una ecuación de diferencia , los economistas se refieren a la programación dinámica como un "método recursivo" y un subcampo de la economía recursiva ahora se reconoce dentro de la economía.
Nancy Stokey , Robert E. Lucas y Edward Prescott describen la programación dinámica estocástica y no estocástica con considerable detalle y desarrollan teoremas para la existencia de soluciones a problemas que cumplen ciertas condiciones. También describen muchos ejemplos de modelación de problemas teóricos en economía utilizando métodos recursivos. [14] Este libro condujo a la programación dinámica que se emplea para resolver una amplia gama de problemas teóricos en economía, incluido el crecimiento económico óptimo la extracción de recursos , los problemas del agente principal , las finanzas públicas , la inversión empresarial , la fijación de precios de activos , el factorAbastecimiento, y organización industrial . Lars Ljungqvist y Thomas Sargent aplican la programación dinámica para estudiar una variedad de preguntas teóricas sobre política monetaria , política fiscal , impuestos , crecimiento económico , teoría de la búsqueda y economía laboral . [15]Avinash Dixit y Robert Pindyck mostraron el valor del método para pensar en el presupuesto de capital . [16]Anderson adaptó la técnica a la valoración de empresas, incluidas las empresas privadas. [17]
Usar la programación dinámica para resolver problemas concretos se complica por las dificultades informativas, como elegir la tasa de descuento no observable. También hay problemas computacionales, el principal es la maldición de la dimensionalidad que surge de la gran cantidad de acciones posibles y variables de estado potenciales que deben considerarse antes de poder seleccionar una estrategia óptima. Para una extensa discusión sobre temas de computación, vea Miranda y Fackler, [18] y Meyn 2007. [19]

Ejemplo editar ]

En los procesos de decisión de Markov , una ecuación de Bellman es una recursión de las recompensas esperadas. Por ejemplo, la recompensa esperada para estar en un estado particular, s y siguiendo alguna política fijo tiene la ecuación de Bellman:
Esta ecuación describe la recompensa esperada por tomar la acción prescrita por alguna política .
La ecuación para la política óptima se conoce como la ecuación de optimalidad de Bellman :
dónde  es la política óptima y Se refiere a la función de valor de la política óptima. La ecuación anterior describe la recompensa por tomar la acción que da el mayor rendimiento esperado.








 función de masa binaria o simplemente la función de masa es una función que restringe la masa del componente invisible (típicamente una estrella o exoplaneta ) en una estrella binaria espectroscópica de línea simple o en un sistema planetario . Puede calcularse solo a partir de cantidades observables , es decir, el período orbital del sistema binario y la velocidad radial máximade la estrella observada. La velocidad de un componente binario y el período orbital proporcionan información (limitada) sobre la separación y la fuerza gravitacional entre los dos componentes y, por lo tanto, sobre las masas de los componentes.

Introducción editar ]

Dos cuerpos orbitando un centro de masa común, indicado por el signo más rojo. El cuerpo más grande tiene una masa más alta y, por lo tanto, una órbita más pequeña y una velocidad orbital más baja que su compañero de masa más baja.
La función de masa binaria se desprende de la tercera ley de Kepler cuando se introduce la velocidad radial de un componente binario (observado). [1] La tercera ley de Kepler describe el movimiento de dos cuerpos en órbita alrededor de un centro de masa común Relaciona el período orbital (el tiempo que lleva completar una órbita completa) con la distancia entre los dos cuerpos (la separación orbital) y la suma de sus masas. Para una separación orbital dada, una masa total más alta del sistema implica velocidades orbitales más altas . Por otro lado, para una masa de sistema dada, un período orbital más largo implica una mayor separación y velocidades orbitales más bajas.
Debido a que el período orbital y las velocidades orbitales en el sistema binario están relacionadas con las masas de los componentes binarios, la medición de estos parámetros proporciona cierta información sobre las masas de uno o ambos componentes. [2] Pero debido a que la verdadera velocidad orbital no se puede determinar en general, esta información es limitada. [1]
La velocidad radial es el componente de velocidad de la velocidad orbital en la línea de visión del observador. A diferencia de la velocidad orbital real, la velocidad radial se puede determinar a partir de la espectroscopia Doppler de líneas espectrales a la luz de una estrella, [3] o de las variaciones en los tiempos de llegada de pulsos de un pulsador de radio . [4] Un sistema binario se llama binario espectroscópico de línea simple si se puede medir el movimiento radial de solo uno de los dos componentes binarios. En este caso, se puede determinar un límite inferior de la masa del otro componente (invisible). [1]
La masa verdadera y la velocidad orbital verdadera no se pueden determinar a partir de la velocidad radial porque la inclinación orbital es generalmente desconocida. (La inclinación es la orientación de la órbita desde el punto de vista del observador, y se relaciona con la velocidad real y radial. [1] ) Esto causa una degeneración entre la masa y la inclinación. [5] [6] Por ejemplo, si la velocidad radial medida es baja, esto puede significar que la velocidad orbital verdadera es baja (lo que implica objetos de baja masa) y la inclinación alta (la órbita se ve de lado a lado), o que la velocidad verdadera es alta (lo que implica objetos de gran masa) pero la inclinación es baja (la órbita se ve de frente).

Derivación para una órbita circular editar ]

Curva de velocidad radial con velocidad radial máxima K = 1 m / sy período orbital 2 años.
El pico de velocidad radial. es la semiamplitud de la curva de velocidad radial, como se muestra en la figura. El periodo orbitalSe encuentra a partir de la periodicidad en la curva de velocidad radial. Estas son las dos cantidades observables necesarias para calcular la función de masa binaria. [2]
El objeto observado del cual se puede medir la velocidad radial se considera el objeto 1 en este artículo, su compañero invisible es el objeto 2.
Dejar  y  se las masas estelares, con la masa total del sistema binario,  y  las velocidades orbitales, y  y  Las distancias de los objetos al centro de masa. Es el eje semi-mayor (separación orbital) del sistema binario.
Comenzamos con la tercera ley de Kepler, con la frecuencia orbital yla constante gravitacional,
Usando la definición del centro de ubicación de masa, [1] podemos escribir
Insertando esta expresión para  en la tercera ley de Kepler, encontramos
que puede ser reescrito a
La velocidad radial máxima del objeto 1, , depende de la inclinación orbital (una inclinación de 0 ° corresponde a una órbita vista de frente, una inclinación de 90 ° corresponde a una órbita de borde). Para una órbita circular ( excentricidad orbital = 0) está dada por [7]
Después de sustituir  obtenemos
La función de masa binaria. (con unidad de masa) es [8] [7] [2] [9] [1] [6] [10]
Para una masa estimada o supuesta del objeto observado 1, una masa mínima  se puede determinar para el objeto invisible 2 asumiendo La verdadera masaDepende de la inclinación orbital. La inclinación generalmente no se conoce, pero hasta cierto punto se puede determinar a partir de los eclipsesobservados [2] se debe restringir a la no observación de los eclipses, [8] [9] o se puede modelar utilizando variaciones elipsoidales (la forma no esférica de una estrella en el sistema binario conduce a variaciones en el brillo en el transcurso de una órbita que depende de la inclinación del sistema). [11]

Límites editar ]

En el caso de (por ejemplo, cuando el objeto invisible es un exoplaneta [8] ), la función de masa se simplifica para
En el otro extremo, cuando (por ejemplo, cuando el objeto invisible es un agujero negro de gran masa ), la función de masa se convierte en [2]
y desde  para , la función de masa da un límite inferior a la masa del objeto invisible 2. [6]
En general, para cualquier  o ,

Órbita excéntrica editar ]

En una órbita con excentricidad. , la función de masa está dada por [7] [12]

Aplicaciones editar ]

Binarios de rayos X editar ]

Si el acumulador en un binario de rayos X tiene una masa mínima que excede significativamente el límite de Tolman-Oppenheimer-Volkoff (la masa máxima posible para una estrella de neutrones ), se espera que sea un agujero negro. Este es el caso en Cygnus X-1 , por ejemplo, donde se ha medido la velocidad radial de la estrella compañera. [13] [14]

Exoplanetas editar ]

Un exoplaneta hace que su estrella anfitriona se mueva en una pequeña órbita alrededor del centro de masa del sistema estrella-planeta. Este 'bamboleo' puede observarse si la velocidad radial de la estrella es suficientemente alta. Este es el método de velocidad radial para detectar exoplanetas. [5] [3] Usando la función de masa y la velocidad radial de la estrella anfitriona, se puede determinar la masa mínima de un exoplaneta. [15] [16] : [12] [17] La aplicación de este método en Proxima Centauri , la estrella más cercana al sistema solar, llevó al descubrimiento de Proxima Centauri b , un planeta terrestre con una masa mínima de 1.27  . [18]

Planetas pulsares editar ]

Pulsar planetas son planetas que orbitan pulsares , y varios han sido descubiertos usando el tiempo púlsar . Las variaciones de la velocidad radial del púlsar se derivan de los intervalos variables entre los tiempos de llegada de los pulsos. [4] Los primeros exoplanetas se descubrieron de esta manera en 1992 alrededor del PSR 1257 + 12 de milisegundos [19] Otro ejemplo es PSR J1719-1438 , un púlsar de milisegundos cuyo compañero, PSR J1719-1438 b , tiene una masa mínima aproximadamente igual a la masa de Júpiter , de acuerdo con la función de masa.

No hay comentarios:

Publicar un comentario