AMIGOS PARA SIEMPRE

Figura 1. Encontrar la ruta más corta en un gráfico utilizando una subestructura óptima; una línea recta indica un solo borde; una línea ondulada indica una ruta más corta entre los dos vértices que conecta (entre otras rutas, no mostradas, que comparten los mismos dos vértices); La línea en negrita es el camino más corto en general desde el inicio hasta la meta.

La programación dinámica es tanto un método de optimización matemática como un método de programación por computadora. El método fue desarrollado por Richard Bellman en la década de 1950 y ha encontrado aplicaciones en numerosos campos, desde la ingeniería aeroespacial hasta la economía . En ambos contextos, se refiere a simplificar un problema complicado dividiéndolo en subproblemas más simples en una recursivamanera. Si bien algunos problemas de decisión no se pueden separar de esta manera, las decisiones que abarcan varios puntos en el tiempo a menudo se dividen recursivamente. Del mismo modo, en ciencias de la computación, si un problema puede resolverse de manera óptima dividiéndolo en subproblemas y luego encontrando recursivamente las soluciones óptimas para los subproblemas, se dice que tiene subestructura óptima .

Si los subproblemas se pueden anidar recursivamente dentro de problemas mayores, de modo que los métodos de programación dinámica sean aplicables, entonces existe una relación entre el valor del problema mayor y los valores de los subproblemas. ^[1] En la literatura de optimización, esta relación se llama la ecuación de Bellman .

Descripción general [ editar ]

Optimización matemática [ editar ]

En términos de optimización matemática, la programación dinámica generalmente se refiere a simplificar una decisión dividiéndola en una secuencia de pasos de decisión a lo largo del tiempo. Esto se hace definiendo una secuencia de funciones de valores V ₁ , V ₂ , ..., V _n tomando y como un argumento que representa el estadodel sistema en los tiempos i de 1 a n . La definición de V _n ( y ) es el valor obtenido en el estado y en la última vez que n . Los valores V _i en tiempos anteriores i = n −1, n - 2, ..., 2, 1 se puede encontrar trabajando hacia atrás, usando una relación recursiva llamada ecuación de Bellman . Para i = 2, ..., n , V _i −1 en cualquier estado y se calcula a partir de V _i maximizando una función simple (generalmente la suma) de la ganancia de una decisión en el tiempo i - 1 y la función V _i en el nuevo estado del sistema si se toma esta decisión. Dado que V _i ya se ha calculado para los estados necesarios, la operación anterior produce V _i−1 para esos estados. Finalmente, V ₁ en el estado inicial del sistema es el valor de la solución óptima. Los valores óptimos de las variables de decisión se pueden recuperar, uno por uno, haciendo un seguimiento de los cálculos ya realizados.

Teoría de control [ editar ]

En teoría del control , un problema típico es encontrar un control admisible

\mathbf {u} ^{\ast }

lo que hace que el sistema

{\dot {\mathbf {x} }}(t)=\mathbf {g} \left(\mathbf {x} (t),\mathbf {u} (t),t\right)

seguir una trayectoria admisible

\mathbf {x} ^{\ast }

en un intervalo de tiempo continuo

t_{0}\leq t\leq t_{1}

que minimiza una función de costo

J=b\left(\mathbf {x} (t_{1}),t_{1}\right)+\int _{t_{0}}^{t_{1}}f\left(\mathbf {x} (t),\mathbf {u} (t),t\right)\mathrm {d} t

La solución a este problema es una ley o política de control óptimo.

\mathbf {u} ^{\ast }=h(\mathbf {x} (t),t)

, lo que produce una trayectoria óptima.

\mathbf {x} ^{\ast }

y una función de pérdida optimizada

J^{\ast }

. Este último obedece a la ecuación fundamental de la programación dinámica:

-J_{t}^{\ast }=\min _{\mathbf {u} }\left\{f\left(\mathbf {x} (t),\mathbf {u} (t),t\right)+J_{x}^{\ast {\mathsf {T}}}\mathbf {g} \left(\mathbf {x} (t),\mathbf {u} (t),t\right)\right\}

una ecuación diferencial parcial conocida como la ecuación de Hamilton-Jacobi-Bellman , en la cual

J_{x}^{\ast }={\frac {\partial J^{\ast }}{\partial \mathbf {x} }}=\left[{\frac {\partial J^{\ast }}{\partial x_{1}}}~~~~{\frac {\partial J^{\ast }}{\partial x_{2}}}~~~~\dots ~~~~{\frac {\partial J^{\ast }}{\partial x_{n}}}\right]^{\mathsf {T}}

y

J_{t}^{\ast }={\frac {\partial J^{\ast }}{\partial t}}

. Uno encuentra la minimización.

\mathbf {u}

en términos de

,

\mathbf {x}

, y la función desconocida

J_{x}^{\ast }

y luego sustituye el resultado en la ecuación de Hamilton-Jacobi-Bellman para obtener la ecuación diferencial parcial que se resolverá con la condición de contorno

J\left(t_{1}\right)=b\left(\mathbf {x} (t_{1}),t_{1}\right)

. ^[2]En la práctica, esto generalmente requiere técnicas numéricas para alguna aproximación discreta a la relación de optimización exacta.

Alternativamente, el proceso continuo se puede aproximar mediante un sistema discreto, que conduce a una relación de recurrencia siguiente análoga a la ecuación de Hamilton-Jacobi-Bellman:

J_{k}^{\ast }\left(\mathbf {x} _{n-k}\right)=\min _{\mathbf {u} _{n-k}}\left\{{\hat {f}}\left(\mathbf {x} _{n-k},\mathbf {u} _{n-k}\right)+J_{k-1}^{\ast }\left({\hat {g}}\left(\mathbf {x} _{n-k},\mathbf {u} _{n-k}\right)\right)\right\}

en el

-th etapa de

intervalos de tiempo discretos igualmente espaciados, y donde

{\hat {f}}

y

{\hat {g}}

denotar aproximaciones discretas a

y

\mathbf {g}

. Esta ecuación funcional se conoce como la ecuación de Bellman , que se puede resolver para obtener una solución exacta de la aproximación discreta de la ecuación de optimización. ^[3]

Ejemplo de economía: el problema de ahorro óptimo de Ramsey [ editar ]

En economía, el objetivo generalmente es maximizar (en lugar de minimizar) alguna función dinámica de bienestar social . En el problema de Ramsey, esta función relaciona las cantidades de consumo con los niveles de utilidad . En términos generales, el planificador se enfrenta a la compensación entre el consumo contemporáneo y el consumo futuro (a través de la inversión en el capital social que se utiliza en la producción), conocida como elección intertemporal . El consumo futuro se descuenta a una tasa constante.

\beta \in (0,1)

. Una aproximación discreta a la ecuación de transición del capital está dada por

k_{t+1}={\hat {g}}\left(k_{t},c_{t}\right)=f(k_{t})-c_{t}

dónde

es el consumo,

es capital, y

Es una función de producción que satisface las condiciones de Inada . Un capital social inicial

k_{0}>0

se supone.

Dejar

c_{t}

Se consumirá en el periodo

t

, y se asumirá que el consumo genera utilidad.

u(c_{t})=\ln(c_{t})

Mientras el consumidor viva. Supongamos que el consumidor es impaciente, por lo que descuenta la utilidad futura en un factor

b en

cada período, donde

0<b<1

. Dejar

k_{t}

Ser capital en el periodo

t

. Supongamos que el capital inicial es una cantidad dada

k_{0}>0

y supongamos que el capital y el consumo de este período determinan el capital del próximo período como

k_{t+1}=Ak_{t}^{a}-c_{t}

, donde

A

es una constante positiva y

0<a<1

. Supongamos que el capital no puede ser negativo. Entonces el problema de decisión del consumidor se puede escribir de la siguiente manera:

\max \sum _{t=0}^{T}b^{t}\ln(c_{t})

sujeto a

k_{t+1}=Ak_{t}^{a}-c_{t}\geq 0

para todos

t=0,1,2,\ldots ,T

Escrito de esta manera, el problema parece complicado, porque implica resolver todas las variables de elección

c_{0},c_{1},c_{2},\ldots ,c_{T}

. (Tenga en cuenta que

k_{0}

no es una variable de elección: el capital inicial del consumidor se toma como se indica.)

El enfoque de programación dinámica para resolver este problema implica dividirlo en una secuencia de decisiones más pequeñas. Para ello, definimos una secuencia de funciones de valor.

V_{t}(k)

, para

t=0,1,2,\ldots ,T,T+1

que representan el valor de tener cualquier cantidad de capital

k

en cada momento

t

. Tenga en cuenta que

V_{T+1}(k)=0

, es decir, no hay (por supuesto) ninguna utilidad de tener capital después de la muerte.

El valor de cualquier cantidad de capital en cualquier momento anterior se puede calcular por inducción hacia atrás utilizando la ecuación de Bellman . En este problema, para cada

t=0,1,2,\ldots ,T

, la ecuación de Bellman es

V_{t}(k_{t})\,=\,\max \left(\ln(c_{t})+bV_{t+1}(k_{t+1})\right)

sujeto a

k_{t+1}=Ak_{t}^{a}-c_{t}\geq 0

Este problema es mucho más simple que el que anotamos antes, porque involucra solo dos variables de decisión,

c_{t}

y

k_{t+1}

. Intuitivamente, en lugar de elegir su plan de toda la vida al nacer, el consumidor puede tomar las cosas paso a paso. En el momento

t

, su capital actual.

k_{t}

Se da, y solo necesita elegir consumo actual.

c_{t}

y ahorrando

k_{t+1}

.

Para resolver realmente este problema, trabajamos hacia atrás. Por simplicidad, el nivel actual de capital se denota como

k

.

V_{T+1}(k)

Ya se conoce, así que usando la ecuación de Bellman una vez que podamos calcular

V_{T}(k)

, y así sucesivamente hasta que lleguemos a

V_{0}(k)

, que es el valor del problema de decisión inicial para toda la vida. En otras palabras, una vez que sepamos

V_{T-j+1}(k)

, podemos calcular

V_{T-j}(k)

, que es el máximo de

\ln(c_{T-j})+bV_{T-j+1}(Ak^{a}-c_{T-j})

, dónde

c_{T-j}

es la variable de elección y

Ak^{a}-c_{T-j}\geq 0

.

Trabajando hacia atrás, se puede mostrar que el valor funciona en el momento

t=T-j

es

V_{T-j}(k)\,=\,a\sum _{i=0}^{j}a^{i}b^{i}\ln k+v_{T-j}

donde cada

v_{T-j}

Es una constante, y la cantidad óptima para consumir en el tiempo.

t=T-j

es

c_{T-j}(k)\,=\,{\frac {1}{\sum _{i=0}^{j}a^{i}b^{i}}}Ak^{a}

que se puede simplificar a

{\begin{aligned}c_{T}(k)&=Ak^{a}\\c_{T-1}(k)&={\frac {Ak^{a}}{1+ab}}\\c_{T-2}(k)&={\frac {Ak^{a}}{1+ab+a^{2}b^{2}}}\\&\dots \\c_{2}(k)&={\frac {Ak^{a}}{1+ab+a^{2}b^{2}+\ldots +a^{T-2}b^{T-2}}}\\c_{1}(k)&={\frac {Ak^{a}}{1+ab+a^{2}b^{2}+\ldots +a^{T-2}b^{T-2}+a^{T-1}b^{T-1}}}\\c_{0}(k)&={\frac {Ak^{a}}{1+ab+a^{2}b^{2}+\ldots +a^{T-2}b^{T-2}+a^{T-1}b^{T-1}+a^{T}b^{T}}}\end{aligned}}

Vemos que es óptimo consumir una fracción más grande de la riqueza actual a medida que uno envejece, finalmente consumiendo toda la riqueza restante en el período

T

, el último período de la vida.

Ejemplos: algoritmos informáticos [ editar ]

El algoritmo de Dijkstra para el problema de la ruta más corta [ editar ]

Desde el punto de vista de la programación dinámica, el algoritmo de Dijkstra para el problema de la ruta más corta es un esquema de aproximación sucesiva que resuelve la ecuación funcional de la programación dinámica para el problema de la ruta más corta mediante el método Reaching . ^[7]^[8]^[9]

De hecho, la explicación de Dijkstra de la lógica detrás del algoritmo, ^{[10] a} saber

Problema 2. Encuentre la ruta de la longitud total mínima entre dos nodos dados y .

Utilizamos el hecho de que, si es un nodo en el camino mínimo desde a , el conocimiento de este último implica el conocimiento del camino mínimo desde a .

es una paráfrasis del famoso Principio de Optimalidad de Bellman en el contexto del problema del camino más corto .

Secuencia de Fibonacci [ editar ]

Aquí es una aplicación ingenua de una función de búsqueda de la n º miembro de la sucesión de Fibonacci , basado directamente en la definición matemática:

   función fib (n)
        si n <= 1 retorno n
        retorno fib (n - 1) + fib (n - 2)

Tenga en cuenta que si llamamos, digamos, fib(5)producimos un árbol de llamadas que llama a la función en el mismo valor muchas veces:

fib(5)
fib(4) + fib(3)
(fib(3) + fib(2)) + (fib(2) + fib(1))
((fib(2) + fib(1)) + (fib(1) + fib(0))) + ((fib(1) + fib(0)) + fib(1))
(((fib(1) + fib(0)) + fib(1)) + (fib(1) + fib(0))) + ((fib(1) + fib(0)) + fib(1))

En particular, fib(2)se calculó tres veces desde cero. En ejemplos más grandes , se recalculan muchos más valores fibo subproblemas , lo que lleva a un algoritmo de tiempo exponencial.

Ahora, supongamos que tenemos un objeto de mapa simple , m , que asigna cada valor de fibese ya calculado a su resultado, y modificamos nuestra función para usarlo y actualizarlo. La función resultante requiere solo O ( n ) tiempo en lugar de tiempo exponencial (pero requiere O ( n ) espacio):

   var m: = mapa (0 → 0, 1 → 1)
    función fib (n)
        si la tecla n no está en el mapa m
           m [n]: = fib (n - 1) + fib (n - 2)
       devolver m [n]

Esta técnica de guardar valores que ya se han calculado se denomina memorización ; Este es el enfoque de arriba hacia abajo, ya que primero dividimos el problema en subproblemas y luego calculamos y almacenamos los valores.

En el enfoque de abajo hacia arriba , calculamos los valores más pequeños del fibprimero, luego construimos valores más grandes a partir de ellos. Este método también usa el tiempo O ( n ) ya que contiene un bucle que se repite n - 1 veces, pero solo ocupa espacio constante (O (1)), en contraste con el enfoque de arriba hacia abajo que requiere espacio O ( n ) para almacenar el mapa.

   función fib (n)
        si n = 0
            devuelve 0
        o 
           var var FIB anterior: = 0, currentFib: = 1
            repetición n - 1 veces  // el bucle se omite si n = 1 
               var newFib: = previousFib + currentFib
               previousFib: = currentFib
               currentFib: = newFib
       volver currentFib

En ambos ejemplos, solo calculamos fib(2)una vez, y luego lo usamos para calcular ambos fib(4)y fib(3), en lugar de calcularlos cada vez que se evalúa uno de ellos.

Tenga en cuenta que el método anterior realmente toma

\Omega (n^{2})

tiempo para n grande porque la suma de dos enteros con

\Omega (n)

bits cada uno toma

\Omega (n)

hora. (El n ^º número de fibonacci tiene

\Omega (n)

bits.) Además, existe una forma cerrada para la secuencia de Fibonacci, conocida como fórmula de Binet , de la cual

-el término se puede calcular en aproximadamente

O(n(\log n)^{2})

Tiempo, que es más eficiente que la técnica de programación dinámica anterior. Sin embargo, la simple recurrencia da directamente la forma de matriz que conduce a una

O(n\log n)

Algoritmo por exponencia rápida de matrices .

[1]

[2]

[3]

[7]

[8]

[9]

[10] a

AMIGOS PARA SIEMPRE

Páginas

domingo, 14 de abril de 2019

ECUACIONES

Descripción general [ editar ]

Optimización matemática [ editar ]

Teoría de control [ editar ]

Ejemplo de economía: el problema de ahorro óptimo de Ramsey [ editar ]

Ejemplos: algoritmos informáticos [ editar ]

El algoritmo de Dijkstra para el problema de la ruta más corta [ editar ]

Secuencia de Fibonacci [ editar ]

No hay comentarios:

Publicar un comentario

Datos personales

Archivo del blog