Algoritmo de avance-retroceso

Introducción

Uno de los problemas básicos de los Modelos Ocultos de Márkov es el cálculo de la probabilidad de una secuencia de observables

O=(o_{1},o_{2},\ldots ,o_{T})

dado un modelo

\mu =(\pi ,A,B)

. El objetivo es por tanto calcular eficientemente $P(O|\mu )$ $P(O|\mu )$ .

Probabilidad de una secuencia $S$ $S$ de estados

Supongamos una secuencia de estados

S=(q_{1},q_{2},\dots ,q_{T})

. La probabildad de esta secuencia es:

P(S|\mu )=\pi _{q_{1}}a_{q_{1}q_{2}}a_{q_{2}q_{3}}\dots a_{q_{T-1}q_{T}}

Probabilidad de una secuencia de observables $O$ $O$ dada una secuencia de estados $S$ $S$

La probabilidad de observar

O=(o_1,o_2,\dots,o_T)

cuando se da precisamente esta secuencia de estados

S

es:

P(O|S,\mu )=\displaystyle \prod _{t=1}^{T}{P(o_{t}|q_{t},\mu )}

Cada

P(o_{t}|q_{t},\mu )

corresponde con el valor de

b_{q_{t}}(o_{t})

Probabilidad de una secuencia de observables $O$ $O$ dado un modelo $\mu$ $\mu$

Por tanto, para obtener la probabilidad de una secuencia

O

de observables dado un modelo

\mu

, deberíamos calcular la probabilidad de

O

para cada una de las secuencias posibles

S

P(O|\mu )=\displaystyle \sum ^{S}{P(S|\mu )P(O|S,\mu )}

El cálculo de

P(O|\mu )

tal y como se muestra es impracticable; sólo para

10

estados y

10

observaciones sería necesario realizar del orden de

10^{11}

operaciones. Para reducir esta complejidad se emplean estrategias de programación dinámica como los algoritmos forward y backward.

Se recomienda revisar la formalización habitual de un Modelo Oculto de Márkov para comprender cada uno de los elementos en la formulación de estos dos procedimientos.

Procedimiento hacia adelante

Cálculo de $\alpha _{t}(i)$ $\alpha _{t}(i)$

Consideramos la variable

\alpha _{t}(i)

como:

\alpha _{t}(i)=P(o_{1},o_{2},\ldots ,o_{t},q_{t}=i|\mu )

Dado el modelo

\mu

\alpha _{t}(i)

es la probabilidad de observar

o_{1},o_{2},\ldots ,o_{t}

y estar en el instante de tiempo

t

en el estado

i

Cálculo hacia adelante de la probabilidad de una secuencia de observaciones.

Inicialización

\alpha _{1}(i)=\pi _{i}b_{i}(o_{1}),

1\leq i\leq N

Recurrencia

\alpha _{t+1}(j)={\biggl [}\displaystyle \sum _{i=1}^{N}{\alpha _{t}(i)a_{ij}}{\biggr ]}b_{j}(o_{t+1})

t=1,2,\ldots ,T-1

1\leq j\leq N

Terminación

P(O|\mu )=\displaystyle \sum _{i=1}^{N}{\alpha _{T}(i)}

Ejemplo de cálculo de $\alpha _{4}(3)$ $\alpha _{4}(3)$

El esquema muestra los estados y probabilidades necesarias para el cálculo de

\alpha _{4}(3)

\alpha _{4}(3)={\biggl [}\displaystyle \sum _{i=1}^{5}{\alpha _{3}(i)a_{i3}}{\biggr ]}b_{3}(o_{4})

Cálculo hacia atrás

Cálculo de $\beta _{t}(i)$ $\beta _{t}(i)$

Consideramos la variable

\beta _{t}(i)

\beta _{t}(i)=P(o_{t+1}o_{t+2},\ldots ,o_{T}|q_{t}=i,\mu )

Dado el modelo

\mu

\beta _{t}(i)

es la probabilidad de la secuencia de observación desde el instante de tiempo

t+1

hasta el final, cuando el estado en el instante de tiempo

t

i

Inicialización

\beta _{T}(i)=1

1\leq i\leq N

Recurrencia

\beta _{t}(i)=\displaystyle \sum _{j=1}^{N}{a_{ij}\beta _{t+1}(j)b_{j}(o_{t+1})}

t=T-1,T-2,\ldots ,1

1\leq i\leq N

Terminación

P(O|\mu )=\displaystyle \sum _{i=1}^{N}{\beta _{1}(i)\pi _{i}b_{i}(o_{1})}

Ejemplo de cálculo de $\beta _{2}(3)$ $\beta _{2}(3)$

El esquema muestra los estados y probabilidades necesarios para el cálculo de

\beta _{2}(3)

para un modelo de 5 estados y una secuencia de observaciones de longitud 5.

\beta _{2}(3)=\displaystyle \sum _{j=1}^{5}{a_{3j}\beta _{3}(j)b_{j}(o_{3})},

Complejidad computacional

Tanto el procedimiento hacia adelante como el algoritmo backward, requieren del orden de

N^{2}T

operaciones; muy inferior a

2TN^{T}-1

operaciones (

N

es el número de estados y

T

es la longitud de la secuencia de observaciones) que son necesarias si se calcula

P(O,S|\mu )

para todas las posibles secuencias

S

del modelo.

El cálculo de los

\beta _{t}(i)

servirán - junto a los

\alpha _{t}(i)

- para contestar las otras dos preguntas fundamentales de los Modelos Ocultos de Márkov:

¿Cuál es la secuencia óptima $S$ $S$ de estados dado una secuencia de observaciones $O$ $O$ ? (algoritmo de Viterbi)
Dada una secuencia de observaciones $O=(o_{1},o_{2},\ldots ,o_{T})$ $O=(o_{1},o_{2},\ldots ,o_{T})$ , ¿cómo podemos estimar los parámetros del modelo $\mu =(\pi ,A,B)$ $\mu =(\pi ,A,B)$ para maximizar $P(O|\mu )$ $P(O|\mu )$ . En este caso el objetivo es encontrar el modelo que mejor explica la secuencia observada (algoritmo de Baum-Welch).

Algoritmo de Baum-Welch

Introducción

Uno de los problemas relacionados con los Modelos Ocultos de Márkov (MOM) es el de encontrar un modelo

\mu

que maximice la probabilidad de una secuencia de observaciones

O=(o_{1},o_{2},\ldots ,o_{T})

, es decir, determinar el modelo que mejor explica tal secuencia. El problema es que no es posible encontrar tal modelo analíticamente y por ello es necesario un algoritmo iterativo como el de Baum y Welch, que permite estimar los parámetros de un modelo que hacen máxima la probabilidad de una secuencia de observables.

El algoritmo de Baum y Welch

Dada una secuencia de observaciones

O=(o_{1},o_{2},\ldots ,o_{T})

, el algoritmo de Baum y Welch permite estimar los parámetros

\mu

de un Modelo oculto de Márkov (MOM) que maximizan la probabilidad de dicha secuencia, es decir,

P(O|\mu )

Valores esperados

Antes de describir el proceso de estimación, necesitamos conocer:

el número esperado de transiciones desde el estado $i$ $i$ en $O$ $O$ y
el número esperado de transiciones desde el estado $i$ $i$ al estado $j$ $j$ en $O$ $O$

Para ello definimos previamente

\xi _{t}{(i,j)}

como la probabilidad de estar en el estado

i

en el instante

t

y en el estado

j

en el instante

t+1

, dado una observación

O

y el modelo

\mu

\xi _{t}{(i,j)}=P(q_{t}=i,q_{t+1}=j|O,\mu )

\xi _{t}{(i,j)}={\frac {P(q_{t}=i,q_{t+1}=j,O|\mu )}{P(O|\mu )}}={\frac {\alpha _{t}{(i)}a_{ij}b_{j}(o_{t+1})\beta _{t+1}(j)}{P(O|\mu )}}

\xi _{t}{(i,j)}={\frac {\alpha _{t}{(i)}a_{ij}b_{j}(o_{t+1})\beta _{t+1}(j)}{\displaystyle \sum _{k=1}^{N}\displaystyle \sum _{l=1}^{N}{\alpha _{t}(k)a_{kl}b_{l}(o_{t+1})\beta _{t+1}(l)}}}

donde los valores

\alpha _{t}(i)

\beta _{t}(i)

se pueden calcular eficientemente con el algoritmo de avance-retroceso.

\alpha _{t}(i)=P(o_{1},o_{2},\ldots ,o_{t},q_{t}=i|\mu )

\beta _{t}(i)=P(o_{t+1},o_{t+2},\ldots ,o_{T}|q_{t}=i,\mu )

La figura muestra un esquema parcial de los elementos necesarios para el cálculo de

\xi (i,j)

Definimos también

\gamma _{t}(i)

como la probabilidad de estar en el estado

i

en el instante

t

\gamma _{t}(i)=\displaystyle \sum _{j=1}^{N}{\xi _{t}(i,j)}

Sumando cada

\gamma _{t}(i)

en cada instante de tiempo, obtenemos:

el número esperado de transiciones desde el estado $i$ $i$ en la observación $O$ $O$

\displaystyle \sum _{t=1}^{T-1}{\gamma _{t}(i)}

y haciendo lo mismo con cada

\xi _{t}(i,j)

, obtenemos:

el número esperado de transiciones desde el estado $i$ $i$ al estado $j$ $j$ en la observación $O$ $O$

\displaystyle \sum _{t=1}^{T-1}{\xi _{t}(i,j)}

Reestimación

El funcionamiento del procedimiento iterativo es básicamente el siguiente:

Se parte de un modelo inicial que se puede seleccionar aleatoriamente.
Se realiza el cálculo de las transiciones y símbolos de emisión que son más probables según el modelo inicial escogido.
Se construye un nuevo modelo en el que se incrementa la probabilidad de las transiciones y símbolos determinados en el paso anterior. Para la secuencia de observables en cuestión, el modelo tendrá ahora una probabilidad mayor que el modelo anterior.

Este proceso de entrenamiento se repite varias veces hasta que no exista mejora entre un modelo y el siguiente revisado.

Probabilidad de estar en el estado

i

en el instante de tiempo

t=1

{\bar {\pi }}_{i}=\gamma _{1}(i)

1\leq i\leq N

Reestimación de las probabilidades de transición. El numerador representa el número esperado de transiciones de

i

j

, y el denominador representa el número esperado de transiciones desde

i

{\bar {a}}_{ij}={\frac {\displaystyle \sum _{t=1}^{T-1}{\xi _{t}(i,j)}}{\displaystyle \sum _{t=1}^{T-1}{\gamma _{t}(i)}}}

1\leq i\leq N

1\leq j\leq N

Reestimación de las probabilidades de emisión. El numerador representa el número esperado de veces que se pasa por el estado

j

y se observa

o_{k}

, y el denominador representa el número esperado de veces que se pasa por el estado

j

{\bar {b}}_{j}(o_{k})={\frac {\displaystyle \sum _{t=1:o_{t}=o_{k}}^{T}{\gamma _{t}(j)}}{\displaystyle \sum _{t=1}^{T}{\gamma _{t}(j)}}}

1\leq j\leq N

1\leq k\leq N

Otras preguntas fundamentales

Otros dos problemas que es importante saber resolver para utilizar los MOM son:

¿Cuál es la secuencia óptima $S$ $S$ de estados, dada una secuencia de observaciones $O$ $O$ ? (algoritmo de Viterbi)
¿Cuál es la probabilidad de una secuencia de observaciones $O=(o_{1},o_{2},\ldots ,o_{T})$ $O=(o_{1},o_{2},\ldots ,o_{T})$ dado un modelo $\mu =(\pi ,A,B)$ $\mu =(\pi ,A,B)$ ? Es decir, ¿cómo podemos calcular de forma eficiente $P(O|\mu )$ $P(O|\mu )$ ? (cálculo hacia adelante y hacia atrás).

El algoritmo de Baum-Welch y el Modelo oculto de Markov

Leonard Baum y Welch Lloyd diseñaron un algoritmo de modelado probabilístico para detectar patrones en elmodelo oculto de Markov. Se basan en la teoría de funciones de probabilidad de una Cadena de Markov y elalgoritmo esperanza-maximización (algortimo EM) – un método iterativo para encontrar la máxima verosimilitud de los parámetros en los modelos estadísticos, en los que el modelo depende de variables latentes no observables.

ForecastingwiththeBaumWelchAlgorithmandHiddenMarkovModels

Fuente Data Science Central

El algoritmo de Baum-Welch demostró inicialmente ser una herramienta de notable reconocimiento a la hora de descifrar códigos y el lenguaje, pero también tiene aplicaciones para negocios, finanzas, ciencias y otros. El algoritmo encuentra parámetros desconocidos de un modelo oculto de Markov.

El algoritmo consta de dos fases:

1 . Calcular las probabilidades a posteriori para un determinado modelo , y
2 . volver a estimar los parámetros del modelo .

El modelo de un proceso de Markov es una secuencia de eventos que no tienen una relación directa. Un modelo oculto de Markov es un modelo probabilístico de una colección de variables aleatorias y el cual proporciona un marco sencillo y eficaz para el modelado de las secuencias del vector espectral para variables del tiempo .

El algoritmo de Baum- Welch y el modelo oculto de Markov se utilizan con éxito para los sistemas de comercio financiero, predicción de las tendencias del mercado, la detección de fraudes, optimización de cadenas, previsión de la oferta y la demanda, predicción de series de tiempo financieras y la detección de anomalías en la actividad de tráfico de red.

Con suficientes datos y potencia de computación, los modelos de algoritmo de Baum- Welch y el modelo oculto de Markov pueden calcular las probabilidades de que un proceso ocurra y predecir eventos futuros.

AMIGOS PARA SIEMPRE

Páginas

sábado, 23 de julio de 2016

Bioinformática

Algoritmo de avance-retroceso

Introducción

Procedimiento hacia adelante

Cálculo de $\alpha _{t}(i)$ $\alpha _{t}(i)$

Ejemplo de cálculo de $\alpha _{4}(3)$ $\alpha _{4}(3)$

Cálculo hacia atrás

Cálculo de $\beta _{t}(i)$ $\beta _{t}(i)$

Ejemplo de cálculo de $\beta _{2}(3)$ $\beta _{2}(3)$

Complejidad computacional

Algoritmo de Baum-Welch

Introducción

El algoritmo de Baum y Welch

Valores esperados

Reestimación

Otras preguntas fundamentales

El algoritmo de Baum-Welch y el Modelo oculto de Markov

No hay comentarios:

Publicar un comentario

Datos personales

Archivo del blog

Páginas

sábado, 23 de julio de 2016

Bioinformática

Algoritmo de avance-retroceso

Introducción

Procedimiento hacia adelante

Cálculo de {\displaystyle \alpha _{t}(i)}

Ejemplo de cálculo de {\displaystyle \alpha _{4}(3)}

Cálculo hacia atrás

Cálculo de {\displaystyle \beta _{t}(i)}

Ejemplo de cálculo de {\displaystyle \beta _{2}(3)}

Complejidad computacional

Algoritmo de Baum-Welch

Introducción

El algoritmo de Baum y Welch

Valores esperados

Reestimación

Otras preguntas fundamentales

No hay comentarios:

Publicar un comentario

Cálculo de $\alpha _{t}(i)$ $\alpha _{t}(i)$

Ejemplo de cálculo de $\alpha _{4}(3)$ $\alpha _{4}(3)$

Cálculo de $\beta _{t}(i)$ $\beta _{t}(i)$

Ejemplo de cálculo de $\beta _{2}(3)$ $\beta _{2}(3)$