AMIGOS PARA SIEMPRE: TERMODINÁMICA

KULLBACK-LEIBLER DIVERGENCE , CONTINUACIÓN

Métrica de información de Fisher [ editar ]

La divergencia de Kullback-Leibler está directamente relacionada con la métrica de información de Fisher . Esto se puede hacer explícito de la siguiente manera. Supongamos que las distribuciones de probabilidad

Ambos están parametrizados por algún parámetro (posiblemente multidimensional)

\theta

. Considere entonces dos valores cercanos de

P=P(\theta )

Q=P(\theta _{0})

para que el parametro

\theta

Se diferencia en solo una pequeña cantidad del valor del parámetro

\theta _{0}

. Específicamente, hasta el primer pedido tiene uno (usando la convención de suma de Einstein )

P(\theta )=P(\theta _{0})+\Delta \theta _{j}P_{j}(\theta _{0})+\cdots

con

\Delta \theta _{j}=(\theta -\theta _{0})_{j}

un pequeño cambio de

\theta

en el

dirección, y

P_{j}\left(\theta _{0}\right)={\frac {\partial P}{\partial \theta _{j}}}(\theta _{0})

La correspondiente tasa de cambio en la distribución de probabilidad. Dado que la divergencia de Kullback-Leibler tiene un mínimo absoluto de 0

P=Q

es decir

\theta =\theta _{0}

, cambia solo a segundo orden en los pequeños parámetros

\Delta \theta _{j}

. Más formalmente, como para cualquier mínimo, los primeros derivados de la divergencia desaparecen

\left.{\frac {\partial }{\partial \theta _{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\parallel P(\theta _{0}))=0,

y por la expansión de Taylor uno tiene hasta el segundo orden.

D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\Delta \theta _{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots

Donde la matriz de Hesse de la divergencia.

g_{jk}(\theta _{0})=\left.{\frac {\partial ^{2}}{\partial \theta _{j}\,\partial \theta ^{k}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))

Debe ser semidefinido positivo . Dejando

\theta _{0}

variar (y soltando el subíndice 0) la arpillera

g_{jk}(\theta )

define una métrica Riemanniana (posiblemente degenerada) en el espacio de parámetros

θ

, llamada métrica de información de Fisher.

Información de Fisher teorema métrica [ editar ]

Cuando

p_{(x,\rho )}

Satisface las siguientes condiciones de regularidad:

{\tfrac {\partial \log(p)}{\partial \rho }},{\tfrac {\partial ^{2}\log(p)}{\partial \rho ^{2}}},{\tfrac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}

existe,

{\begin{aligned}\left|{\frac {\partial p}{\partial \rho }}\right|&<F(x):\int _{x=0}^{\infty }F(x)\,dx<\infty ,\\\left|{\frac {\partial ^{2}p}{\partial \rho ^{2}}}\right|&<G(x):\int _{x=0}^{\infty }G(x)\,dx<\infty \\\left|{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}\right|&<H(x):\int _{x=0}^{\infty }p(x,0)H(x)\,dx<\xi <\infty \end{aligned}}

donde

ξ

es independiente de

ρ

\left.\int _{x=0}^{\infty }{\frac {\partial p(x,\rho )}{\partial \rho }}\right|_{\rho =0}\,dx=\left.\int _{x=0}^{\infty }{\frac {\partial ^{2}p(x,\rho )}{\partial \rho ^{2}}}\right|_{\rho =0}\,dx=0

entonces:

{\mathcal {D}}(p(x,0)\parallel p(x,\rho ))={\frac {c\rho ^{2}}{2}}+{\mathcal {O}}(\rho ^{3}){\text{ as }}\rho \to 0.

Variación de la información [ editar ]

Otra métrica teórica de la información es la variación de la información , que es más o menos una simetrización de la entropía condicional . Es una métrica en el conjunto de particiones de un espacio de probabilidad discreto .

Relación con otras cantidades de teoría de la información [ editar ]

Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de la divergencia de Kullback-Leibler a casos específicos.

Autoinformación [ editar ]

La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.

Cuando se aplica a una variable aleatoria discreta , la autoinformación puede representarse como ^{[ cita requerida ]}

\operatorname {\operatorname {I} } (m)=D_{\text{KL}}(\delta _{im}\parallel \{p_{i}\}),

es la divergencia de Kullback-Leibler de la distribución de probabilidad

P(i)

de un delta de Kronecker querepresenta la certeza de que

i=m

- Es decir, el número de bits adicionales que se deben transmitir para identificar

si sólo la distribución de probabilidad

P(i)

está disponible para el receptor, no el hecho de que

i=m

Información mutua [ editar ]

La información mutua , ^{[ cita requerida ]}

{\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\&=\operatorname {E} _{X}\{D_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\&=\operatorname {E} _{Y}\{D_{\text{KL}}(P(X\mid Y)\parallel P(X))\}\end{aligned}}

Es la divergencia Kullback-Leibler del producto.

P(X)P(Y)

de las dos distribuciones de probabilidad marginal de la distribución de probabilidad conjunta

P(X,Y)

- es decir, el número esperado de bits adicionales que deben transmitirse para identificar

si están codificados utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. Equivalentemente, si la probabilidad conjunta

P(X,Y)

es conocido, es el número esperado de bits adicionales que, en promedio, deben enviarse para identificar

si el valor de

Aún no es conocido por el receptor.

La entropía de Shannon [ editar ]

La entropía de Shannon , ^{[ cita requerida ]}

{\begin{aligned}\mathrm {H} (X)&=\operatorname {E} [\operatorname {I} _{X}(x)]\\&=\log(N)-D_{\text{KL}}(p_{X}(x)\parallel P_{U}(X))\end{aligned}}

es el número de bits que tendrían que ser transmitidos para identificar

desde

posibilidades igualmente probables, menos la divergencia de Kullback-Leibler de la distribución uniforme en las variables aleatorias de

P_{U}(X)

, de la verdadera distribución

P(X)

- es decir, menos el número esperado de bits guardados, que habría tenido que enviarse si el valor de

Fueron codificados según la distribución uniforme.

P_{U}(X)

en lugar de la verdadera distribución

P(X)

Entropía condicional [ editar ]

La entropía condicional , ^{[ cita requerida ]}

{\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\&=\log(N)-\operatorname {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\parallel P_{U}(X)){\bigr ]}\end{aligned}}

es el número de bits que tendrían que ser transmitidos para identificar

desde

posibilidades igualmente probables, menos la divergencia Kullback-Leibler de la distribución del producto

P_{U}(X)P(Y)

De la verdadera distribución conjunta.

P(X,Y)

- es decir, menos el número esperado de bits guardados que habría tenido que enviarse si el valor de

Fueron codificados según la distribución uniforme.

P_{U}(X)

en lugar de la distribución condicional

P(X|Y)

dado

Entropía cruzada [ editar ]

La entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento de un conjunto de posibilidades, si se usa un esquema de codificación basado en una distribución de probabilidad dada

q

, en lugar de la distribución "verdadera"

p

. La entropía cruzada para dos distribuciones

p

q

en el mismo espacio de probabilidad se define de la siguiente manera: ^{[ cita requerida ]}

\mathrm {H} (p,q)=\operatorname {E} _{p}[-\log(q)]=\mathrm {H} (p)+D_{\text{KL}}(p\parallel q).

Actualización Bayesiana [ editar ]

En las estadísticas bayesianas, la divergencia de Kullback-Leibler se puede usar como una medida de la ganancia de información al pasar de una distribución anterior a una distribución posterior :

p(x)\to p(x\mid I)

. Si algún hecho nuevo

Y=y

descubierto, se puede utilizar para actualizar la distribución posterior de

desde

p(x\mid I)

a una nueva distribución posterior

p(x\mid y,I)

utilizando el teorema de Bayes :

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}

Esta distribución tiene una nueva entropía :

\mathrm {H} {\big (}p(-\mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

que puede ser menor o mayor que la entropía original

\mathrm {H} (p(-\mid I))

. Sin embargo, desde el punto de vista de la nueva distribución de probabilidad, se puede estimar que se haya utilizado el código original basado en

p(x\mid I)

en lugar de un nuevo código basado en

p(x\mid y,I)

Habría añadido un número esperado de bits:

D_{\text{KL}}{\big (}p(-\mid y,I)\parallel p(-\mid I){\big )}=\sum _{x}p(x\mid y,I)\log \left({\frac {p(x\mid y,I)}{p(x\mid I)}}\right)

a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre

, que podemos estimar se ha aprendido descubriendo

Y=y

Si un dato más,

Y_{2}=y_{2}

, posteriormente entra, la distribución de probabilidad para

Se puede actualizar aún más, para dar una nueva y mejor conjetura

p(x\mid y_{1},y_{2},I)

. Si uno reinvierte la ganancia de información por usar

p(x\mid y_{1},I)

más bien que

p(x\mid I)

, resulta que puede ser mayor o menor que lo estimado previamente:

\sum _{x}p(x\mid y_{1},y_{2},I)\log \left({\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}\right)

puede ser ≤ o> que

\displaystyle \sum _{x}p(x\mid y_{1},I)\log \left({\frac {p(x\mid y_{1},I)}{p(x\mid I)}}\right)

y así la ganancia de información combinada no obedece a la desigualdad del triángulo:

D_{\text{KL}}{\big (}p(-\mid y_{1},y_{2},I)\parallel p(-\mid I){\big )}

puede ser <, = o> que

D_{\text{KL}}{\big (}p(-\mid y_{1},y_{2},I)\parallel p(-\mid y_{1},I){\big )}+D_{\text{KL}}{\big (}p(-\mid y_{1},I)\parallel p(-\mid I){\big )}

Todo lo que se puede decir es que, en promedio , usando promedios

p(y_{2}\mid y_{1},x,I)

, los dos lados promediarán.

Diseño experimental bayesiano [ editar ]

Un objetivo común en el diseño experimental bayesiano es maximizar la divergencia esperada de Kullback-Leibler entre el anterior y el posterior. ^[15] Cuando los posteriores se aproximan a ser distribuciones gaussianas, un diseño que maximiza la divergencia esperada de Kullback-Leibler se denomina Bayes d-óptimo .

Información de discriminación [ editar ]

La divergencia de Kullback-Leibler

{\textstyle D_{\text{KL}}{\bigl (}p(x\mid H_{1})\parallel p(x\mid H_{0}){\bigr )}}

También puede interpretarse como la información de discriminación esperada para

H_{1}

terminado

H_{0}

: la información media por muestra para discriminar a favor de una hipótesis

H_{1}

contra una hipótesis

H_{0}

cuando la hipótesis

H_{1}

es verdad. ^[16] Otro nombre para esta cantidad, dado por IJ Good , es el peso esperado de la evidencia para

H_{1}

terminado

H_{0}

Se espera de cada muestra.

El peso esperado de la evidencia para

H_{1}

terminado

H_{0}

no es lo mismo que la ganancia de información esperada por muestra sobre la distribución de probabilidad

p(H)

de las hipótesis,

D_{\text{KL}}(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\text{KL}}(p(H\mid x)\parallel p(H\mid I)).

Cualquiera de las dos cantidades se puede usar como una función de utilidad en el diseño experimental bayesiano, para elegir una próxima pregunta óptima para investigar: pero en general conducirán a estrategias experimentales bastante diferentes.

En la escala de entropía de la ganancia de información, existe una diferencia muy pequeña entre la certeza cercana y la certeza absoluta: la codificación de acuerdo con una certeza cercana casi no requiere más bits que la codificación de acuerdo con una certeza absoluta. Por otro lado, en la escala logit implícita por el peso de la evidencia, la diferencia entre los dos es enorme: tal vez infinita; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, por ejemplo, la hipótesis de Riemann es correcta, en comparación con la certeza de que es correcta porque uno tiene una prueba matemática. Estas dos escalas diferentes de funciónde pérdida por incertidumbre son ambas útil, de acuerdo con lo bien que cada uno refleja las circunstancias particulares del problema en cuestión.

Principio de información mínima de discriminación [ editar ]

La idea de la divergencia de Kullback-Leibler como información de discriminación llevó a Kullback a proponer el Principio de Información de Discriminación Mínima (MDI): dados nuevos hechos, una nueva distribución

Se debe elegir que es tan difícil de discriminar de la distribución original

f_{0}

como sea posible; Para que los nuevos datos produzcan una ganancia de información tan pequeña.

D_{\text{KL}}(f\parallel f_{0})

como sea posible.

Por ejemplo, si uno tuviera una distribución previa.

p(x,a)

terminado

, y posteriormente aprendió la verdadera distribución de

estaba

u(a)

, luego la divergencia de Kullback-Leibler entre la nueva distribución conjunta para

q(x\mid a)u(a)

, y la anterior distribución anterior sería:

D_{\text{KL}}(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\left\{D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))\right\}+D_{\text{KL}}(u(a)\parallel p(a)),

es decir, la suma de la divergencia Kullback-Leibler de

p(a)

la distribución previa para

de la distribución actualizada

u(a)

, más el valor esperado (usando la distribución de probabilidad

u(a)

) de la divergencia Kullback-Leibler de la distribución condicional previa

p(x\mid a)

De la nueva distribución condicional.

q(x\mid a)

. (Tenga en cuenta que a menudo el valor esperado más adelante se denomina condicional divergencia de Kullback-Leibler (o entropía relativa condicional ) y denota por

D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))

^[17]^: p. 22 ) Esto se minimiza si

q(x\mid a)=p(x\mid a)

sobre todo el apoyo de

u(a)

; y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución

u(a)

es, de hecho, una función representing que representa la certeza de que

tiene un valor particular

MDI puede ser visto como una extensión de Laplace 's Principio de razón insuficiente , y el principio de máxima entropía de ET Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, por lo que la entropía de Shannon deja de ser tan útil (ver entropía diferencial ), pero la divergencia de Kullback-Leibler sigue siendo igual de relevante.

En la literatura de ingeniería, MDI a veces se denomina Principio de la entropía cruzada mínima (MCE) o Minxent, para abreviar. Minimizando la divergencia de Kullback-Leibler de

con respecto a

es equivalente a minimizar la entropía cruzada de

, ya que

\mathrm {H} (p,m)=\mathrm {H} (p)+D_{\text{KL}}(p\parallel m),

lo cual es apropiado si uno está tratando de elegir una aproximación adecuada a

. Sin embargo, esto con la misma frecuencia no es la tarea que uno está tratando de lograr. En cambio, tan a menudo es

es una medida de referencia previa fija, y

que uno está intentando optimizar minimizando

D_{\text{KL}}(p\parallel m)

sujeto a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores que intentan resolver la inconsistencia al redefinir la entropía cruzada para ser

D_{\text{KL}}(p\parallel m)

, más bien que

\mathrm {H} (p,m)

Relación al trabajo disponible [ editar ]

Gráfico de presión frente al volumen del trabajo disponible de un mol de gas argón en relación con el ambiente, calculado como

T_{o}

veces la divergencia Kullback – Leibler.

Las sorpresas ^[18] agregan donde las probabilidades se multiplican. La sorpresa para un evento de probabilidad.

Se define como

s=k\ln(1/p)

. Si

\left\{1,1/\ln 2,1.38\times 10^{-23}\right\}

entonces surprisal está en

\{

nats, bits, o

J/K\}

de modo que, por ejemplo, hay

trozos de sorpresa para aterrizar todas las "cabezas" en un sorteo de

monedas

Los estados de mejor conjetura (por ejemplo, para los átomos en un gas) se deducen al maximizar la sorpresa promedio

( entropía ) para un conjunto dado de parámetros de control (como presión

o volumen

). Esta limitación de la entropía restringida , tanto clásica ^[19] como cuántica mecánicamente, ^[20] minimiza la disponibilidad de Gibbs en unidades de entropía ^[21]

A\equiv -k\ln(Z)

dónde

Es una multiplicidad restringida o función de partición .

Cuando la temperatura

Es fijo, energía libre (

T\times A

) también se minimiza. Asi si

y numero de moleculas

Son constantes, la energía libre de Helmholtz.

F\equiv U-TS

(dónde

Esta energía se minimiza cuando un sistema "se equilibra". Si

se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs

G=U+PV-TS

se minimiza en su lugar. El cambio en la energía libre en estas condiciones es una medida del trabajo disponible que se puede realizar en el proceso. Por lo tanto, trabajo disponible para un gas ideal a temperatura constante.

T_{o}

y presion

P_{o}

W=\Delta G=NkT_{o}\Theta (V/V_{o})

dónde

V_{o}=NkT_{o}/P_{o}

\Theta (x)=x-1-\ln x\geq 0

(Véase también la desigualdad de Gibbs ).

Más generalmente ^[22] el trabajo disponible relativo a algún ambiente se obtiene multiplicando la temperatura ambiente

T_{o}

Por la divergencia de Kullback – Leibler o sorpresa de la red.

\Delta I\geq 0,

definido como el valor promedio de

k\ln(p/p_{o})

dónde

p_{o}

Es la probabilidad de un estado dado bajo condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico a valores ambientales de

V_{o}

T_{o}

es así

W=T_{o}\Delta I

, donde divergencia Kullback – Leibler

\Delta I=Nk\left[\Theta \left({\frac {V}{V_{o}}}\right)+{\frac {3}{2}}\Theta \left({\frac {T}{T_{o}}}\right)\right].

Los contornos resultantes de la constante divergencia de Kullback-Leibler, mostrados a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo ponen límites a la conversión de calor a frío como en aire acondicionado con llama o en el dispositivo sin energía para convertir agua hirviendo a agua con hielo discutida aquí. ^[23] Por lo tanto, la divergencia de Kullback-Leibler mide la disponibilidad termodinámica en bits.

AMIGOS PARA SIEMPRE

Páginas

lunes, 13 de mayo de 2019

TERMODINÁMICA

Métrica de información de Fisher [ editar ]

Información de Fisher teorema métrica [ editar ]

Variación de la información [ editar ]

Relación con otras cantidades de teoría de la información [ editar ]

Autoinformación [ editar ]

Información mutua [ editar ]

La entropía de Shannon [ editar ]

Entropía condicional [ editar ]

Entropía cruzada [ editar ]

Actualización Bayesiana [ editar ]

Diseño experimental bayesiano [ editar ]

Información de discriminación [ editar ]

Principio de información mínima de discriminación [ editar ]

Relación al trabajo disponible [ editar ]

No hay comentarios:

Publicar un comentario

Datos personales

Archivo del blog