lunes, 13 de mayo de 2019

TERMODINÁMICA

KULLBACK-LEIBLER DIVERGENCE , CONTINUACIÓN

Métrica de información de Fisher editar ]

La divergencia de Kullback-Leibler está directamente relacionada con la métrica de información de Fisher . Esto se puede hacer explícito de la siguiente manera. Supongamos que las distribuciones de probabilidad y Ambos están parametrizados por algún parámetro (posiblemente multidimensional) Considere entonces dos valores cercanos de y  para que el parametro  Se diferencia en solo una pequeña cantidad del valor del parámetro Específicamente, hasta el primer pedido tiene uno (usando la convención de suma de Einstein )
con  un pequeño cambio de  en el  dirección, y La correspondiente tasa de cambio en la distribución de probabilidad. Dado que la divergencia de Kullback-Leibler tiene un mínimo absoluto de 0es decir , cambia solo a segundo orden en los pequeños parámetrosMás formalmente, como para cualquier mínimo, los primeros derivados de la divergencia desaparecen
y por la expansión de Taylor uno tiene hasta el segundo orden.
Donde la matriz de Hesse de la divergencia.
Debe ser semidefinido positivo . Dejando variar (y soltando el subíndice 0) la arpillera define una métrica Riemanniana (posiblemente degenerada) en el espacio de parámetros θ , llamada métrica de información de Fisher.

Información de Fisher teorema métrica editar ]

Cuando  Satisface las siguientes condiciones de regularidad:
 existe,
donde ξ es independiente de ρ
entonces:

Variación de la información editar ]

Otra métrica teórica de la información es la variación de la información , que es más o menos una simetrización de la entropía condicional . Es una métrica en el conjunto de particiones de un espacio de probabilidad discreto .

Relación con otras cantidades de teoría de la información editar ]

Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de la divergencia de Kullback-Leibler a casos específicos.

Autoinformación editar ]

La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.
Cuando se aplica a una variable aleatoria discreta , la autoinformación puede representarse como cita requerida ]
es la divergencia de Kullback-Leibler de la distribución de probabilidad de un delta de Kronecker querepresenta la certeza de que - Es decir, el número de bits adicionales que se deben transmitir para identificar  si sólo la distribución de probabilidad  está disponible para el receptor, no el hecho de que .

Información mutua editar ]

Es la divergencia Kullback-Leibler del producto. de las dos distribuciones de probabilidad marginal de la distribución de probabilidad conjunta  - es decir, el número esperado de bits adicionales que deben transmitirse para identificar  y si están codificados utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. Equivalentemente, si la probabilidad conjunta es conocido, es el número esperado de bits adicionales que, en promedio, deben enviarse para identificar si el valor de  Aún no es conocido por el receptor.

La entropía de Shannon editar ]

es el número de bits que tendrían que ser transmitidos para identificar  desde posibilidades igualmente probables, menos la divergencia de Kullback-Leibler de la distribución uniforme en las variables aleatorias de, de la verdadera distribución - es decir, menos el número esperado de bits guardados, que habría tenido que enviarse si el valor de Fueron codificados según la distribución uniforme.  en lugar de la verdadera distribución .

Entropía condicional editar ]

es el número de bits que tendrían que ser transmitidos para identificar  desde posibilidades igualmente probables, menos la divergencia Kullback-Leibler de la distribución del producto De la verdadera distribución conjunta. - es decir, menos el número esperado de bits guardados que habría tenido que enviarse si el valor de Fueron codificados según la distribución uniforme.  en lugar de la distribución condicional  de  dado .

Entropía cruzada editar ]

La entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento de un conjunto de posibilidades, si se usa un esquema de codificación basado en una distribución de probabilidad dada q , en lugar de la distribución "verdadera" p . La entropía cruzada para dos distribuciones p y q en el mismo espacio de probabilidad se define de la siguiente manera: cita requerida ]

Actualización Bayesiana editar ]

En las estadísticas bayesianas, la divergencia de Kullback-Leibler se puede usar como una medida de la ganancia de información al pasar de una distribución anterior a una distribución posterior :Si algún hecho nuevo descubierto, se puede utilizar para actualizar la distribución posterior de  desde  a una nueva distribución posterior utilizando el teorema de Bayes :
Esta distribución tiene una nueva entropía :
que puede ser menor o mayor que la entropía original Sin embargo, desde el punto de vista de la nueva distribución de probabilidad, se puede estimar que se haya utilizado el código original basado enen lugar de un nuevo código basado en  Habría añadido un número esperado de bits:
a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre, que podemos estimar se ha aprendido descubriendo .
Si un dato más, , posteriormente entra, la distribución de probabilidad para  Se puede actualizar aún más, para dar una nueva y mejor conjetura Si uno reinvierte la ganancia de información por usar más bien que , resulta que puede ser mayor o menor que lo estimado previamente:
 puede ser ≤ o> que 
y así la ganancia de información combinada no obedece a la desigualdad del triángulo:
 puede ser <, = o> que 
Todo lo que se puede decir es que, en promedio , usando promedios, los dos lados promediarán.

Diseño experimental bayesiano editar ]

Un objetivo común en el diseño experimental bayesiano es maximizar la divergencia esperada de Kullback-Leibler entre el anterior y el posterior. [15] Cuando los posteriores se aproximan a ser distribuciones gaussianas, un diseño que maximiza la divergencia esperada de Kullback-Leibler se denomina Bayes d-óptimo .

Información de discriminación editar ]

La divergencia de Kullback-Leibler También puede interpretarse como la información de discriminación esperada para terminado : la información media por muestra para discriminar a favor de una hipótesis  contra una hipótesis cuando la hipótesis es verdad. [16] Otro nombre para esta cantidad, dado por IJ Good , es el peso esperado de la evidencia para terminado  Se espera de cada muestra.
El peso esperado de la evidencia para  terminado no es lo mismo que la ganancia de información esperada por muestra sobre la distribución de probabilidad de las hipótesis,
Cualquiera de las dos cantidades se puede usar como una función de utilidad en el diseño experimental bayesiano, para elegir una próxima pregunta óptima para investigar: pero en general conducirán a estrategias experimentales bastante diferentes.
En la escala de entropía de la ganancia de información, existe una diferencia muy pequeña entre la certeza cercana y la certeza absoluta: la codificación de acuerdo con una certeza cercana casi no requiere más bits que la codificación de acuerdo con una certeza absoluta. Por otro lado, en la escala logit implícita por el peso de la evidencia, la diferencia entre los dos es enorme: tal vez infinita; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, por ejemplo, la hipótesis de Riemann es correcta, en comparación con la certeza de que es correcta porque uno tiene una prueba matemática. Estas dos escalas diferentes de funciónde pérdida por incertidumbre son ambas útil, de acuerdo con lo bien que cada uno refleja las circunstancias particulares del problema en cuestión.

Principio de información mínima de discriminación editar ]

La idea de la divergencia de Kullback-Leibler como información de discriminación llevó a Kullback a proponer el Principio de Información de Discriminación Mínima (MDI): dados nuevos hechos, una nueva distribución Se debe elegir que es tan difícil de discriminar de la distribución original como sea posible; Para que los nuevos datos produzcan una ganancia de información tan pequeña. como sea posible.
Por ejemplo, si uno tuviera una distribución previa.  terminado  y , y posteriormente aprendió la verdadera distribución de  estaba , luego la divergencia de Kullback-Leibler entre la nueva distribución conjunta para  y , y la anterior distribución anterior sería:
es decir, la suma de la divergencia Kullback-Leibler de  la distribución previa para  de la distribución actualizada , más el valor esperado (usando la distribución de probabilidad ) de la divergencia Kullback-Leibler de la distribución condicional previa  De la nueva distribución condicional. (Tenga en cuenta que a menudo el valor esperado más adelante se denomina condicional divergencia de Kullback-Leibler (o entropía relativa condicional ) y denota por[17] : p. 22 ) Esto se minimiza si sobre todo el apoyo de y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es, de hecho, una función representing que representa la certeza de que  tiene un valor particular
MDI puede ser visto como una extensión de Laplace 's Principio de razón insuficiente , y el principio de máxima entropía de ET Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, por lo que la entropía de Shannon deja de ser tan útil (ver entropía diferencial ), pero la divergencia de Kullback-Leibler sigue siendo igual de relevante.
En la literatura de ingeniería, MDI a veces se denomina Principio de la entropía cruzada mínima (MCE) o Minxent, para abreviar. Minimizando la divergencia de Kullback-Leibler de a  con respecto a  es equivalente a minimizar la entropía cruzada de  y , ya que
lo cual es apropiado si uno está tratando de elegir una aproximación adecuada a Sin embargo, esto con la misma frecuencia no es la tarea que uno está tratando de lograr. En cambio, tan a menudo es es una medida de referencia previa fija, y  que uno está intentando optimizar minimizando sujeto a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores que intentan resolver la inconsistencia al redefinir la entropía cruzada para ser, más bien que .

Relación al trabajo disponible editar ]

Gráfico de presión frente al volumen del trabajo disponible de un mol de gas argón en relación con el ambiente, calculado como  veces la divergencia Kullback – Leibler.
Las sorpresas [18] agregan donde las probabilidades se multiplican. La sorpresa para un evento de probabilidad. Se define como Si es  entonces surprisal está en nats, bits, o  de modo que, por ejemplo, hay  trozos de sorpresa para aterrizar todas las "cabezas" en un sorteo de  monedas
Los estados de mejor conjetura (por ejemplo, para los átomos en un gas) se deducen al maximizar la sorpresa promedio entropía ) para un conjunto dado de parámetros de control (como presión o volumen ). Esta limitación de la entropía restringida , tanto clásica [19] como cuántica mecánicamente, [20] minimiza la disponibilidad de Gibbs en unidades de entropía [21]  dónde Es una multiplicidad restringida o función de partición .
Cuando la temperatura  Es fijo, energía libre () también se minimiza. Asi si y numero de moleculas Son constantes, la energía libre de Helmholtz.  (dónde Esta energía se minimiza cuando un sistema "se equilibra". Si y se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs se minimiza en su lugar. El cambio en la energía libre en estas condiciones es una medida del trabajo disponible que se puede realizar en el proceso. Por lo tanto, trabajo disponible para un gas ideal a temperatura constante. y presion  es dónde  y (Véase también la desigualdad de Gibbs ).
Más generalmente [22] el trabajo disponible relativo a algún ambiente se obtiene multiplicando la temperatura ambientePor la divergencia de Kullback – Leibler o sorpresa de la red.  definido como el valor promedio de  dónde Es la probabilidad de un estado dado bajo condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico a valores ambientales de y  es así , donde divergencia Kullback – Leibler
Los contornos resultantes de la constante divergencia de Kullback-Leibler, mostrados a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo ponen límites a la conversión de calor a frío como en aire acondicionado con llama o en el dispositivo sin energía para convertir agua hirviendo a agua con hielo discutida aquí. [23] Por lo tanto, la divergencia de Kullback-Leibler mide la disponibilidad termodinámica en bits.

No hay comentarios:

Publicar un comentario