Métrica de información de Fisher [ editar ]
La divergencia de Kullback-Leibler está directamente relacionada con la métrica de información de Fisher . Esto se puede hacer explícito de la siguiente manera. Supongamos que las distribuciones de probabilidad y Ambos están parametrizados por algún parámetro (posiblemente multidimensional) . Considere entonces dos valores cercanos de y para que el parametro Se diferencia en solo una pequeña cantidad del valor del parámetro . Específicamente, hasta el primer pedido tiene uno (usando la convención de suma de Einstein )
con un pequeño cambio de en el dirección, y La correspondiente tasa de cambio en la distribución de probabilidad. Dado que la divergencia de Kullback-Leibler tiene un mínimo absoluto de 0es decir , cambia solo a segundo orden en los pequeños parámetros. Más formalmente, como para cualquier mínimo, los primeros derivados de la divergencia desaparecen
Debe ser semidefinido positivo . Dejando variar (y soltando el subíndice 0) la arpillera define una métrica Riemanniana (posiblemente degenerada) en el espacio de parámetros θ , llamada métrica de información de Fisher.
Información de Fisher teorema métrica [ editar ]
Cuando Satisface las siguientes condiciones de regularidad:
- existe,
donde ξ es independiente de ρ
entonces:
Variación de la información [ editar ]
Otra métrica teórica de la información es la variación de la información , que es más o menos una simetrización de la entropía condicional . Es una métrica en el conjunto de particiones de un espacio de probabilidad discreto .
Relación con otras cantidades de teoría de la información [ editar ]
Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de la divergencia de Kullback-Leibler a casos específicos.
Autoinformación [ editar ]
La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.
Cuando se aplica a una variable aleatoria discreta , la autoinformación puede representarse como [ cita requerida ]
es la divergencia de Kullback-Leibler de la distribución de probabilidad de un delta de Kronecker querepresenta la certeza de que - Es decir, el número de bits adicionales que se deben transmitir para identificar si sólo la distribución de probabilidad está disponible para el receptor, no el hecho de que .
Información mutua [ editar ]
Es la divergencia Kullback-Leibler del producto. de las dos distribuciones de probabilidad marginal de la distribución de probabilidad conjunta - es decir, el número esperado de bits adicionales que deben transmitirse para identificar y si están codificados utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. Equivalentemente, si la probabilidad conjunta es conocido, es el número esperado de bits adicionales que, en promedio, deben enviarse para identificar si el valor de Aún no es conocido por el receptor.
La entropía de Shannon [ editar ]
es el número de bits que tendrían que ser transmitidos para identificar desde posibilidades igualmente probables, menos la divergencia de Kullback-Leibler de la distribución uniforme en las variables aleatorias de, , de la verdadera distribución - es decir, menos el número esperado de bits guardados, que habría tenido que enviarse si el valor de Fueron codificados según la distribución uniforme. en lugar de la verdadera distribución .
Entropía condicional [ editar ]
es el número de bits que tendrían que ser transmitidos para identificar desde posibilidades igualmente probables, menos la divergencia Kullback-Leibler de la distribución del producto De la verdadera distribución conjunta. - es decir, menos el número esperado de bits guardados que habría tenido que enviarse si el valor de Fueron codificados según la distribución uniforme. en lugar de la distribución condicional de dado .
Entropía cruzada [ editar ]
La entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento de un conjunto de posibilidades, si se usa un esquema de codificación basado en una distribución de probabilidad dada q , en lugar de la distribución "verdadera" p . La entropía cruzada para dos distribuciones p y q en el mismo espacio de probabilidad se define de la siguiente manera: [ cita requerida ]
Actualización Bayesiana [ editar ]
En las estadísticas bayesianas, la divergencia de Kullback-Leibler se puede usar como una medida de la ganancia de información al pasar de una distribución anterior a una distribución posterior :. Si algún hecho nuevo descubierto, se puede utilizar para actualizar la distribución posterior de desde a una nueva distribución posterior utilizando el teorema de Bayes :
que puede ser menor o mayor que la entropía original . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad, se puede estimar que se haya utilizado el código original basado enen lugar de un nuevo código basado en Habría añadido un número esperado de bits:
a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre, que podemos estimar se ha aprendido descubriendo .
Si un dato más, , posteriormente entra, la distribución de probabilidad para Se puede actualizar aún más, para dar una nueva y mejor conjetura . Si uno reinvierte la ganancia de información por usar más bien que , resulta que puede ser mayor o menor que lo estimado previamente:
- puede ser ≤ o> que
y así la ganancia de información combinada no obedece a la desigualdad del triángulo:
- puede ser <, = o> que
Todo lo que se puede decir es que, en promedio , usando promedios, los dos lados promediarán.
Diseño experimental bayesiano [ editar ]
Un objetivo común en el diseño experimental bayesiano es maximizar la divergencia esperada de Kullback-Leibler entre el anterior y el posterior. [15] Cuando los posteriores se aproximan a ser distribuciones gaussianas, un diseño que maximiza la divergencia esperada de Kullback-Leibler se denomina Bayes d-óptimo .
Información de discriminación [ editar ]
La divergencia de Kullback-Leibler También puede interpretarse como la información de discriminación esperada para terminado : la información media por muestra para discriminar a favor de una hipótesis contra una hipótesis cuando la hipótesis es verdad. [16] Otro nombre para esta cantidad, dado por IJ Good , es el peso esperado de la evidencia para terminado Se espera de cada muestra.
El peso esperado de la evidencia para terminado no es lo mismo que la ganancia de información esperada por muestra sobre la distribución de probabilidad de las hipótesis,
Cualquiera de las dos cantidades se puede usar como una función de utilidad en el diseño experimental bayesiano, para elegir una próxima pregunta óptima para investigar: pero en general conducirán a estrategias experimentales bastante diferentes.
En la escala de entropía de la ganancia de información, existe una diferencia muy pequeña entre la certeza cercana y la certeza absoluta: la codificación de acuerdo con una certeza cercana casi no requiere más bits que la codificación de acuerdo con una certeza absoluta. Por otro lado, en la escala logit implícita por el peso de la evidencia, la diferencia entre los dos es enorme: tal vez infinita; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, por ejemplo, la hipótesis de Riemann es correcta, en comparación con la certeza de que es correcta porque uno tiene una prueba matemática. Estas dos escalas diferentes de funciónde pérdida por incertidumbre son ambas útil, de acuerdo con lo bien que cada uno refleja las circunstancias particulares del problema en cuestión.
Principio de información mínima de discriminación [ editar ]
La idea de la divergencia de Kullback-Leibler como información de discriminación llevó a Kullback a proponer el Principio de Información de Discriminación Mínima (MDI): dados nuevos hechos, una nueva distribución Se debe elegir que es tan difícil de discriminar de la distribución original como sea posible; Para que los nuevos datos produzcan una ganancia de información tan pequeña. como sea posible.
Por ejemplo, si uno tuviera una distribución previa. terminado y , y posteriormente aprendió la verdadera distribución de estaba , luego la divergencia de Kullback-Leibler entre la nueva distribución conjunta para y , , y la anterior distribución anterior sería:
es decir, la suma de la divergencia Kullback-Leibler de la distribución previa para de la distribución actualizada , más el valor esperado (usando la distribución de probabilidad ) de la divergencia Kullback-Leibler de la distribución condicional previa De la nueva distribución condicional. . (Tenga en cuenta que a menudo el valor esperado más adelante se denomina condicional divergencia de Kullback-Leibler (o entropía relativa condicional ) y denota por[17] : p. 22 ) Esto se minimiza si sobre todo el apoyo de ; y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es, de hecho, una función representing que representa la certeza de que tiene un valor particular
MDI puede ser visto como una extensión de Laplace 's Principio de razón insuficiente , y el principio de máxima entropía de ET Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, por lo que la entropía de Shannon deja de ser tan útil (ver entropía diferencial ), pero la divergencia de Kullback-Leibler sigue siendo igual de relevante.
En la literatura de ingeniería, MDI a veces se denomina Principio de la entropía cruzada mínima (MCE) o Minxent, para abreviar. Minimizando la divergencia de Kullback-Leibler de a con respecto a es equivalente a minimizar la entropía cruzada de y , ya que
lo cual es apropiado si uno está tratando de elegir una aproximación adecuada a . Sin embargo, esto con la misma frecuencia no es la tarea que uno está tratando de lograr. En cambio, tan a menudo es es una medida de referencia previa fija, y que uno está intentando optimizar minimizando sujeto a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores que intentan resolver la inconsistencia al redefinir la entropía cruzada para ser, más bien que .
Relación al trabajo disponible [ editar ]
Las sorpresas [18] agregan donde las probabilidades se multiplican. La sorpresa para un evento de probabilidad. Se define como . Si es entonces surprisal está en nats, bits, o de modo que, por ejemplo, hay trozos de sorpresa para aterrizar todas las "cabezas" en un sorteo de monedas
Los estados de mejor conjetura (por ejemplo, para los átomos en un gas) se deducen al maximizar la sorpresa promedio ( entropía ) para un conjunto dado de parámetros de control (como presión o volumen ). Esta limitación de la entropía restringida , tanto clásica [19] como cuántica mecánicamente, [20] minimiza la disponibilidad de Gibbs en unidades de entropía [21] dónde Es una multiplicidad restringida o función de partición .
Cuando la temperatura Es fijo, energía libre () también se minimiza. Asi si y numero de moleculas Son constantes, la energía libre de Helmholtz. (dónde Esta energía se minimiza cuando un sistema "se equilibra". Si y se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs se minimiza en su lugar. El cambio en la energía libre en estas condiciones es una medida del trabajo disponible que se puede realizar en el proceso. Por lo tanto, trabajo disponible para un gas ideal a temperatura constante. y presion es dónde y (Véase también la desigualdad de Gibbs ).
Más generalmente [22] el trabajo disponible relativo a algún ambiente se obtiene multiplicando la temperatura ambientePor la divergencia de Kullback – Leibler o sorpresa de la red. definido como el valor promedio de dónde Es la probabilidad de un estado dado bajo condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico a valores ambientales de y es así , donde divergencia Kullback – Leibler
Los contornos resultantes de la constante divergencia de Kullback-Leibler, mostrados a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo ponen límites a la conversión de calor a frío como en aire acondicionado con llama o en el dispositivo sin energía para convertir agua hirviendo a agua con hielo discutida aquí. [23] Por lo tanto, la divergencia de Kullback-Leibler mide la disponibilidad termodinámica en bits.
No hay comentarios:
Publicar un comentario