lunes, 13 de mayo de 2019

TERMODINÁMICA


De Wikipedia, la enciclopedia libre
Saltar a navegaciónSaltar a búsqueda
Valores aproximados de kT a 298 KUnidades
kT =4.11 × 10 −21J
kT =4.114pN⋅nm
kT =9.83 × 10 −22California
kT =25.7meV
Cantidades relacionadas
kT / hc ≈207 [1]cm −1
kT / e = 25.7mV
RT = kT ⋅ A =2.479kJ⋅mol −1
RT = 0.593kcal⋅mol −1
h / kT = 0.16PD
kT (también escrito como k T ) es el producto de laconstante de Boltzmann , k (o k B ), y la temperatura , T . Este producto se usa en la física como un factor de escalapara los valores de energía ensistemas de escala molecular(a veces se usa como una unidad de energía), ya que las tasas y frecuencias de muchos procesos y fenómenos dependen no solo de su energía, sino de relación de esa energía y kT , es decir, en E / kT (vea la ecuación de Arrhenius ,Factor de Boltzmann ). Para un sistema en equilibrio en conjunto canónico , la probabilidad de que el sistema esté en estado con energía E es proporcional a −Δ E / kT .
Más fundamentalmente, kT es la cantidad de calor requerida para aumentar la entropía termodinámica de un sistema, en unidades naturales, en una nat . E / kT por lo tanto representa una cantidad de entropía por molécula, medida en unidades naturales.
En los sistemas de escala macroscópica, con un gran número de moléculas, el valor de RT se usa comúnmente; sus unidades SI son julios por mol (J / mol ): ( RT = kT ⋅ A ).

RT editar ]

RT es el producto de la molar constante de los gases , R , y la temperatura , T . Este producto se usa en la físicacomo un factor de escala paravalores de energía en escala macroscópica (a veces se usa como una pseudo-unidad de energía), ya que muchos procesos y fenómenos dependen no solo de la energía, sino de la proporción de energía y RT , es decir, E / RT . Lasunidades SI para RT son julios por mol ( J / mol ).
Se diferencia de kT solo por un factor del número de Avogadro . Su dimensión es energía o [   −2 ], expresada en unidades SI como julios (J):
kT = RT / A











divergencia de Kullback-Leibler(también llamada entropía relativa ) es una medida de cómo una distribución de probabilidad es diferente de una segunda, la distribución de probabilidad de referencia. [1] [2] Las aplicaciones incluyen caracterizar la entropía relativa (Shannon) en sistemas de información, aleatoriedad en series de tiempo continuas ganancia de información cuando se comparan modelos estadísticos de inferencia . En contraste con la variación de la información , es una distribución asimétricamide y, por lo tanto, no califica como una métrica estadística de propagación (tampoco satisface la desigualdad del triángulo). En el caso simple, una divergencia de Kullback-Leibler de 0 indica que las dos distribuciones en cuestión son idénticas. En términos simplificados, es una medida de sorpresa, con diversas aplicaciones como estadísticas aplicadas, mecánica de fluidos , neurociencia y aprendizaje automático .

Definición editar ]

Para distribuciones de probabilidad discretas  y definida en el mismo espacio de probabilidad , la divergencia de Kullback-Leibler entre y se define [4] para ser




Ec. 1 )
que es equivalente a
En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades y , donde se toma la expectativa utilizando las probabilidades. La divergencia de Kullback-Leibler se define solo si para todos implica continuidad absoluta ). Cuando es cero, la contribución del término correspondiente se interpreta como cero porque
Para distribuciones  y de una variable aleatoria continua , la divergencia de Kullback-Leibler se define como la integral: [5] : p. 55




Eq.2 )
dónde  y denotar las densidades de probabilidad de y .
Más en general, si  y son medidas de probabilidad sobre un conjuntoes absolutamente continuo con respecto a, luego la divergencia de Kullback-Leibler de  a  Se define como
dónde es el derivado de Radon-Nikodym de con respecto a , y siempre que exista la expresión en el lado derecho. Equivalentemente (por la regla de la cadena ), esto se puede escribir como
cual es la entropía de relativo a Continuando en este caso, si hay alguna medida en  para cual  existe (lo que significa que  y  son absolutamente continuos con respecto a ), luego la divergencia de Kullback-Leibler de  a  se da como
Los logaritmos de estas fórmulas se llevan a la base 2 si la información se mide en unidades de bits o a la baseSi la información se mide en nats . La mayoría de las fórmulas relacionadas con la divergencia de Kullback-Leibler se mantienen independientemente de la base del logaritmo.
Existen varias convenciones para referirse a en palabras. A menudo se le conoce como la divergencia entre  y , pero esto no logra transmitir la asimetría fundamental en la relación. A veces, como en este artículo, puede encontrarse descrito como la divergencia de de , o con respecto a ,Esto refleja la asimetría en la inferencia bayesiana , que se inicia a partir de una previa y actualizaciones a la parte posterior. .

Ejemplo básico editar ]

Kullback [2] proporciona el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Dejar y  Sean las distribuciones que se muestran en la tabla y en la figura. Es la distribución en el lado izquierdo de la figura, una distribución binomialcon y  Es la distribución en el lado derecho de la figura, una distribución uniforme discreta con los tres resultados posibles.  (es decir ), cada uno con probabilidad .
Dos distribuciones para ilustrar la divergencia de Kullback-Leibler
X012
Distribución P (x)0.360.480.16
Distribución Q (x)0.3330.3330.333
Las divergencias de KL.  y se calculan utilizando la definición Eq.1 de la siguiente manera. Este ejemplo utiliza el registro natural con base e , designadopara obtener resultados en nats (ver unidades de información ).

Interpretaciones editar ]

La divergencia de Kullback-Leibler de  a  a menudo se denota .
En el contexto del aprendizaje automático ,A menudo se llama la ganancia de información lograda si se utiliza en lugar de Por analogía con la teoría de la información, también se llama la entropía relativade con respecto a En el contexto de la teoría de la codificación ,puede interpretarse como una medida del número esperado de bits adicionales requeridos para codificar muestras de utilizando un código optimizado para  en lugar del código optimizado para .
Expresado en el lenguaje de la inferencia bayesiana ,es una medida de la información obtenida cuando uno revisa sus creencias de la distribución de probabilidad anterior a la distribución de probabilidad posterior En otras palabras, es la cantidad de información perdida cuando se utiliza para aproximar [6]En aplicaciones, normalmente representa la distribución "verdadera" de datos, observaciones o una distribución teórica calculada con precisión, mientras que Típicamente representa una teoría, modelo, descripción o aproximación dePara encontrar una distribución. eso es lo mas cercano a , podemos minimizar la divergencia de KL y computar una proyección de información .
La divergencia de Kullback-Leibler es un caso especial de una clase más amplia de divergencias llamados f -divergences , así como la clase de divergencias Bregman . Es la única divergencia sobre las probabilidades que es miembro de ambas clases. Aunque a menudo se intuye como una forma de medir la distancia entre las distribuciones de probabilidad , la divergencia de Kullback-Leibler no es una métrica verdadera No obedece a la desigualdad del triángulo , y en general. no es igual Sin embargo, su forma infinitesimal , específicamente su arpillera , proporciona un tensor métrico conocido como la métrica de información de Fisher .

Caracterización editar ]

Arthur Hobson demostró que la divergencia de Kullback-Leibler es la única medida de diferencia entre las distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de aquellas que aparecen en una caracterización de entropía comúnmente utilizada [7] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia de Kullback-Leibler .
También hay una caracterización bayesiana de la divergencia de Kullback-Leibler. [8]

Motivación editar ]

Ilustración de la divergencia de Kullback-Leibler (KL) para dos distribuciones normales . La asimetría típica de la divergencia de Kullback-Leibler es claramente visible.
En teoría de la información, el teorema de Kraft-McMillanestablece que cualquier esquema de codificación descodificable directamente para codificar un mensaje para identificar un valor fuera de un conjunto de posibilidades  Puede verse como una distribución de probabilidad implícita  terminado , dónde  es la longitud del código para en bits. Por lo tanto, la divergencia de Kullback-Leibler se puede interpretar como la longitud de mensaje extra esperada por dato que debe comunicarse si un código es óptimo para una distribución dada (incorrecta) se utiliza, en comparación con el uso de un código basado en la distribución real .
dónde es la entropía cruzada de y es la entropía de.
Tenga en cuenta también que existe una relación entre la divergencia de Kullback-Leibler y la " función de velocidad " en la teoría de grandes desviaciones . [9] [10]

Propiedades editar ]

  • La divergencia de Kullback-Leibler es siempre no negativa ,
un resultado conocido como desigualdad de Gibbs , concero si y solo si  en casi todas partes . La entropía Establece así un valor mínimo para la entropía cruzada. , el número esperado de bits requerido cuando se usa un código basado en más bien que y la divergencia de Kullback-Leibler, por lo tanto, representa el número esperado de bits extra que deben transmitirse para identificar un valor trazada desde , si se utiliza un código correspondiente a la distribución de probabilidad , en lugar de la distribución "verdadera" .
  • La divergencia de Kullback-Leibler permanece bien definida para distribuciones continuas y, además, es invariante en las transformaciones de parámetros . Por ejemplo, si una transformación se realiza desde la variable a variable entonces  y  La divergencia de Kullback-Leibler puede ser reescrita:
dónde  y Aunque se asumió que la transformación fue continua, este no tiene por qué ser el caso. Esto también muestra que la divergencia de Kullback-Leibler produce una cantidad dimensionalmente consistente , ya que si es una variable dimensionada,  y  También están dimensionados, como por ejemplo es adimensional. El argumento del término logarítmico es y permanece sin dimensiones, como debe ser. Por lo tanto, puede verse como una cantidad más fundamental que algunas otras propiedades en la teoría de la información [11] (como la autoinformación o la entropía de Shannon ), que puede convertirse en indefinida o negativa para probabilidades no discretas.
  • La divergencia de Kullback-Leibler es aditiva para distribuciones independientes de la misma manera que la entropía de Shannon. Si Son distribuciones independientes, con la distribución conjunta.  así mismo, entonces
  • La divergencia de Kullback-Leibler Es convexo en el par de funciones de probabilidad de masa.es decir, si  y  son dos pares de funciones de probabilidad de masa, entonces

Ejemplos editar ]

Distribuciones normales multivariables editar ]

Supongamos que tenemos dos distribuciones normales multivariadas , con mediosy con (no singular) matrices de covarianza  Si las dos distribuciones tienen la misma dimensión, , entonces la divergencia de Kullback-Leibler entre las distribuciones es la siguiente: [12] : p. 13
El logaritmo en el último término debe tomarse como base e, ya que todos los términos, a excepción del último, son logaritmos de base e de expresiones que son factores de la función de densidad o que surgen naturalmente. La ecuación por lo tanto da un resultado medido en nats . Dividiendo toda la expresión de arriba porCede la divergencia en bits .
Un caso especial, y una cantidad común en la inferencia variacional , es la divergencia KL entre una diagonal multivariable normal y una distribución normal estándar:

No hay comentarios:

Publicar un comentario