AMIGOS PARA SIEMPRE

Valores aproximados de kT a 298 K	Unidades
kT =4.11 × 10 ⁻²¹	J
kT =4.114	pN⋅nm
kT =9.83 × 10 ⁻²²	California
kT =25.7	meV
Cantidades relacionadas
kT / hc ≈207 ^[1]	cm ⁻¹
kT / e = 25.7	mV
RT = kT ⋅ N _A =2.479	kJ⋅mol ⁻¹
RT = 0.593	kcal⋅mol ⁻¹
h / kT = 0.16	PD

kT (también escrito como k _BT ) es el producto de laconstante de Boltzmann , k (o k _B ), y la temperatura , T . Este producto se usa en la física como un factor de escalapara los valores de energía ensistemas de escala molecular(a veces se usa como una unidad de energía), ya que las tasas y frecuencias de muchos procesos y fenómenos dependen no solo de su energía, sino de relación de esa energía y kT , es decir, en E / kT (vea la ecuación de Arrhenius ,Factor de Boltzmann ). Para un sistema en equilibrio en conjunto canónico , la probabilidad de que el sistema esté en estado con energía E es proporcional a e ^{−Δ E / kT} .

Más fundamentalmente, kT es la cantidad de calor requerida para aumentar la entropía termodinámica de un sistema, en unidades naturales, en una nat . E / kT por lo tanto representa una cantidad de entropía por molécula, medida en unidades naturales.

En los sistemas de escala macroscópica, con un gran número de moléculas, el valor de RT se usa comúnmente; sus unidades SI son julios por mol (J / mol ): ( RT = kT ⋅ N _A ).

RT [ editar ]

RT es el producto de la molar constante de los gases , R , y la temperatura , T . Este producto se usa en la físicacomo un factor de escala paravalores de energía en escala macroscópica (a veces se usa como una pseudo-unidad de energía), ya que muchos procesos y fenómenos dependen no solo de la energía, sino de la proporción de energía y RT , es decir, E / RT . Lasunidades SI para RT son julios por mol ( J / mol ).

Se diferencia de kT solo por un factor del número de Avogadro . Su dimensión es energía o [ M L ² T ⁻² ], expresada en unidades SI como julios (J):

kT = RT / N _A

divergencia de Kullback-Leibler(también llamada entropía relativa ) es una medida de cómo una distribución de probabilidad es diferente de una segunda, la distribución de probabilidad de referencia. ^[1]^[2] Las aplicaciones incluyen caracterizar la entropía relativa (Shannon) en sistemas de información, aleatoriedad en series de tiempo continuas y ganancia de información cuando se comparan modelos estadísticos de inferencia . En contraste con la variación de la información , es una distribución asimétricamide y, por lo tanto, no califica como una métrica estadística de propagación (tampoco satisface la desigualdad del triángulo). En el caso simple, una divergencia de Kullback-Leibler de 0 indica que las dos distribuciones en cuestión son idénticas. En términos simplificados, es una medida de sorpresa, con diversas aplicaciones como estadísticas aplicadas, mecánica de fluidos , neurociencia y aprendizaje automático .

Definición [ editar ]

Para distribuciones de probabilidad discretas

y

definida en el mismo espacio de probabilidad , la divergencia de Kullback-Leibler entre

y

se define ^[4] para ser

D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {Q(x)}{P(x)}}\right)

( Ec. 1 )

que es equivalente a

D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right).

En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades

y

, donde se toma la expectativa utilizando las probabilidades.

. La divergencia de Kullback-Leibler se define solo si para todos

,

Q(x)=0

implica

P(x)=0

( continuidad absoluta ). Cuando

P(x)

es cero, la contribución del término correspondiente se interpreta como cero porque

\lim _{x\to 0^{+}}x\log(x)=0.

Para distribuciones

y

de una variable aleatoria continua , la divergencia de Kullback-Leibler se define como la integral: ^[5]^: p. 55

D_{\text{KL}}(P\parallel Q)=\int _{-\infty }^{\infty }p(x)\log \left({\frac {p(x)}{q(x)}}\right)\,dx

( Eq.2 )

dónde

y

denotar las densidades de probabilidad de

y

.

Más en general, si

y

son medidas de probabilidad sobre un conjunto

{\mathcal {X}}

y

es absolutamente continuo con respecto a

, luego la divergencia de Kullback-Leibler de

a

Se define como

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}\log \left({\frac {dP}{dQ}}\right)\,dP,

dónde

{\frac {dP}{dQ}}

es el derivado de Radon-Nikodym de

con respecto a

, y siempre que exista la expresión en el lado derecho. Equivalentemente (por la regla de la cadena ), esto se puede escribir como

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}\log \left({\frac {dP}{dQ}}\right){\frac {dP}{dQ}}\,dQ,

cual es la entropía de

relativo a

. Continuando en este caso, si

\mu

hay alguna medida en

{\mathcal {X}}

para cual

p={\frac {dP}{d\mu }}

y

q={\frac {dQ}{d\mu }}

existe (lo que significa que

y

son absolutamente continuos con respecto a

\mu

), luego la divergencia de Kullback-Leibler de

a

se da como

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}p\log \left({\frac {p}{q}}\right)\,d\mu .

Los logaritmos de estas fórmulas se llevan a la base 2 si la información se mide en unidades de bits o a la base

Si la información se mide en nats . La mayoría de las fórmulas relacionadas con la divergencia de Kullback-Leibler se mantienen independientemente de la base del logaritmo.

Existen varias convenciones para referirse a

D_{\text{KL}}(P\parallel Q)

en palabras. A menudo se le conoce como la divergencia entre

y

, pero esto no logra transmitir la asimetría fundamental en la relación. A veces, como en este artículo, puede encontrarse descrito como la divergencia de

de , o con respecto a ,

. Esto refleja la asimetría en la inferencia bayesiana , que se inicia a partir de una previa

y actualizaciones a la parte posterior.

.

Ejemplo básico [ editar ]

Kullback ^[2] proporciona el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Dejar

y

Sean las distribuciones que se muestran en la tabla y en la figura.

Es la distribución en el lado izquierdo de la figura, una distribución binomialcon

N=2

y

p=0.4

.

Es la distribución en el lado derecho de la figura, una distribución uniforme discreta con los tres resultados posibles.

x=0

,

o

(es decir

{\mathcal {X}}=\{0,1,2\}

), cada uno con probabilidad

p=1/3

.

X	0	1	2
Distribución P (x)	0.36	0.48	0.16
Distribución Q (x)	0.333	0.333	0.333

Las divergencias de KL.

D_{\text{KL}}(P\parallel Q)

y

D_{\text{KL}}(Q\parallel P)

se calculan utilizando la definición Eq.1 de la siguiente manera. Este ejemplo utiliza el registro natural con base e , designado

\operatorname {ln}

para obtener resultados en nats (ver unidades de información ).

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}P(x)\ln \left({\frac {P(x)}{Q(x)}}\right)\\&=0.36\ln \left({\frac {0.36}{0.333}}\right)+0.48\ln \left({\frac {0.48}{0.333}}\right)+0.16\ln \left({\frac {0.16}{0.333}}\right)\\&=0.0852996\end{aligned}}

{\begin{aligned}D_{\text{KL}}(Q\parallel P)&=\sum _{x\in {\mathcal {X}}}Q(x)\ln \left({\frac {Q(x)}{P(x)}}\right)\\&=0.333\ln \left({\frac {0.333}{0.36}}\right)+0.333\ln \left({\frac {0.333}{0.48}}\right)+0.333\ln \left({\frac {0.333}{0.16}}\right)\\&=0.097455\end{aligned}}

Interpretaciones [ editar ]

La divergencia de Kullback-Leibler de

a

a menudo se denota

D_{\text{KL}}(P\parallel Q)

.

En el contexto del aprendizaje automático ,

D_{\text{KL}}(P\parallel Q)

A menudo se llama la ganancia de información lograda si

se utiliza en lugar de

. Por analogía con la teoría de la información, también se llama la entropía relativade

con respecto a

. En el contexto de la teoría de la codificación ,

D_{\text{KL}}(P\parallel Q)

puede interpretarse como una medida del número esperado de bits adicionales requeridos para codificar muestras de

utilizando un código optimizado para

en lugar del código optimizado para

.

Expresado en el lenguaje de la inferencia bayesiana ,

D_{\text{KL}}(P\parallel Q)

es una medida de la información obtenida cuando uno revisa sus creencias de la distribución de probabilidad anterior

a la distribución de probabilidad posterior

. En otras palabras, es la cantidad de información perdida cuando

se utiliza para aproximar

. ^[6]En aplicaciones,

normalmente representa la distribución "verdadera" de datos, observaciones o una distribución teórica calculada con precisión, mientras que

Típicamente representa una teoría, modelo, descripción o aproximación de

. Para encontrar una distribución.

eso es lo mas cercano a

, podemos minimizar la divergencia de KL y computar una proyección de información .

La divergencia de Kullback-Leibler es un caso especial de una clase más amplia de divergencias llamados f -divergences , así como la clase de divergencias Bregman . Es la única divergencia sobre las probabilidades que es miembro de ambas clases. Aunque a menudo se intuye como una forma de medir la distancia entre las distribuciones de probabilidad , la divergencia de Kullback-Leibler no es una métrica verdadera . No obedece a la desigualdad del triángulo , y en general.

D_{\text{KL}}(P\parallel Q)

no es igual

D_{\text{KL}}(Q\parallel P)

. Sin embargo, su forma infinitesimal , específicamente su arpillera , proporciona un tensor métrico conocido como la métrica de información de Fisher .

Caracterización [ editar ]

Arthur Hobson demostró que la divergencia de Kullback-Leibler es la única medida de diferencia entre las distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de aquellas que aparecen en una caracterización de entropía comúnmente utilizada . ^[7] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia de Kullback-Leibler .

También hay una caracterización bayesiana de la divergencia de Kullback-Leibler. ^[8]

Motivación [ editar ]

Ilustración de la divergencia de Kullback-Leibler (KL) para dos distribuciones normales . La asimetría típica de la divergencia de Kullback-Leibler es claramente visible.

En teoría de la información, el teorema de Kraft-McMillanestablece que cualquier esquema de codificación descodificable directamente para codificar un mensaje para identificar un valor

x_{i}

fuera de un conjunto de posibilidades

Puede verse como una distribución de probabilidad implícita

q(x_{i})=2^{-l_{i}}

terminado

, dónde

l_{i}

es la longitud del código para

x_{i}

en bits. Por lo tanto, la divergencia de Kullback-Leibler se puede interpretar como la longitud de mensaje extra esperada por dato que debe comunicarse si un código es óptimo para una distribución dada (incorrecta)

se utiliza, en comparación con el uso de un código basado en la distribución real

.

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=-\sum _{x\in {\mathcal {X}}}p(x)\log q(x)+\sum _{x\in {\mathcal {X}}}p(x)\log p(x)\\&=\mathrm {H} (P,Q)-\mathrm {H} (P)\end{aligned}}

dónde

\mathrm {H} (P,Q)

es la entropía cruzada de

y

\mathrm {H} (P)

es la entropía de

.

Tenga en cuenta también que existe una relación entre la divergencia de Kullback-Leibler y la " función de velocidad " en la teoría de grandes desviaciones . ^[9]^[10]

Propiedades [ editar ]

La divergencia de Kullback-Leibler es siempre no negativa ,

D_{\text{KL}}(P\parallel Q)\geq 0,

un resultado conocido como desigualdad de Gibbs , con

D_{\text{KL}}(P\parallel Q)

cero si y solo si

P=Q

en casi todas partes . La entropía

\mathrm {H} (P)

Establece así un valor mínimo para la entropía cruzada.

\mathrm {H} (P,Q)

, el número esperado de bits requerido cuando se usa un código basado en

más bien que

; y la divergencia de Kullback-Leibler, por lo tanto, representa el número esperado de bits extra que deben transmitirse para identificar un valor

trazada desde

, si se utiliza un código correspondiente a la distribución de probabilidad

, en lugar de la distribución "verdadera"

.

La divergencia de Kullback-Leibler permanece bien definida para distribuciones continuas y, además, es invariante en las transformaciones de parámetros . Por ejemplo, si una transformación se realiza desde la variable a variable $y(x)$ entonces $P(x)dx=P(y)dy$ y $Q(x)dx=Q(y)dy$ La divergencia de Kullback-Leibler puede ser reescrita:

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)\,dx\\[6pt]&=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)\,{\frac {dy}{dx}}}{Q(y)\,{\frac {dy}{dx}}}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)}{Q(y)}}\right)\,dy\end{aligned}}

dónde

y_{a}=y(x_{a})

y

y_{b}=y(x_{b})

. Aunque se asumió que la transformación fue continua, este no tiene por qué ser el caso. Esto también muestra que la divergencia de Kullback-Leibler produce una cantidad dimensionalmente consistente , ya que si

es una variable dimensionada,

P(x)

y

Q(x)

También están dimensionados, como por ejemplo

P(x)dx

es adimensional. El argumento del término logarítmico es y permanece sin dimensiones, como debe ser. Por lo tanto, puede verse como una cantidad más fundamental que algunas otras propiedades en la teoría de la información ^[11] (como la autoinformación o la entropía de Shannon ), que puede convertirse en indefinida o negativa para probabilidades no discretas.

La divergencia de Kullback-Leibler es aditiva para distribuciones independientes de la misma manera que la entropía de Shannon. Si $P_{1},P_{2}$ Son distribuciones independientes, con la distribución conjunta. $P(x,y)=P_{1}(x)P_{2}(y)$ y $Q,Q_{1},Q_{2}$ así mismo, entonces

D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).

La divergencia de Kullback-Leibler $D_{\text{KL}}(P\parallel Q)$ Es convexo en el par de funciones de probabilidad de masa. $(p,q)$ es decir, si $(p_{1},q_{1})$ y $(p_{2},q_{2})$ son dos pares de funciones de probabilidad de masa, entonces

D_{\text{KL}}(\lambda p_{1}+(1-\lambda )p_{2}\parallel \lambda q_{1}+(1-\lambda )q_{2})\leq \lambda D_{\text{KL}}(p_{1}\parallel q_{1})+(1-\lambda )D_{\text{KL}}(p_{2}\parallel q_{2}){\text{ for }}0\leq \lambda \leq 1.

Ejemplos [ editar ]

Distribuciones normales multivariables [ editar ]

Supongamos que tenemos dos distribuciones normales multivariadas , con medios

\mu _{0},\mu _{1}

y con (no singular) matrices de covarianza

\Sigma _{0},\Sigma _{1}.

Si las dos distribuciones tienen la misma dimensión,

, entonces la divergencia de Kullback-Leibler entre las distribuciones es la siguiente: ^[12]^: p. 13

D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={\frac {1}{2}}\left(\operatorname {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+(\mu _{1}-\mu _{0})^{\mathsf {T}}\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right)\right).

El logaritmo en el último término debe tomarse como base e, ya que todos los términos, a excepción del último, son logaritmos de base e de expresiones que son factores de la función de densidad o que surgen naturalmente. La ecuación por lo tanto da un resultado medido en nats . Dividiendo toda la expresión de arriba por

ln(2)

Cede la divergencia en bits .

Un caso especial, y una cantidad común en la inferencia variacional , es la divergencia KL entre una diagonal multivariable normal y una distribución normal estándar:

D_{\text{KL}}\left({\mathcal {N}}\left((\mu _{1},\ldots ,\mu _{k})^{\mathsf {T}},\operatorname {diag} (\sigma _{1}^{2},\ldots ,\sigma _{k}^{2})\right)\parallel {\mathcal {N}}\left(\mathbf {0} ,\mathbf {I} \right)\right)={1 \over 2}\sum _{i=1}^{k}(\sigma _{i}^{2}+\mu _{i}^{2}-\ln(\sigma _{i}^{2})-1).

[1]

[1]

[2]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

AMIGOS PARA SIEMPRE

Páginas

lunes, 13 de mayo de 2019

TERMODINÁMICA

RT [ editar ]

Definición [ editar ]

Ejemplo básico [ editar ]

Interpretaciones [ editar ]

Caracterización [ editar ]

Motivación [ editar ]

Propiedades [ editar ]

Ejemplos [ editar ]

Distribuciones normales multivariables [ editar ]

No hay comentarios:

Publicar un comentario

Datos personales

Archivo del blog