Расстояние Кульбака — Лейблера

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (англ. relative entropy)^[1] — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений^[2], определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Определение и интерпретации

Расхождение Кульбака — Лейблера распределения $Q$ относительно $P$ (или, условно говоря, «расстояние от $P$ до $Q$ ») обозначается $D_{\mathrm {KL} }(P\parallel Q)$ . Первый аргумент функционала (распределение $P$ ) обычно интерпретируется как истинное или постулируемое априори распределение, второй (распределение $Q$ ) — как предполагаемое (проверяемое). Распределение $Q$ часто служит приближением распределения $P$ . Значение функционала можно понимать как количество неучтённой информации распределения $P$ , если $Q$ было использовано для приближения $P$ . Данная мера расстояния в теории информации также интерпретируется как величина потерь информации при замене истинного распределения $P$ на распределение $Q$ .

В общем случае, если $\mu$ — любая мера на $X$ , для которой существуют абсолютно непрерывные относительно $\mu$ функции $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ и $q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}$ , тогда расхождение Кульбака — Лейблера распределения $Q$ относительно $P$ определяется как

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}p\,\log {\frac {p}{q}}\,{\rm {d}}\mu

.

Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением энтропии), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в битах (обычно используется в теории информации). Расхождение Кульбака — Лейблера является безразмерной величиной независимо от размерности исходных случайных величин.

Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является метрикой в пространстве распределений, поскольку не удовлетворяет неравенству треугольника и не удовлетворяет аксиоме симметричности: $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ . Тем не менее, его инфинитезимальная форма, особенно его гессиан, даёт метрический тензор, который известен как информационная метрика Фишера.

Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются f-расхождения, а также частный случай класса расхождений Брэгмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому и другому классу.

РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика»^[1].

Расстояние Кульбака — Лейблера $D_{\mathrm {KL} }(P\parallel Q)$ иногда также интерпретируют как информационный выигрыш, достигнутый, если $P$ использовано вместо $Q$ . Иногда для РКЛ используют вносящие путаницу названия относительная энтропия $P$ относительно $Q$ (обозначается $H(P\mid Q)$ ) или перекрёстная энтропия.

Существуют различные соглашения относительно того, как читать обозначение $D_{\mathrm {KL} }(P\parallel Q)$ . Часто его называют просто расхождением или расстоянием между $P$ и $Q$ , однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда говорят «расхождение $P$ из (относительно) $Q$ » или, условно говоря, «расстояние из $Q$ в $P$ » (обычно в контексте относительной энтропии или информационного выигрыша). При этом распределение $P$ интерпретируется как истинное.

Частные определения и определения через производную Радона—Никодима

Для дискретных вероятностных распределений $P$ и $Q$ с числом элементарных событий $n$ расхождение Кульбака — Лейблера распределения $Q$ относительно распределения $P$ (или «расстояние от $P$ до $Q$ ») определяется^[3] как:

D_{KL}(P\parallel Q)=\sum \limits _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

.

Другими словами, это математическое ожидание логарифмической разности между вероятностями $p$ и $q$ , где математическое ожидание берётся по распределению $P$ . РКЛ определено, только если $q_{i}=0\Rightarrow p_{i}=0$ , для всех $i=1,...,n$ (абсолютная непрерывность). Всякий раз, когда $p_{i}=0$ , вклад $i$ -го члена интерпретируется как ноль, потому что $\lim _{x\to 0}x\log(x)=0$ .

Для $k$ -мерных абсолютно непрерывных распределений $P$ и $Q$ расстояние Кульбака — Лейблера задаётся выражением^[4]

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\,p(x)\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x

,

где $p(x)$ и $q(x)$ — функции плотности распределений $P$ и $Q$ соответственно, определённые на интервале $X\subseteq R^{k}$ .

В более общем смысле, если $P$ и $Q$ — вероятностные меры на множестве $X$ , и $P$ абсолютно непрерывна относительно $Q$ , тогда РКЛ от $P$ до $Q$ определено как

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\log {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P

,

где ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ — это производная Радона — Никодима $P$ относительно $Q$ , и при условии, что выражение справа существует. Эквивалентно это может быть записано как

D_{\mathrm {KL} }(P\parallel Q)=\int _{X}\log \!\left({\frac {{\rm {d}}P}{{\rm {d}}Q}}\right){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q

.

Следует заметить, что использование производной Радона — Никодима служит формальным средством записи данных выражений, однако не раскрывает их содержательный смысл.

Функционал дивергенции Кульбака — Лейблера является безразмерным, однако его значения могут иметь различные единицы измерения. Так, если логарифмы в этих формулах берутся по основанию 2, то дивергенция (она же — информация, с точки зрения теории информации) измеряется в битах; если по основанию e (с натуральным основанием), то дивергенция (информация) измеряется в натах. Большинство формул, содержащих РКЛ, сохраняют смысл независимо от основания логарифма.

Характеризация

Артур Хобсон доказал, что расстояние Кульбака — Лейблера — это единственная мера разницы между вероятностными распределениями, которая удовлетворяет некоторым желательным свойствам, являющимся каноническими расширениями для появляющихся в часто используемых характеризациях энтропии^[5]. Следовательно, взаимная информация — это единственная мера взаимной зависимости, которая подчиняется некоторым связанным условиям, так как она может быть определена в терминах РКЛ.

Существует также Байесовская характеризация расстояния Кульбака — Лейблера^[6].

Мотивация

В теории информации теорема Крафта — Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования для кодировки сообщения для идентификации одного значения $x_{i}\subset X$ , можно рассматривать как представление неявного распределения вероятностей $q(x_{i})=2^{-I_{i}}$ над $X$ , где $I_{i}$ — длина кода для $x_{i}$ в битах. Поэтому РКЛ может быть интерпретировано как ожидаемая дополнительная длина сообщения с нулевой отметки, которая должна быть передана, если код, который является оптимальным для данного (неправильного) распределения $Q$ , используется по сравнению с использованием кода на основе истинного распределения $P$ .

${\textstyle {\begin{matrix}D_{\mathrm {KL} }(P\parallel Q)=-\sum _{x}p(x)\log q(x)+\sum _{x}p(x)\log p(x)=H(P,Q)-H(P)\,\!\end{matrix}}}$ , где $H(P,Q)$ — перекрестная энтропия $P$ и $Q$ , $H(P)$ — энтропия $P$ .

Также можно отметить, что существует связь между РКЛ и «функцией скорости» в теории больших отклонений^[7]^[8].

Свойства

Расстояние Кульбака — Лейблера всегда неотрицательно, $D_{\mathrm {KL} }(P\parallel Q)\geq 0,$ — это результат, который известен как неравенство Гиббса, $D_{KL}(P\parallel Q)=0\iff P=Q$ почти всюду. Энтропия $H(P)$ , таким образом, задаёт минимальное значение перекрестной энтропии $H(P,Q)$ , ожидаемое число дополнительных битов, требуемых, когда используется код, основанный на $Q$ , а не на $P$ . Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение $x\subset X$ , если используется код, соответствующий распределению вероятностей $Q$ , а не «истинному» распределению $P$ .
Расстояние Кульбака — Лейблера не симметрично: $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ .
Расстояние Кульбака — Лейблера остается строго определённым для непрерывных распределений и, кроме того, инвариантно относительно замены переменных. Например, если сделана замена переменной $x$ на переменную $y(x)$ , тогда, поскольку $P(x)dx=P(y)dy$ и $Q(x)dx=Q(y)dy$ , РКЛ может быть переписано в виде:

{\textstyle D_{\mathrm {KL} }(P\parallel Q)=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)\,dx=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)dy/dx}{Q(y)dy/dx}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)}{Q(y)}}\right)\,dy}

,

где

y_{a}=y(x_{a})

и

y_{b}=y(x_{b})

. Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину согласованную с размерностью, так как если

x

— размерная переменная, то

P(x)

и

Q(x)

также имеют размерность, так как

P(x)dx

является безразмерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации^[9] (такие как собственная информация или энтропия Шеннона), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.

РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если $P_{1},P_{2}$ являются независимыми распределениями с совместным распределением $P(x,y)=P_{1}(x)P_{2}(y)$ и, аналогично, $Q(x,y)=Q_{1}(x)Q_{2}(y)$ , то $D_{\mathrm {KL} }(P\parallel Q)=D_{\mathrm {KL} }(P_{1}\parallel Q_{1})+D_{\mathrm {KL} }(P_{2}\parallel Q_{2}).$

Расстояние Кульбака — Лейблера для многомерного нормального распределения

Допустим, что мы имеем два многомерных нормальных распределения, со средними $\mu _{0},\mu _{1}$ и с (обратимыми) матрицами ковариаций $\Sigma _{0},\Sigma _{1}$ . Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее^[10]:

$D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left(\mathrm {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top }\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\det \Sigma _{1} \over \det \Sigma _{0}}\right)\right).$

Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение даёт результат, измеряемый в натах. Целиком разделив это выражение на log_e2, получим распределение в битах.

Отношение к метрикам

Можно было бы назвать РКЛ «метрикой» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично $D_{\mathrm {KL} }(P\parallel Q)\neq D_{\mathrm {KL} }(Q\parallel P)$ , и не удовлетворяет неравенству треугольника. Все-таки, будучи предварительной метрикой, она порождает топологию в пространстве вероятностных распределений. Более конкретно, если $\{P_{1},P_{2},\cdots \}$ - это последовательность распределений такая, что $\lim _{n\rightarrow \infty }D_{\mathrm {KL} }(P_{n}\parallel Q)=0$ , тогда говорят, что $P_{n}{\xrightarrow {D}}Q$ . Из неравенства Пинскера следует, что — $P_{n}{\xrightarrow {\mathrm {D} }}P\Rightarrow P_{n}{\xrightarrow {\mathrm {TV} }}P$ , где последнее нужно для сходимости по вариации.

Согласно Альфреду Реньи (1970, 1961).^[11]^[12]

Информационная метрика Фишера

Однако, расстояние Кульбака — Лейблера и напрямую связано с метрикой, а именно с информационной метрикой Фишера. Предположим, что у нас имеются вероятностные распределения P и Q, они оба параметризованы одинаковым (возможно многомерным) параметром $\theta$ . Рассмотрим теперь два близких значения $P=P(\theta )$ и $Q=P(\theta _{0})$ , таких что параметр $\theta$ отличается только на небольшое число от параметра $\theta _{0}$ . А именно, разлагая в ряд Тейлора вплоть до первого порядка, имеем (используя соглашение Эйнштейна)

$P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots$ ,

где $\Delta \theta ^{j}=(\theta -\theta _{0})^{j}$ — малое изменение $\theta$ в j-м направлении, а $P_{j}(\theta _{0})={\frac {\partial P}{\partial \theta ^{j}}}(\theta _{0})$ соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть $\theta =\theta _{0}$ то РКЛ имеет второй порядок малости по параметрам $\Delta \theta ^{j}$ . Более формально, как и для любого минимума, первая производная расхождения обращается в ноль $\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\parallel P(\theta _{0}))=0,$

и разложение Тейлора начинается со второго порядка малости

$D_{\mathrm {KL} }(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots$ ,

где Гессиан $g_{jk}(\theta )$ должен быть неотрицательным. Если позволить $\theta _{0}$ изменяться (и опуская подиндекс 0), то Гессиан $g_{jk}(\theta )$ определяет (возможно, вырожденную) метрику Римана в пространстве параметра $\theta$ , называемую информационной метрикой Фишера.

Отношение к другим величинам информационной теории

Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.

Собственная информация $D_{\mathrm {KL} }(\delta _{im}\parallel \{p_{i}\})$ является РКЛ вероятностного распределения $P(i)$ из символа Кронекера, представляющего определённость в том, что $i=m$ — то есть число дополнительных бит, которые должны быть переданы для определения $i$ , если только вероятностное распределение $P(i)$ доступно для получателя, не факт, что $i=m$ .

Взаимная информация -

${\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\parallel P(X)P(Y))\\&=\operatorname {E} _{X}\{D_{\mathrm {KL} }(P(Y\mid X)\parallel P(Y))\}\\&=\operatorname {E} _{Y}\{D_{\mathrm {KL} }(P(X\mid Y)\parallel P(X))\}\end{aligned}}$

является РКЛ произведения $P(X)P(Y)$ двух маргинальных вероятностных распределений из совместного вероятностного распределения $P(X,Y)$ — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить $X$ и $Y$ , если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность $P(X,Y)$ известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения $Y$ , если значение $X$ уже не известны получателю.

Энтропия Шеннона -

${\begin{aligned}\mathrm {H} (X)&=\operatorname {E} [\operatorname {I} _{X}(x)]\\&=\log(N)-D_{\text{KL}}(P(X)\parallel P_{U}(X))\end{aligned}}$

это число битов, которые должны быть переданы для идентификации $X$ из $N$ одинаково вероятных исходов, это меньше, чем РКЛ равномерного распределения $P_{U}(X)$ из истинного распределения $P(X)$ — то есть меньше ожидаемого числа сохранённых битов, которые должны быть отправлены, если значение $X$ закодировано согласно с равномерным распределением $P_{U}(X)$ , а не истинным распределение $P(X)$ .

Условная энтропия -

${\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\&=\log(N)-\operatorname {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\parallel P_{U}(X)){\bigr ]}\end{aligned}}$

это число битов, которые должны быть переданы для идентификации $X$ из $N$ одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений $P_{U}(X)$ из истинного совместного распределения $P(X,Y)$ — то есть меньше ожидаемого числа сохранённых битов, которые должны быть отправлены, если значение $X$ закодировано согласно с равномерным распределением $P_{U}(X)$ , а не с условным распределением $P(X\mid Y)$ данных $X$ и $Y$ .

Перекрёстная энтропия между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности $Q$ , а не «истинного» распределения $P$ . Перекрёстная энтропия для двух распределений $P$ и $Q$ над тем же вероятностным пространством определяется так: $H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\parallel q).$

Расстояние Кульбака — Лейблера и Байесовская модификация

В Байесовской статистике Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от априорного к апостериорному вероятностному распределению. Если обнаружен некоторый новый факт $Y=y$ , оно может быть использовано для модификации (априорного) распределения вероятностей $p(x\mid I)$ для $X$ в новое (апостериорное) распределение вероятностей $p(x\mid y,I)$ используя Теорему Байеса:

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}.

Это распределение имеет новую энтропию

H{\big (}p(\cdot \mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

которая может быть меньше или больше, чем изначальная энтропия $H{\big (}p(\cdot \mid I){\big )}$ . Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на $p(x\mid I)$ вместо нового кода, основанного на $p(x\mid y,I)$ , добавило бы ожидаемое число битов — $D_{\mathrm {KL} }{\big (}p(\cdot \mid y,I)\mid p(\cdot \mid I){\big )}=\sum _{x}p(x\mid y,I)\log {\frac {p(x\mid y,I)}{p(x\mid I)}}$ к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно $X$ , которое было получено при обнаружении, что $Y=y$ .

Если впоследствии приходит ещё один фрагмент данных, $Y_{2}=y_{2}$ , то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение $p(x\mid y_{1},y_{2},I)$ . Если исследовать заново информационный выигрыш для использования $p(x\mid y_{1},I)$ , а не $p(x\mid I)$ , оказывается, что это может быть больше или меньше, чем предполагалось ранее: $\sum _{x}p(x\mid y_{1},y_{2},I)\log {\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}$ , может быть $\leq$ или $>$ , чем $\displaystyle \sum _{x}p(x\mid y_{1},I)\log {\frac {p(x\mid y_{1},I)}{p(x\mid I)}}$ , и поэтому общий информационный выигрыш не выполняет неравенство треугольника:

$D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\parallel p(\cdot \mid I){\big )}$ , может быть больше, меньше или равно $D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\parallel p(\cdot \mid y_{1},I){\big )}+D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},I)\parallel p(x\mid I){\big )}.$

Все, что можно сказать, что в среднем, беря среднее, используя $p(y_{2}\mid y_{1},x,I)$ , обе стороны будут давать среднее значение.

Экспериментальная модель Байеса

Широко распространённая цель в экспериментальной модели Байеса — максимизировать ожидаемое РКЛ между априорным и апостериорным распределениями.^[13] Когда апостериорное приближено к Гауссовому распределению, модель, максимизирующая ожидаемое РКЛ, называется Байеса d-оптимальное.

Различающая информация

Расстояние Кульбака — Лейблера $D_{\mathrm {KL} }(p(x\mid H_{1})\parallel p(x\mid H_{0}))$ может также быть интерпретировано как ожидаемая различающая информация для $H_{1}$ над $H_{0}$ : средняя информация на одну выборку для различия в пользу гипотезы $H_{1}$ , против гипотезы $H_{0}$ , когда гипотеза $H_{1}$ верна^[14]. Ещё одно имя для этой величины, данное Ирвингом Джоном Гудом, это ожидаемая масса доказательства для $H_{1}$ над $H_{0}$ , ожидаемая из каждой выборки.

Ожидаемая масса доказательства для $H_{1}$ над $H_{0}$ это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения p(H) гипотезы, $D_{\mathrm {KL} }(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\mathrm {KL} }(p(H\mid x)\parallel p(H\mid I)).$ .

Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.

В шкале энтропии информационного выигрыша очень маленькая разница между почти уверенностью и полной уверенностью — кодирование с почти полной уверенностью вряд ли потребует больше битов, чем кодирование с полной уверенностью. С другой стороны, в logit шкале подразумевается вес доказательств, и разница между двумя огромна, едва ли не бесконечна. Это может отражать разницу между почти уверенностью (на вероятностном уровне), скажем, в том, что Гипотеза Римана верна, и с полной уверенностью, что она верна, потому что имеется математическое доказательство. Две разные шкалы функции потерь для неопределённости обе являются полезными, согласно с тем, насколько хорошо каждая отражает конкретные обстоятельства рассматриваемой проблемы в задаче.^{[уточнить]}

Принцип минимальной различающей информации

Идея РКЛ как различающей информации привела Кульбака к предположению Принципа Минимальной различающей информации (англ. Minimum Discrimination Information, MDI): учитывая новые факты, новое распределение $f$ следует выбрать, из тех, которые трудно отличить от первоначального распределения $f_{0}$ ; потому что новые данные производят так мало информационного выигрыша $D_{KL}(f\parallel f_{0})$ как только возможно.

Например, если мы имеем априорное распределение $p(x,a)$ над $x$ и $a$ , и потом изучим истинное распределение $a$ и $u(a)$ . РКЛ между новым совместным распределением для $x$ и $a$ , $q(x\mid a)u(a)$ , и прежнего априорного распределения было бы: $D_{\mathrm {KL} }(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\{D_{\mathrm {KL} }(q(x\mid a)\parallel p(x\mid a))\}+D_{\mathrm {KL} }(u(a)\parallel p(a)),$

то есть сумма РКЛ $p(a)$ априорного распределения для $a$ из обновлённого распределения $u(a)$ , плюс ожидаемое значение (используемое вероятностное распределение $u(a)$ ) РКЛ априорного условного распределения $p(x\mid a)$ из нового распределения $p(x\mid a)$ . (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается $D_{KL}(q(x\mid a)\parallel p(x\mid a))$ ^[15]. Это минимизирует, если $q(x\mid a)=p(x\mid a)$ над общим содержанием $u(a)$ . И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение $u(a)$ это по факту функция, уверенно представляющая, что $a$ имеет одно частное значение.

Минимальная различающая информация может быть рассмотрена как расширение Принципа безразличия Лапласа (другое его название — принцип недостаточного основания) и Принципа максимума энтропии Джейнса. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона становится не очень удобной (см. дифференциальная энтропия), но РКЛ продолжает быть столь же актуальной.

В инженерной литературе, MDI иногда называется принципом минимума перекрёстной энтропии. Минимизация РКЛ $m$ из $p$ в отношении $m$ эквивалентна минимизации перекрёстной энтропии $p$ и $m$ , так $H(p,m)=H(p)+D_{\mathrm {KL} }(p\parallel m),$ который подходит, если попытаться выбрать точное приближенное значение до $p$ .

Пример использования

Пусть по выборке $x_{1},x_{2},\dotsc ,x_{n}$ из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства $f(x,\theta )$ , где $x\in X\subseteq R$ — аргумент функции, $\theta$ — неизвестный параметр. Оценка параметра $\theta$ может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью $f(x,\theta )$ и эмпирической плотностью распределения, считающейся «истинной»,

{\hat {f}}(x)={\frac {1}{n}}\sum \limits _{i=1}^{n}\mathbf {\delta } (x-x_{i})

,

где $\delta$ — функция Дирака:

{\hat {\theta }}=\operatorname {arg} {\underset {\theta }{\operatorname {min} }}D_{KL}({\hat {f}}(x),f(x,\theta ))=\operatorname {arg} {\underset {\theta }{\operatorname {max} }}\int \limits _{X}^{}{\hat {f}}(x)\ln f(x,\theta )\,dx=\operatorname {arg} {\underset {\theta }{\operatorname {max} }}\sum \limits _{i=1}^{n}\mathbf {\ln } f(x_{i},\theta )

.

Нетрудно видеть, что решение этой задачи приводит к оценке максимального правдоподобия для параметра $\theta$ . В случае если фактическая плотность распределения случайной величины не принадлежит семейству $f(x,\theta )$ , найденная оценка ${\hat {\theta }}$ параметра $\theta$ называется квазиправдоподобной и обеспечивает наилучшую аппроксимацию фактического распределения, представленного выборкой, среди распределений с плотностями $f(x,\theta )$ с точки зрения расстояния Кульбака — Лейблера.

Примечания

↑ ¹ ² Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.
↑ Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
↑ MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.
↑ Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.
↑ Hobson, Arthur. Concepts in statistical mechanics. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.
↑ Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..
↑ И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.
↑ Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.
↑ Relative Entropy (неопр.). videolectures.net. Дата обращения: 14 июня 2016. Архивировано 25 декабря 2018 года.
↑ Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.
↑ Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..
↑ Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.
↑ Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.
↑ Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .
↑ Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.

[:0-1] ¹ ² Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.

[2] Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.

[3] MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.

[4] Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.

[5] Hobson, Arthur. Concepts in statistical mechanics. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.

[6] Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..

[7] И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.

[8] Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.

[9] Relative Entropy (неопр.). videolectures.net. Дата обращения: 14 июня 2016. Архивировано 25 декабря 2018 года.

[10] Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.

[11] Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..

[12] Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.

[13] Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.

[14] Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .

[15] Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]