Перекрёстная энтропия

В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей $q$ , вместо «истинного» распределения $p$ .

Перекрестная энтропия для двух распределений $p$ и $q$ над одним и тем же вероятностным пространством определяется следующим образом:

\mathrm {H} (p,q){\stackrel {\mathrm {df} }{\;=\;}}\mathrm {E} _{p}[-\log q]=\mathrm {H} (p)+D_{\mathrm {KL} }(p\|q)

,

где $H(p)$ — энтропия $p$ , и $D_{\mathrm {KL} }(p||q)$ — расстояние Кульбака—Лейблера от $p$ до $q$ (также известная как относительная энтропия).

Для дискретного $p$ и $q$ это означает

\mathrm {H} (p,q)=-\sum _{x}p(x)\,\log q(x).

Ситуация для непрерывного распределения аналогична:

\mathrm {H} (p,q)=-\int \limits _{X}p(x)\,\log q(x)\,dx.

Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.

NB: Запись $\mathrm {H} (p,q)$ иногда используется как для перекрёстной энтропии, так и для совместной энтропии $p$ и $q$ .

Минимизация перекрёстной энтропии

Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.

См. также

Информационная энтропия