В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей , вместо «истинного» распределения .

Перекрестная энтропия для двух распределений и над одним и тем же вероятностным пространством определяется следующим образом:

,

где энтропия , и расстояние Кульбака—Лейблера от до (также известная как относительная энтропия).

Для дискретного и это означает

Ситуация для непрерывного распределения аналогична:

Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.

NB: Запись иногда используется как для перекрёстной энтропии, так и для совместной энтропии и .

Минимизация перекрёстной энтропии

править

Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.


См. также

править