Байесовская оценка решения

В математической статистике и теории принятия решений байесовская оценка решения — это статистическая оценка, минимизирующая апостериорное математическое ожидание функции потерь (то есть апостериорное ожидание потерь). Иначе говоря, она максимизирует апостериорное математическое ожидание функции полезности. В рамках теории Байеса данную оценку можно определить как оценку апостериорного максимума.

Определение

Предположим, что неизвестный параметр $\theta$ имеет априорное распределение $\pi$ . Пусть ${\hat {\theta }}={\hat {\theta }}(x)$ — оценка параметра $\theta$ , основанная на некоторых измерениях $x$ , и пусть $L(\theta ,{\hat {\theta }})$ — квадратичная функция потерь, а байесовский риск параметра ${\hat {\theta }}$ — это $E_{\pi }(L(\theta ,{\hat {\theta }}))$ , где математическое ожидание берётся по распределению $\theta$ : это определяет функцию риска как функцию от ${\hat {\theta }}$ . Тогда байесовской оценкой будет называться такая оценка ${\hat {\theta }}$ , которая минимизирует байесовский риск среди всех прочих оценок. Равнозначно оценка, минимизирующая апостериорные ожидаемые потери $E(L(\theta ,{\hat {\theta }})\mid x)$ для каждого x, также минимизирует байесовский риск и таким образом является байесовской оценкой.^[1]

В случае некорректного априорного распределения оценка, минимизирующая апостериорное ожидание потерь для каждого x, называется обобщённой байесовской оценкой.^[2]

Примеры

Оценка минимальной среднеквадратичной ошибки

Наиболее часто используемой функцией риска для байесовской оценки является функция среднеквадратичной ошибки (в англоязычной литературе обозначаемая как MSE).Minimum mean square error^[англ.] MSE определяется как $\mathrm {MSE} =E\left[({\widehat {\theta }}(x)-\theta )^{2}\right],$

где математическое ожидание берётся по совместному распределению $\theta$ и $x$ .

Апостериорное среднее

Если использовать MSE как функцию риска, то байесовская оценка неизвестного параметра — это просто среднее апостериорного распределения:^[3]

${\widehat {\theta }}(x)=E[\theta |x]=\int \theta p(\theta |x)\,d\theta .$

Это известно как оценка минимальной среднеквадратичной ошибки. Байесовский риск, в этом случае, это апостериорная дисперсия.

Байесовский риск для сопряжённого априорного распределения

В тех случаях, когда нет веских причин предпочесть одно априорное распределение вероятности над другим, для простоты используется cопряжённое априорное распределение. Оно определяется как априорное распределение, принадлежащее некоторому параметрическому семейству, чьё результирующее апостериорное распределение также принадлежит этому семейству. Это важное свойство, поскольку байесовская оценка, а также его статистические характеристики (дисперсия, доверительный интервал и т. д.) могут быть получены из апостериорного распределения.

Оно, в частности, применимо в последовательном оценивании, где апостериорное распределение текущих измерений используется как априорное в следующем измерении. С каждой новой итерацией таких измерений апостериорное распределение обычно становится всё более сложным, и часто байесовская оценка не может вычислена без использования численных методов.

Несколько примеров сопряжённых априорных распределений:

Если x|θ распределен нормально, x|θ ~ N(θ,σ²) и априорное распределение тоже нормально, θ ~ N(μ,τ²), тогда апостериорное распределение тоже имеет нормальное распределение и байесовская оценка под MSE задаётся как:

${\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.$

Если x₁,…,x_n — независимые одинаково распределённые по Пуассону случайные величины x_i|θ ~ P(θ), и если априорное распределено по гамма-распределению θ ~ G(a, b), тогда апостериорное тоже имеет гамма-распределение, и байесовская оценка под MSE задаётся как:

${\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+{\frac {1}{b}}}}.$

Если x₁,…,x_n независимые одинаково непрерывно равномерно распределенные случайные величины x_i|θ~U(0,θ), а априорное имеет распределение Парето θ~Pa(θ₀,a), тогда апостериорное также имеет распределение Парето, и байесовская оценка под MSE задаётся как:

${\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})}}{a+n-1}}.$

Альтернативные функции риска

Функции риска выбираются в зависимости от того, как измеряется интервал между оценкой и неизвестным параметром. MSE наиболее часто используемая функция риска, в первую очередь из-за её простоты. Тем не менее, иногда используются и альтернативные функции риска. Далее идут несколько примеров таких альтернатив. Далее апостериорная обобщённая функция распределения обозначена как $F$ .

Апостериорная медиана и другие квантили

«Линейная» функция потерь с $a>0$ , выбирающая медиану апостериорного распределения как байесовскую оценку:

L(\theta ,{\widehat {\theta }})=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta }}(x)|X)={\tfrac {1}{2}}.

Другая «линейная» функция потерь, назначающая разные «веса» $a,b>0$ сверху или снизу оценки. Она выбирает квантиль из апостериорного распределения и является обобщением предыдущей функции потерь.

L(\theta ,{\widehat {\theta }})={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\end{cases}}

F({\widehat {\theta }}(x)|X)={\frac {a}{a+b}}.

Оценка апостериорного максимума

Следующая функция потерь более сложная: она устанавливает оценку апостериорного максимума или точку, близкую к ней, в зависимости от кривизны и характеристик апостериорного распределения. Маленькие значения параметра $K>0$ рекомендованы для использования метода как приближения

( $L>0$ ):

L(\theta ,{\widehat {\theta }})={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\\L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Несмотря на то, что функция среднеквадратичной ошибки наиболее распространена и обоснованна, можно использовать и другие функции потерь.

Обобщённые байесовские оценки

До сих пор предполагалось, что априорное распределение $p$ — это истинное вероятностное распределение, так как

\int p(\theta )d\theta =1.

Однако, порой это может быть слишком жестким требованием. Например, не существует такого распределения (покрывающего всё множество R вещественных чисел), для которого каждое вещественное число было бы равновозможным. Однако же, в некотором смысле, такое распределение кажется естественным выбором для неинформативного априорного распределения, то есть для априорного распределения, не отдающего предпочтения некоторому фиксированному значению неизвестного параметра. По прежнему можно определить функцию $p(\theta )=1$ , но это уже не будет корректным вероятностным распределением, так как оно имеет бесконечную массу.

\int {p(\theta )d\theta }=\infty .

Такие меры множества $p(\theta )$ являются некорректными априорными распределениями.

Использование некорректных априорных распределений означает, что байесовский риск не определён (так как данное априорное распределение, по факту, не является вероятностным распределением и мы не можем взять Математическое ожидание от него). Следовательно, неверно говорить о байесовской оценке минимизирующей байесовский риск. Как бы то ни было, можно вычислить апостериорное распределение как

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta }}.

Не стоит забывать, что Теорема Байеса применима только к корректным распределениям, и значит не представляется возможным использование её здесь. Тем не менее, нередко встречаются случаи, когда для результирующего апостериорного распределения будет допустимы такие вероятностные распределения. В этом случае, апостериорные ожидаемые потери

$\int {L(\theta ,a)p(\theta |x)d\theta }$

хорошо определены и конечны. Напомним, что для корректного распределения байесовские оценки минимизируют апостериорные потери. Когда априорное распределение некорректно, оценка минимизирующая апостериорное ожидание потери называется обобщённой байесовской оценкой.

Эмпирические байесовские оценки

Байесовские оценки, полученные эмпирическим методом Байеса, называются эмпирическими байесовскими оценками. Этот метод позволяет использовать вспомогательные данные в разработке байесовской оценки. Их можно получить эмпирически, путём наблюдения за смежными параметрами. Это делается исходя из предположения, что оцениваемые параметры берутся из одних и тех же априорных данных. Например, если произвести независимые наблюдения за разными параметрами, то иногда можно улучшить эффективность оценки конкретного параметра путём использования данных из других наблюдений.

Существуют параметрические и непараметрические методики эмпирических байесовских оценок. Параметрические предпочтительнее, потому что более применимы и более аккуратны на небольших объёмах данных.^[4]

Свойства

Допустимость

Байесовские правила, имеющие конечный байесовский риск обычно являются допустимыми. Далее приведены некоторые примеры теорем о допустимости.

Если байесовское решающее правило уникально, значит оно приемлемо.^[5] К примеру, как указано выше, под среднеквадратической ошибкой (MSE) байесовское правило уникально и, следовательно, допустимо.
Если параметр θ принадлежит дискретному множеству, тогда все байесовские правила допустимы.
Если параметр θ принадлежит непрерывному (не-дискретному множеству), и функция риска R(θ,δ) непрерывна в θ для каждого δ, тогда все байесовские правила допустимы.

В то же время, обобщённое байесовское правило часто не определяет байесовский риск в случае некорректного априорного распределения. Эти правила часто недопустимы и подтверждение их допустимости может вызвать затруднения. Для примера, обобщённая байесовская оценка сдвига параметра θ, основанная на выборке с нормальным распределением, недопустима для $p>2$ . Этот парадокс известен как парадокс Штайна.Stein's example^[англ.]

Практические примеры использования байесовских оценок

Сайт Internet Movie Database использует специальную формулу для расчёта и сравнения рейтингов фильмов пользователями. Следующая байесовская формула изначально использовалась для расчёта взвешенного среднего показателя для Топ-250 фильмов, впрочем с тех пор формула изменилась:

W={Rv+Cm \over v+m}\

где:

W\

= взвешенный рейтинг

R\

= средний рейтинг фильма, выраженный числом от 1 до 10 = (рейтинг)

v\

= количество голосов за фильм = (голоса)

m\

= вес, поставленный априорной оценкой (оценка основывается на распределении среднего рейтинга среди всех фильмов)

C\

= средняя оценка по всем фильмам (в настоящее время равняется 7.0)

Подход IMDB гарантирует, что фильм, оцененный несколько сот раз исключительно оценкой 10 не сможет подняться в рейтинге выше, чем, например, фильм «Крёстный отец», со средней оценкой 9.2 от более чем 500,000 пользователей.

См. также

Байесовское программирование

Примечания

↑ Lehmann and Casella, Theorem 4.1.1
↑ Lehmann and Casella, Definition 4.2.9
↑ Jaynes, E.T. Probability theory : the logic of science (англ.). — 5. print.. — Cambridge [u.a.]: Cambridge University Press, 2007. — P. 172. — ISBN 978-0-521-59271-0.
↑ Berger (1980), section 4.5.
↑ Lehmann and Casella (1998), Theorem 5.2.4.

Ссылки

http://info.alnam.ru/book_osr.php?id=91 Архивная копия от 24 июля 2017 на Wayback Machine
http://lib.alnam.ru/book_inst.php?id=24 Архивная копия от 7 декабря 2016 на Wayback Machine
Интуитивное объяснение теоремы Байеса Архивная копия от 24 августа 2015 на Wayback Machine

[1] Lehmann and Casella, Theorem 4.1.1

[L&C-2] Lehmann and Casella, Definition 4.2.9

[3] Jaynes, E.T. Probability theory : the logic of science (англ.). — 5. print.. — Cambridge [u.a.]: Cambridge University Press, 2007. — P. 172. — ISBN 978-0-521-59271-0.

[4] Berger (1980), section 4.5.

[5] Lehmann and Casella (1998), Theorem 5.2.4.

[1]

[2]

[3]

[4]

[5]