Предположим, что нам нужно оценить cтатистический параметр
θ
{\displaystyle \theta }
на основе наблюдений
x
{\displaystyle x}
. Пусть
f
{\displaystyle f}
— выборочное распределение
x
{\displaystyle x}
, так что
f
(
x
|
θ
)
{\displaystyle f(x|\theta )}
— вероятность
x
{\displaystyle x}
при условии , что параметр выборки принимает значение
θ
{\displaystyle \theta }
. Тогда функция
θ
↦
f
(
x
|
θ
)
{\displaystyle \theta \mapsto f(x|\theta )}
— функция правдоподобия , а оценка
θ
^
M
L
(
x
)
=
arg
max
θ
f
(
x
|
θ
)
{\displaystyle {\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )}
— оценка максимального правдоподобия
θ
{\displaystyle \theta }
.
Теперь предположим, что существует априорное распределение
g
{\displaystyle g}
величины
θ
{\displaystyle \theta }
. Это позволяет рассматривать
θ
{\displaystyle \theta }
как случайную величину в байесовской статистике . Тогда апостериорное распределение
θ
{\displaystyle \theta }
:
θ
↦
f
(
x
|
θ
)
g
(
θ
)
∫
Θ
f
(
x
|
θ
′
)
g
(
θ
′
)
d
θ
′
{\displaystyle \theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}}
где
g
{\displaystyle g}
плотность распределения
θ
{\displaystyle \theta }
,
Θ
{\displaystyle \Theta }
— область определения
g
{\displaystyle g}
. Это прямое приложение Теоремы Байеса .
Метод оценки апостериорного максимального правдоподобия даёт оценку
θ
{\displaystyle \theta }
как моды апостериорного распределения этой случайной величины:
θ
^
M
A
P
(
x
)
=
arg
max
θ
f
(
x
|
θ
)
g
(
θ
)
∫
Θ
f
(
x
|
θ
′
)
g
(
θ
′
)
d
θ
′
=
arg
max
θ
f
(
x
|
θ
)
g
(
θ
)
{\displaystyle {\hat {\theta }}_{\mathrm {MAP} }(x)=\arg \max _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{\theta }f(x|\theta )\,g(\theta )}
Знаменатель апостериорного распределения не зависит от
θ
{\displaystyle \theta }
и поэтому не играет роли в оптимизации. Заметим, что MAP-оценка
θ
{\displaystyle \theta }
соответствует ML-оценке, когда априорное распределение
g
{\displaystyle g}
постоянно (то есть
g
{\displaystyle g}
— константа ).
Предположим, что у нас есть последовательность
(
x
1
,
…
,
x
n
)
{\displaystyle (x_{1},\dots ,x_{n})}
i.i.d.
N
(
μ
,
σ
v
2
)
{\displaystyle N(\mu ,\sigma _{v}^{2})}
случайных величин и априорное распределение
μ
{\displaystyle \mu }
задано
N
(
0
,
σ
m
2
)
{\displaystyle N(0,\sigma _{m}^{2})}
. Мы хотим найти MAP оценку
μ
{\displaystyle \mu }
.
Функция, которую нужно максимизировать задана
π
(
μ
)
L
(
μ
)
=
1
2
π
σ
m
exp
(
−
1
2
(
μ
σ
m
)
2
)
∏
j
=
1
n
1
2
π
σ
v
exp
(
−
1
2
(
x
j
−
μ
σ
v
)
2
)
,
{\displaystyle \pi (\mu )L(\mu )={\frac {1}{\sqrt {2\pi \sigma _{m}}}}\exp \left(-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}\right)\prod _{j=1}^{n}{\frac {1}{\sqrt {2\pi \sigma _{v}}}}\exp \left(-{\frac {1}{2}}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right),}
что эквивалентно минимизации
μ
{\displaystyle \mu }
в
∑
j
=
1
n
(
x
j
−
μ
σ
v
)
2
+
(
μ
σ
m
)
2
.
{\displaystyle \sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}+\left({\frac {\mu }{\sigma _{m}}}\right)^{2}.}
Таким образом, мы видим, что MAP оценка для μ задана
μ
^
M
A
P
=
σ
m
2
n
σ
m
2
+
σ
v
2
∑
j
=
1
n
x
j
.
{\displaystyle {\hat {\mu }}_{MAP}={\frac {\sigma _{m}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\sum _{j=1}^{n}x_{j}.}
DeGroot, Morris H. Optimal Statistical Decisions. McGraw-Hill. 1970.
Harold W. Sorenson . Parameter Estimation: Principles and Problems. Marcel Dekker. 1980.