Достаточная статистика

Достаточная статистика для параметра $\theta \in \Theta ,\;$ определяющая некоторое семейство $F_{\theta }$ распределений вероятности — статистика $T=\mathrm {T} (X)\;$ такая, что условная вероятность выборки $X=X_{1},X_{2},\ldots ,X_{n}\;$ при данном значении $\mathrm {T} (X)\;$ не зависит от параметра $\theta \;.$ То есть выполняется равенство:

\mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t,\theta )=\mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t),

Достаточная статистика $\mathrm {T} (X),\;$ таким образом, содержит в себе всю информацию о параметре $\theta \;$ , которая может быть получена на основе выборки X. Поэтому понятие достаточной статистики широко используется в теории оценки параметров.

Наиболее простой достаточной статистикой является сама выборка $\mathrm {T} (X)=X\;$ , однако действительно важными являются случаи, когда размерность достаточной статистики значительно меньше размерности выборки, в частности, когда достаточная статистика выражается лишь несколькими числами.

Достаточная статистика $S=\mathrm {S} (X)\;$ называется минимально достаточной, если для каждой достаточной статистики T существует неслучайная измеримая функция g, что $S(X)=g(T(X))$ почти всюду.

Теорема факторизации

Теорема факторизации даёт способ практического нахождения достаточной статистики для распределения вероятности. Она даёт достаточные и необходимые условия достаточности статистики и утверждение теорем иногда используется в качестве определения.

Пусть $\mathrm {T} (X)\;$ — некоторая статистика, а $f_{\theta }(x)$ — условная функция плотности или функция вероятности (в зависимости от вида распределения) для вектора наблюдений X. Тогда $\mathrm {T} (X)\;$ является достаточной статистикой для параметра $\theta \in \Theta \;$ , тогда и только тогда, когда существуют такие измеримые функции $h$ и $g$ , что можно записать:

f_{\theta }(x)=h(x)\,g(\theta ,\mathrm {T} (x))

Доказательство

Ниже приведено доказательство для частного случая, когда распределение вероятностей является дискретным. Тогда $f_{\theta }(x)=\mathbb {P} (X=x|\theta )$ — Функция вероятности.

Пусть данная функция имеет факторизацию, как в формулировке теоремы, и $\mathrm {T} (x)=t.$

Тогда имеем:

{\begin{aligned}\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )&={\frac {\mathbb {P} (X=x|\theta )}{\mathbb {P} (\mathrm {T} (X)=t|\theta )}}&={\frac {h(x)\,g(\theta ,\mathrm {T} (x))}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,\mathrm {T} (x))}}\\&={\frac {h(x)\,g(\theta ,t)}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,t)}}&={\frac {h(x)\,}{\sum _{x:\mathrm {T} (x)=t}h(x)\,}}.\end{aligned}}

Отсюда видим, что условная вероятность вектора X при заданном значении статистики $\mathrm {T} (X)\;$ не зависит от параметра и соответственно $\mathrm {T} (X)\;$ — достаточная статистика.

Наоборот можем записать:

\mathbb {P} (X=x|\theta )=\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )\cdot \mathbb {P} (\mathrm {T} (X)=t|\theta ).

Из приведённого выше имеем, что первый множитель правой части не зависит от параметра $\theta$ и его можно взять за функцию $h(x)$ из формулировки теоремы. Другой множитель является функцией от $\theta \;$ и $\mathrm {T} (X),\;$ и его можно взять за функцию $g(\theta ,\mathrm {T} (x)).$ Таким образом, получена необходимая декомпозиция, что завершает доказательство теоремы.

Примеры

Распределение Бернулли

Пусть $X_{1},X_{2},\ldots ,X_{n}\;$ — последовательность случайных величин, что равны 1 с вероятностью $p$ и равны 0 с вероятностью $1-p$ (то есть, имеют распределение Бернулли). Тогда

\mathbb {P} (x_{1},\ldots x_{n}|p)=p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{\mathrm {T} (x)}(1-p)^{n-\mathrm {T} (x)},

если взять $\mathrm {T} (X)=X_{1}+\ldots +X_{n}.$

Тогда данная статистика является достаточной согласно теореме факторизации, если обозначить

g(p,\mathrm {T} (x_{1},\ldots x_{n}))=p^{\mathrm {T} (x_{1},\ldots x_{n})}(1-p)^{n-\mathrm {T} (x_{1},\ldots x_{n})},

h(x_{1},\ldots x_{n})=1.

Распределение Пуассона

Пусть $X_{1},X_{2},\ldots ,X_{n}\;$ — последовательность случайных величин с распределением Пуассона. Тогда

\mathbb {P} (x_{1},\ldots x_{n}|\lambda )={e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}=e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}

где $\mathrm {T} (X)=X_{1}+\ldots +X_{n}.$

Данная статистика является достаточной согласно теореме факторизации, если обозначить

g(\lambda ,\mathrm {T} (x_{1},\ldots x_{n}))=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}

h(x_{1},\ldots x_{n})={1 \over x_{1}!x_{2}!\cdots x_{n}!}

Равномерное распределение

Пусть $X_{1},X_{2},\ldots ,X_{n}\;$ — последовательность равномерно распределённых случайных величин $X_{1},X_{2},\ldots ,X_{n}\;~U(a,b)$ . Для этого случая

\mathbb {P} (x_{1},\ldots x_{n}|a,b)=\left(b-a\right)^{-n}\mathbf {1} _{\{a\,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,b\}}.

Отсюда следует, что статистика $T(X)=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ является достаточной.

Нормальное распределение

Для случайных величин $X_{1},X_{2},\ldots ,X_{n}\;$ с нормальным распределением ${\mathcal {N}}(\mu ,\,\sigma ^{2})$ достаточной статистикой будет $\mathrm {T} (X)=\left(\sum _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}^{2}\right)\,.$

Свойства

Для достаточной статистики T и биективного отображения $\phi$ статистика $\phi (T)$ тоже является достаточной.
Если $\delta (X)$ — статистическая оценка некоторого параметра $\theta ,$ $\mathrm {T} (X),\;$ — некоторая достаточная статистика и $\delta _{1}(X)={\textrm {E}}[\delta (X)|T(X)]$ то $\delta _{1}(X)$ является лучшей оценкой параметра в смысле среднеквадратичного отклонения, то есть выполняется неравенство

{\textrm {E}}[(\delta _{1}(X)-\theta )^{2}]\leq {\textrm {E}}[(\delta (X)-\theta )^{2}]

причём равенство достигается лишь когда

\delta

является измеримой функцией от T. (Теорема Рао — Блэквелла — Колмогорова)

Из предыдущего получается, что оценка может быть оптимальной в смысле среднеквадратичного отклонения лишь когда она является измеримой функцией минимальной достаточной статистики.
Если статистика $T=\mathrm {T} (X),\;$ является достаточной и полной (то есть, из того, что $E_{\theta }[g(T(X))]=0,\,\forall \theta \in \Theta$ следует, что $P_{\theta }(g(T(X))=0)=1\,\forall \theta \in \Theta$ ), то произвольная измеримая функция от неё является оптимальной оценкой своего математического ожидания.

См. также

Литература

Kholevo, A.S. (2001), «Sufficient statistic», in Hazewinkel, Michiel, Encyclopaedia of Mathematics, Springer, ISBN 978-1-55608-010-4
Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer. Chapter 4. ISBN 0-387-98502-6.
Леман Э. Теория точечного оценивания. — М.: Наука, 1991. — 448 с. — ISBN 5-02-013941-6.