Статистика (функция выборки)

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Определение

править

Пусть задана случайная выборка   наблюдений  . Как правило, поскольку речь идёт о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки  , которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, то есть определены вероятности её попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении оценки и прочие статистические выводы.

Пример

править

Предположим, что имеется числовая выборка  , элементы которой имеют нормальное распределение  . Допустим, что значение параметра   (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения   неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

 

Однако если значение параметра   также неизвестно, то данная функция не является статистикой. В этом случае её по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание   равно  ), однако вычислить её числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра   строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения   являются числовыми,  .

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)

править
  • Выборочное среднее:
     
  • Выборочная дисперсия:
     .
  • Несмещённая оценка дисперсии:
     
  • Выборочный момент  -го порядка (выборочное среднее — момент первого порядка):
     .
  • Выборочный центральный момент  -го порядка (выборочная дисперсия — центральный момент второго порядка):
     .
  • Несмещённые оценки центральных моментов:
     ;
     ;
     .

Выборочный коэффициент асимметрии

править

Выборочный коэффициент асимметрии:

 .

Если плотность распределения симметрична, то  . Если левый хвост распределения «тяжелее», то  , если «тяжелее» правый хвост — то  .

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

править

Выборочный коэффициент эксцесса:

 .

Нормальное распределение имеет нулевой эксцесс:  .

Если хвосты распределения «легче», а пик «острее», чем у нормального распределения, то  .

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то  .

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

править

Эмпирическое распределение случайной величины  , построенное по случайной выборке  , есть функция:

 .

При любом фиксированном   значение   можно рассматривать как статистику.

Порядковые статистики

править

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки   путём упорядочивания её элементов по возрастанию:

 .

Значение   называется  -й порядковой статистикой.

  • Выборочный  -квантиль при  :
     
  • Размах выборки:
     .
  • Выборочная медиана:
     .

Ранговые статистики

править

Значение   называется рангом элемента выборки  , если  .

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов  , а не от их значений  . Переход от значений к их рангам позволяет строить непараметрические статистические критерии, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические критерии.

Средний ранг

править

Аналогом выборочного среднего является средний ранг:

 

Линейные ранговые статистики

править

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при  . Линейная ранговая статистика в общем случае имеет вид:

 ,

где   — произвольная заданная числовая матрица размера  .

Литература

править

Ссылки

править