Линейная регрессия

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости.

y=ax+b
Пример линии (красная), построенной с использованием линейной регрессии

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Определение

править

Регрессионная модель

 

где   — параметры модели,   — случайная ошибка модели; называется линейной регрессией, если функция регрессии   имеет вид

 ,

где   — параметры (коэффициенты) регрессии,   — регрессоры (факторы модели), k — количество факторов модели[1].

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

 

Параметр  , при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

 ,

где   — вектор регрессоров,   — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия

править

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

 

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

 

Примеры

править

Модель затрат организации (без указания случайной ошибки)

править
 
  •   — общие затраты
  •   — постоянные затраты (не зависящие от объёма производства)
  •   — переменные затраты, пропорциональные объёму производства
  •   — удельные или средние (на единицу продукции) переменные затраты
  •   — объём производства.

Простейшая модель потребительских расходов (Кейнс)

править
 
  •   — потребительские расходы
  •   — располагаемый доход
  •   — «предельная склонность к потреблению»
  •   — автономное (не зависящее от дохода) потребление.

Матричное представление

править

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда   — значение переменной y в t-м наблюдении,   — значение j-го фактора в t-м наблюдении. Соответственно,   — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

 

Введём обозначения:

  — вектор наблюдений зависимой переменой y
  — матрица факторов.
  — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

 

Классическая линейная регрессия

править

В классической линейной регрессии предполагается, что наряду со стандартным условием   выполнены также следующие предположения (условия Гаусса — Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели:  
  2. Отсутствие автокорреляции случайных ошибок:  

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок:  

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица   имела полный ранг ( ), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценки

править

См. также

править

Примечания

править

Литература

править
  • Демиденко Е. З. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981. — 302 с.
  • Себер Дж. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с. — 13 700 экз.