Тестирование спецификации регрессионного уравнения на пропущенные переменные

Спецификация эконометрической модели: способы и диагностика отбора экзогенных переменных. Тесты Рамсея и Амемья.

Спецификация модели множественной линейной регрессии включает проверку:

1. правильного выбора экзогенных переменных.

2. корректного выбора формы зависимости мду эндо- и экзогенной переменными.

Для решения 1 задачи различают пропущенные и избыточные экзогенные переменные

Пропущенные переменные – существенные факторы, которые не были включены в эконометрическую модель по ошибке. Опасность наличия пропущенных переменных заключается в смещении оценок параметров при включенных переменных. Признак, по которому определяют пропущенную переменную: Знак “+” у произведения оценки параметра при подозреваемой пропущенной переменной и коэффициента корреляции этой переменной с другими переменными, включенными в модель.

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Выбранная модель с пропуском переменной Тестирование спецификации регрессионного уравнения на пропущенные переменные:

Тестирование спецификации регрессионного уравнения на пропущенные переменные, где Тестирование спецификации регрессионного уравнения на пропущенные переменные

Тогда, применяя МНК для оценки усеченной модели получаем формулу смещения оценки Тестирование спецификации регрессионного уравнения на пропущенные переменные^

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Экзогенную переменную относят к избыточным, если она по ошибке включена в эконометрическую модель. Включение избыточной переменной оказывает влияние на уменьшение точности (увеличение дисперсии) оценок параметров модели, что, в свою очередь, вызывает уменьшение t-статистик и коэффициента детерминации.

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Если Тестирование спецификации регрессионного уравнения на пропущенные переменные– избыточная, то коэффициент корреляции Тестирование спецификации регрессионного уравнения на пропущенные переменные, тогда Тестирование спецификации регрессионного уравнения на пропущенные переменныебудет уменьшаться, а в соответствии с формулой Тестирование спецификации регрессионного уравнения на пропущенные переменныебудет возрастать.

Замещающие переменные – обычно бывает полезно вместо пропущенной переменной, которую трудно измерить, использовать некоторый её заменитель.

4 основных качественных правила спецификации экономической модели:

1. Опираясь на эконометрическую теорию, следует ответить на вопрос: «Является ли переменная существенной в модели зависимости с эндогенной переменной?».

2. Осуществить проверку значимого отличия от нуля t-статистик.

3. Осуществить проверку, насколько значимо изменяется коэффициент детерминации при добавлении некоторой переменной в модель.

4. Существенно ли изменяются оценки других переменных после добавления новой переменной в модель.

Кроме отмеченных правил спецификации модели, наиболее из-вестны два следующих количественных критерия спецификации:

Критерий Рамсея (Ramsey):

RESET-тест Рамсея — это обобщенный тест на наличие следующих ошибок спецификации модели линейной регрессии:

  • наличие пропущенных переменных. Регрессия содержит не все объясняющие переменные;
  • неверная функциональная форма. Некоторые или все переменные должны быть преобразованы с помощью логарифмической, степенной, обратной или какой-либо другой функции;
  • корреляция между фактором Х и случайной составляющей модели, которая может быть вызвана ошибками измерения факторов, рассмотрением систем уравнений или другими причинами.

Тест Рамсея позволяет проверить, стоит ли начинать поиск дополнительной переменной для включения в уравнение

1. Оценивается уравнение регрессии

2. Вычисляются степени оценок зависимой переменной

3. Оценивается уравнение регрессии с этими степенями

4. Проводится оценка улучшения по F-критерию

Ошибки такого рода приводят к смещению среднего остатков регрессионной модели.

1. Оценивают зависимость в соответствии с выбранной моделью по МНК:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

2. Анализируют вид функциональной зависимости остатков Тестирование спецификации регрессионного уравнения на пропущенные переменныеи её номинальное приближение включают в модель.

3. Например, с учетом 2) вычисляют величины Тестирование спецификации регрессионного уравнения на пропущенные переменные Тестирование спецификации регрессионного уравнения на пропущенные переменные, конструируют новую модель:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

и применяют для ее оценивания по МНК.

4) Сравнивают качество модели по отношению к модели с помощью F-критерия:

Если Тестирование спецификации регрессионного уравнения на пропущенные переменныегде M – число дополнительных переменных, включенных в модель (M=3), k – число экзогенных переменных в Тестирование спецификации регрессионного уравнения на пропущенные переменныето модель плохо специфицирована.

Недостаток: он указывает только на наличие ошибочной спец-ции модели, но не выявляет, сколько и какого рода переменную нужно добавить в модель.

Критерий Амемья (Amemiya):

Решающей функцией F-критерия служит:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Модель, для которой значение AF меньше, является лучше специфицированной.

Этот критерий минимизирует число экзогенных переменных.

Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

F-тест качества спецификации парной линейной регрессионной модели

F-тест — оценивание качества уравнения регрессии — состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fвыч и критического (табличного) Fкрит значений F-критерия Фишера. Fвыч определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы.

Коэффициент детерминации является случайной величиной (так как вычисляется по выборочным данным), и для оценки его статистической
значимости, в соответствии со стандартной процедурой, следовало бы
сравнить его вычисленное значение с табличным (критическим). Однако
таблиц распределения коэффициента детерминации не существует, поэтому для проверки статистической гипотезы о значимости R 2 используется косвенный метод: вычисляется некоторая вспомогательная статистика с известным распределением; проверяется гипотеза ее статистической значимости; устанавливается взаимосвязь между вспомогательной статисткой и коэффициентом детерминации; на основании этой взаимосвязи делается вывод о статистической значимости коэффициента детерминации. Для составления вспомогательной статистики рассмотрим две случайные величины U и V. Статистика U имеет распределение х 2 (хи-квадрат)

Тестирование спецификации регрессионного уравнения на пропущенные переменные(1)

так как случайная величина Тестирование спецификации регрессионного уравнения на пропущенные переменные, как было показано выше, имеет стандартное нормальное распределение, а ее квадрат можно рассматривать как сумму квадратов стандартных нормальных величин, включающую только одно слагаемое.

В качестве второй вспомогательной статистики, имеющей распределение х 2 с параметром, равным числу степеней свободы n — 2, используется статистика вида:

Тестирование спецификации регрессионного уравнения на пропущенные переменные(2)

Статистика F, как легко проверить, совпадает с квадратом f-статистики для параметра b:

Тестирование спецификации регрессионного уравнения на пропущенные переменные= Тестирование спецификации регрессионного уравнения на пропущенные переменные

и имеет распределение Фишера с параметрами v1=1,v2=n-2 (n— объем выборки):

Тестирование спецификации регрессионного уравнения на пропущенные переменные(3)

Для проверки гипотезы Н0:b = 0 статистика (3) принимает вид:

Тестирование спецификации регрессионного уравнения на пропущенные переменные.

Связь между статистиками F и R 2 для случая парной регрессии
(k=2) имеет вид:

F= Тестирование спецификации регрессионного уравнения на пропущенные переменные(4)

Справедливость (4) проверяется непосредственно:

Тестирование спецификации регрессионного уравнения на пропущенные переменные(5)

Таким образом, как следует из формулы (5), F = 0 в том случае, если R 2 =0. Поэтому, проверяя значимость F статистики (сравнивая ее вычисленное по выборочным данным значение с табличным), мы можем проверить статистическую значимость коэффициента детерминации. ЕслиFвыч

Дата добавления: 2015-01-10 ; просмотров: 5107 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Видео:Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

F-тест качества спецификации множественной регрессионной модели

Цель этой статьи — рассказать о роли степеней свободы в статистическом анализе, вывести формулу F-теста для отбора модели при множественной регрессии.

Видео:Интерпретация коэффициента при логарифмировании в уравнениях регрессииСкачать

Интерпретация коэффициента при логарифмировании в уравнениях регрессии

1. Роль степеней свободы (degree of freedom) в статистике

Имея выборочную совокупность, мы можем лишь оценивать числовые характеристики совокупности, параметры выбранной модели. Так не имеет смысла говорить о среднеквадратическом отклонении при наличии лишь одного наблюдения. Представим линейную регрессионную модель в виде:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Сколько нужно наблюдений, чтобы построить линейную регрессионную модель? В случае двух наблюдений можем получить идеальную модель (рис.1), однако есть в этом недостаток. Причина в том, что сумма квадратов ошибки (MSE) равна нулю и не можем оценить оценить неопределенность коэффициентов Тестирование спецификации регрессионного уравнения на пропущенные переменные. Например не можем построить доверительный интервал для коэффициента наклона по формуле:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

А значит не можем сказать ничего о целесообразности использования коэффициента Тестирование спецификации регрессионного уравнения на пропущенные переменныев данной регрессионной модели. Необходимо по крайней мере 3 точки. А что же, если все три точки могут поместиться на одну линию? Такое может быть. Но при большом количестве наблюдений маловероятна идеальная линейная зависимость между зависимой и независимыми переменными (рис. 1).

Тестирование спецификации регрессионного уравнения на пропущенные переменныеРисунок 1 — простая линейная регрессия

Количество степеней свободы — количество значений, используемых при расчете статистической характеристики, которые могут свободно изменяться. С помощью количества степеней свободы оцениваются коэффициенты модели и стандартные ошибки. Так, если имеется n наблюдений и нужно вычислить дисперсию выборки, то имеем n-1 степеней свободы.

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Мы не знаем среднее генеральной совокупности, поэтому оцениваем его средним значением по выборке. Это стоит нам одну степень свободы.

Представим теперь что имеется 4 выборочных совокупностей (рис.3).

Тестирование спецификации регрессионного уравнения на пропущенные переменныеРисунок 3

Каждая выборочная совокупность имеет свое среднее значение, определяемое по формуле Тестирование спецификации регрессионного уравнения на пропущенные переменные. И каждое выборочное среднее может быть оценено Тестирование спецификации регрессионного уравнения на пропущенные переменные. Для оценки мы используем 2 параметра Тестирование спецификации регрессионного уравнения на пропущенные переменные, а значит теряем 2 степени свободы (нужно знать 2 точки). То есть количество степеней свобод Тестирование спецификации регрессионного уравнения на пропущенные переменныеЗаметим, что при 2 наблюдениях получаем 0 степеней свободы, а значит не можем оценить коэффициенты модели и стандартные ошибки.

Таким образом сумма квадратов ошибок имеет (SSE, SSE — standard error of estimate) вид:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Стоит упомянуть, что в знаменателе стоит n-2, а не n-1 в связи с тем, что среднее значение оценивается по формуле Тестирование спецификации регрессионного уравнения на пропущенные переменные. Квадратные корень формулы (4) — ошибка стандартного отклонения.

В общем случае количество степеней свободы для линейной регрессии рассчитывается по формуле:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

где n — число наблюдений, k — число независимых переменных.

Видео:Множественная регрессияСкачать

Множественная регрессия

2. Анализ дисперсии, F-тест

При выполнении основных предположений линейной регрессии имеет место формула:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

где Тестирование спецификации регрессионного уравнения на пропущенные переменные,

Тестирование спецификации регрессионного уравнения на пропущенные переменные,

Тестирование спецификации регрессионного уравнения на пропущенные переменные

В случае, если имеем модель по формуле (1), то из предыдущего раздела знаем, что количество степеней свободы у SSTO равно n-1. Количество степеней свободы у SSE равно n-2. Таким образом количество степеней свободы у SSR равно 1. Только в таком случае получаем равенство Тестирование спецификации регрессионного уравнения на пропущенные переменные.

Масштабируем SSE и SSR с учетом их степеней свободы:

Тестирование спецификации регрессионного уравнения на пропущенные переменныеТестирование спецификации регрессионного уравнения на пропущенные переменные

Получены хи-квадрат распределения. F-статистика вычисляется по формуле:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Формула (9) используется при проверке нулевой гипотезы Тестирование спецификации регрессионного уравнения на пропущенные переменныепри альтернативной гипотезе Тестирование спецификации регрессионного уравнения на пропущенные переменныев случае линейной регрессионной модели вида (1).

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

3. Выбор линейной регрессионной модели

Известно, что с увеличением количества предикторов (независимых переменных в регрессионной модели) исправленный коэффициент детерминации увеличивается. Однако с ростом количества используемых предикторов растет стоимость модели (под стоимостью подразумевается количество данных которые нужно собрать). Однако возникает вопрос: “Какие предикторы разумно использовать в регрессионной модели?”. Критерий Фишера или по-другому F-тест позволяет ответить на данный вопрос.

Определим “полную” модель: Тестирование спецификации регрессионного уравнения на пропущенные переменные(10)

Определим “укороченную” модель: Тестирование спецификации регрессионного уравнения на пропущенные переменные(11)

Вычисляем сумму квадратов ошибок для каждой модели:

Тестирование спецификации регрессионного уравнения на пропущенные переменные(12)

Тестирование спецификации регрессионного уравнения на пропущенные переменные(13)

Определяем количество степеней свобод Тестирование спецификации регрессионного уравнения на пропущенные переменные

Тестирование спецификации регрессионного уравнения на пропущенные переменные(14)

Нулевая гипотеза — “укороченная” модель мало отличается от “полной (удлиненной) модели”. Поэтому выбираем “укороченную” модель. Альтернативная гипотеза — “полная (удлиненная)” модель объясняет значимо большую долю дисперсии в данных по сравнению с “укороченной” моделью.

Коэффициент детерминации из формулы (6):

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Из формулы (15) выразим SSE(F):

Тестирование спецификации регрессионного уравнения на пропущенные переменные

SSTO одинаково как для “укороченной”, так и для “длинной” модели. Тогда (14) примет вид:

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Поделим числитель и знаменатель (14a) на SSTO, после чего прибавим и вычтем единицу в числителе.

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Используя формулу (15) в конечном счете получим F-статистику, выраженную через коэффициенты детерминации.

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Видео:Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Уравнение линейной регрессии. Интерпретация стандартной таблички

3 Проверка значимости линейной регрессии

Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. Рассмотрим ситуацию. У линейной регрессионной модели всего k параметров (Сейчас среди этих k параметров также учитываем Тестирование спецификации регрессионного уравнения на пропущенные переменные).Рассмотрим нулевую гипотеза — об одновременном равенстве нулю всех коэффициентов при предикторах регрессионной модели (то есть всего ограничений k-1). Тогда “короткая модель” имеет вид Тестирование спецификации регрессионного уравнения на пропущенные переменные. СледовательноТестирование спецификации регрессионного уравнения на пропущенные переменные. Используя формулу (14.в), получим

Тестирование спецификации регрессионного уравнения на пропущенные переменные

Видео:Регрессионное и smoke тестированиеСкачать

Регрессионное и smoke тестирование

Заключение

Показан смысл числа степеней свободы в статистическом анализе. Выведена формула F-теста в простом случае(9). Представлены шаги выбора лучшей модели. Выведена формула F-критерия Фишера и его запись через коэффициенты детерминации.

Можно посчитать F-статистику самому, а можно передать две обученные модели функции aov, реализующей ANOVA в RStudio. Для автоматического отбора лучшего набора предикторов удобна функция step.

Надеюсь вам было интересно, спасибо за внимание.

При выводе формул очень помогли некоторые главы из курса по статистике STAT 501

🎬 Видео

Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

МЕТРИКИ РЕГРЕССИИ В МАШИННОМ ОБУЧЕНИИ | MAE, MSE, RMSE, R2, коэффициент детерминации.Скачать

МЕТРИКИ РЕГРЕССИИ В МАШИННОМ ОБУЧЕНИИ | MAE, MSE, RMSE, R2, коэффициент детерминации.

Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Тест Рамсея. Краткое описание и применениеСкачать

Тест Рамсея. Краткое описание и применение

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Корреляция: коэффициенты Пирсона и Спирмена, линейная регрессияСкачать

Корреляция: коэффициенты Пирсона и Спирмена, линейная регрессия

РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16Скачать

РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16

Что такое метод инструментальных переменных ?Скачать

Что такое метод инструментальных переменных ?

Тема по SPSS: множественная линейная регрессия - одновременное включение всех переменных в модель.Скачать

Тема по SPSS: множественная линейная регрессия - одновременное включение всех переменных в модель.

Эконометрика. Построение модели множественной регрессии в Excel. Часть 1.Скачать

Эконометрика. Построение модели множественной регрессии в Excel. Часть 1.

РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12Скачать

РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12

Лекция 8. Линейная регрессияСкачать

Лекция 8. Линейная регрессия
Поделиться или сохранить к себе: