Уравнение регрессии с панельными данными

Регрессия на панельных данных

Имеется множество объектов (i=1,…,n), которые наблюдаются в моменты времени t =1,…, T . Каждый рассматриваемый объект характеризуется k переменными (признаками):

Уравнение регрессии с панельными данными

Для большинства баз панельных данных характерно, что они содержат наблюдения о большом количестве объектов за относительно короткий промежуток времени.

Уравнение регрессии с панельными данными– зависимая переменная для экономической единицы i в момент времени t ;

Уравнение регрессии с панельными данными– соответствующая ошибка;

Уравнение регрессии с панельными данными

Введем также «объединенные» наблюдения и ошибки:

Уравнение регрессии с панельными данными

Видео:Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Объединенная модель регрессии

Это обычная линейная модель регрессии:

Уравнение регрессии с панельными данными

в матричной форме:

Уравнение регрессии с панельными данными

где β – неизвестный вектор размера k ×1.

Считается, что зависимая переменная линейно зависит от всех переменных в тот же момент времени.

Для настройки параметров можно использовать метод наименьших квадратов:

Уравнение регрессии с панельными данными

Видео:Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Модель панельных данных с эффектами

Модель опирается на структуру панельных данных, что позволяет учитывать неизмеримые индивидуальные различия объектов. Эти отличия называются эффектами.

Модель панельных данных с фиксированными эффектами

В данной модели эффекты интерпретируются как мешающий параметр, и оценивание направлено на то, чтобы их исключить.

Модель описывается уравнением:

Уравнение регрессии с панельными данными

Величина Уравнение регрессии с панельными даннымивыражает индивидуальный эффект объекта i, не зависящий от времени t, при этом регрессоры Уравнение регрессии с панельными даннымине содержат константу.

Модель панельных данных со случайными эффектами

В данной модели предполагается, что индивидуальные отличия носят случайный характер.

Видео:Лекция 8 часть 2Скачать

Лекция 8 часть 2

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Уравнение регрессии с панельными данными

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Видео:Множественная регрессияСкачать

Множественная регрессия

Введение в регрессионный анализ

Если имеется корреляционная зависимость Уравнение регрессии с панельными даннымимежду переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения Уравнение регрессии с панельными данныминазывается регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Уравнение регрессии с панельными даннымитакая, что сумма квадратов разностей Уравнение регрессии с панельными даннымиминимальна.

Уравнение регрессии с панельными данными

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Уравнение регрессии с панельными данными, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Уравнение регрессии с панельными даннымивокруг регрессии Уравнение регрессии с панельными даннымиявляется дисперсия.

Уравнение регрессии с панельными данными

  • k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости Уравнение регрессии с панельными даннымиприводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Уравнение регрессии с панельными данными

В матричном виде это выгладит

Уравнение регрессии с панельными данными

  • y — зависимая переменная;
  • x — независимая переменная;
  • β — коэффициенты, которые необходимо найти с помощью МНК;
  • ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Уравнение регрессии с панельными данными

Случайная величина Уравнение регрессии с панельными даннымиможет быть интерпретирована как сумма из двух слагаемых:

  • Уравнение регрессии с панельными даннымиполная дисперсия (TSS).
  • Уравнение регрессии с панельными даннымиобъясненная часть дисперсии (ESS).
  • Уравнение регрессии с панельными даннымиостаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R 2 .

Уравнение регрессии с панельными данными

Видео:Нелинейная регрессия в MS Excel. Как подобрать уравнение регрессии? Некорректное значение R^2Скачать

Нелинейная регрессия в MS Excel. Как подобрать уравнение регрессии? Некорректное значение R^2

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

  1. Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
  2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
  3. Экзогенность независимых переменныхУравнение регрессии с панельными данными. Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
  4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает одинаковой и конечной дисперсией σ 2 и не коррелирует с другой εi. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Уравнение регрессии с панельными данными

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Уравнение регрессии с панельными данными

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

  • Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
  • Неоднородность дисперсии — Тест Уайта, Уравнение регрессии с панельными данными, при Уравнение регрессии с панельными даннымиchi_$» data-tex=»inline»/> нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же Уравнение регрессии с панельными даннымиможно еще применить тест Бройша-Пагана.
  • Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

Уравнение регрессии с панельными данными

В этой формуле Уравнение регрессии с панельными данными— коэффициент взаимной детерминации между Уравнение регрессии с панельными даннымии остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Видео:РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16Скачать

РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Видео:Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

  • points — Рейтинг статьи
  • reads — Число просмотров.
  • comm — Число комментариев.
  • faves — Добавлено в закладки.
  • fb — Поделились в социальных сетях (fb + vk).
  • bytes — Длина в байтах.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

reads , набор переменных — points

Перейдем теперь к расшифровке полученных результатов.

  • Intercept — Если у нас модель представлена в виде Уравнение регрессии с панельными данными, то тогда Уравнение регрессии с панельными данными— точка пересечения прямой с осью координат, или intercept .
  • R-squared — Коэффициент детерминации указывает насколько тесной является связь между факторами регрессии и зависимой переменной, это соотношение объясненных сумм квадратов возмущений, к необъясненным. Чем ближе к 1, тем ярче выражена зависимость.
  • Adjusted R-squared — Проблема с Уравнение регрессии с панельными даннымив том, что он по любому растет с числом факторов, поэтому высокое значение данного коэффициента может быть обманчивым, когда в модели присутствует множество факторов. Для того, чтобы изъять из коэффициента корреляции данное свойство был придуман скорректированный коэффициент детерминации .
  • F-statistic — Используется для оценки значимости модели регрессии в целом, является соотношением объяснимой дисперсии, к необъяснимой. Если модель линейной регрессии построена удачно, то она объясняет значительную часть дисперсии, оставляя в знаменателе малую часть. Чем больше значение параметра — тем лучше.
  • t value — Критерий, основанный на t распределении Стьюдента . Значение параметра в линейной регрессии указывает на значимость фактора, принято считать, что при t > 2 фактор является значимым для модели.
  • p value — Это вероятность истинности нуль гипотезы, которая гласит, что независимые переменные не объясняют динамику зависимой переменной. Если значение p value ниже порогового уровня (.05 или .01 для самых взыскательных), то нуль гипотеза ложная. Чем ниже — тем лучше.

Уравнение регрессии с панельными данными

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми , F-статистика выросла, так же как и скорректированный коэффициент детерминации .

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

Видео:Регрессия в ExcelСкачать

Регрессия в Excel

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Уравнение регрессии

Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии

В сервисе для нахождения параметров регрессии используется МНК. Система нормальных уравнений для линейной регрессии: Уравнение регрессии с панельными данными. Также можно получить ответ, используя матричный метод. см. также Статистические функции в Excel

Уравнение парной регрессии относится к уравнению регрессии первого порядка. Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии.

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте графическое изображение регрессионной зависимости. Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования.
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели — определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

💡 Видео

Что такое линейная регрессия? Душкин объяснитСкачать

Что такое линейная регрессия? Душкин объяснит

Линейная регрессия в Python за 13 МИН для чайников [#Машинное Обучения от 16 летнего Школьника]Скачать

Линейная регрессия в Python за 13 МИН для чайников [#Машинное Обучения от 16 летнего Школьника]

Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Линейная регрессияСкачать

Линейная регрессия

Коэффициент линейной регрессии, 2 способаСкачать

Коэффициент линейной регрессии, 2 способа

Уравнение парной линейной регрессии с помощью Анализа ДанныхСкачать

Уравнение парной линейной регрессии с помощью Анализа Данных

Панельные данные в Gretl.Скачать

Панельные данные в Gretl.

РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12Скачать

РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12

Парная нелинейная регрессияСкачать

Парная нелинейная регрессия

Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Коэффициент детерминации. Основы эконометрикиСкачать

Коэффициент детерминации. Основы эконометрики
Поделиться или сохранить к себе: