Линейное уравнение регрессии имеет вид y=bx+a+ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид:
10a + 356b = 49
356a + 2135b = 9485
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17
Уравнение регрессии:
y = 68.16 x — 11.17
1. Параметры уравнения регрессии.
Выборочные средние.
1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 Y фактором X весьма высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у ) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у , но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:
Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами — Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596, т.е. в 95.96 % случаев изменения x приводят к изменению у . Другими словами — точность подбора уравнения регрессии — высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.
x | y | x 2 | y 2 | x·y | y(x) | (yi— y ) 2 | (y-y(x)) 2 | (xi— x ) 2 | |y — yx|:y |
0.371 | 15.6 | 0.1376 | 243.36 | 5.79 | 14.11 | 780.89 | 2.21 | 0.1864 | 0.0953 |
0.399 | 19.9 | 0.1592 | 396.01 | 7.94 | 16.02 | 559.06 | 15.04 | 0.163 | 0.1949 |
0.502 | 22.7 | 0.252 | 515.29 | 11.4 | 23.04 | 434.49 | 0.1176 | 0.0905 | 0.0151 |
0.572 | 34.2 | 0.3272 | 1169.64 | 19.56 | 27.81 | 87.32 | 40.78 | 0.0533 | 0.1867 |
0.607 | 44.5 | .3684 | 1980.25 | 27.01 | 30.2 | 0.9131 | 204.49 | 0.0383 | 0.3214 |
0.655 | 26.8 | 0.429 | 718.24 | 17.55 | 33.47 | 280.38 | 44.51 | 0.0218 | 0.2489 |
0.763 | 35.7 | 0.5822 | 1274.49 | 27.24 | 40.83 | 61.54 | 26.35 | 0.0016 | 0.1438 |
0.873 | 30.6 | 0.7621 | 936.36 | 26.71 | 48.33 | 167.56 | 314.39 | 0.0049 | 0.5794 |
2.48 | 161.9 | 6.17 | 26211.61 | 402 | 158.07 | 14008.04 | 14.66 | 2.82 | 0.0236 |
7.23 | 391.9 | 9.18 | 33445.25 | 545.2 | 391.9 | 16380.18 | 662.54 | 3.38 | 1.81 |
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим tкрит:
tкрит = (7;0.05) = 1.895
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S 2 y = 94.6484 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 9.7287 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.
Sb — стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bxp ± ε) где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
где
xi | y = -11.17 + 68.16xi | εi | ymin | ymax |
0.371 | 14.11 | 19.91 | -5.8 | 34.02 |
0.399 | 16.02 | 19.85 | -3.83 | 35.87 |
0.502 | 23.04 | 19.67 | 3.38 | 42.71 |
0.572 | 27.81 | 19.57 | 8.24 | 47.38 |
0.607 | 30.2 | 19.53 | 10.67 | 49.73 |
0.655 | 33.47 | 19.49 | 13.98 | 52.96 |
0.763 | 40.83 | 19.44 | 21.4 | 60.27 |
0.873 | 48.33 | 19.45 | 28.88 | 67.78 |
2.48 | 158.07 | 25.72 | 132.36 | 183.79 |
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895
Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(68.1618 — 1.895 • 5.2894; 68.1618 + 1.895 • 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — ta)
(-11.1744 — 1.895 • 5.3429; -11.1744 + 1.895 • 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).
Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.
Обнаружение автокорреляции
1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.
Видео:Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать
Экономический смысл параметров уравнения линейной регрессии
Уравнение регрессии
Уравнение регрессии — это математическая формула, определяющая, каким будет среднее значение у при том или ином значении х, если все остальные факторы, влияющие на у, не учитывать, т.е. абстрагироваться от них.
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее точно отразить зависимость между х и у, — первая задача регрессионного анализа. Виды уравнений:
1) линейная зависимость ;
2) парабола ;
3) гипербола ;
4) показательная функция ;
5) степенная функция и т.д.
Главным основанием для выбора типа функции должен быть содержательный анализ природы изучаемого явления. Полезно отразить зависимость графически.
Метод наименьших квадратов
Далее необходимо определить параметры уравнения регрессии а0 и а1, (для параболы еще и а2). Для этого используют метод наименьших квадратов. В его основу положена идея минимизации суммы квадратов отклонений фактических значений у от их выравненных (теоретических) значений, т.е.
.
где уi — фактические значения результативного признака;
yi(xi) — значения у, найденные по уравнению регрессии.
Если регрессия линейная , то
Рассматривая сумму в качестве функции параметров а0 и а1, определяют частные производные по а0 и а1 и приравнивают их к нулю, поскольку в точке экстремума производная функции равна нулю:
Система уравнений для разных типов зависимости между признаками
Если связь между признаками линейная, то система уравнений для нахождения параметров уравнения регрессии примет вид:
После решения системы относительно а1 и а1 составляют уравнение регрессии .
Если связь между признаками у их описывается уравнением параболы , то система нормальных уравнений примет вид:
Если связь описывается уравнением гиперболы , система нормальных уравнений следующая:
Экономический смысл параметров уравнения линейной регрессии
В уравнении линейной регрессии параметр а0 определяет среднее значение y которое складывается под влиянием всех факторов, кроме х.
Параметр а1 называется коэффициентом регрессии, он определяет, на сколько в среднем изменится у при изменении факторного признака на единицу. Чем больше величина а1, тем значительнее влияние данного факторного признака на моделируемый результативный. Знак коэффициента регрессии говорит о характере влияния фактора на результативный признак.
Коэффициент эластичности показывает, на сколько процентов изменится результативный признаку при изменении факторного признака на 1%. Общая формула для расчета коэффициента эластичности выглядит следующим образом:
,
где у'(х) — первая производная уравнения регрессии у(х) по х.
При различных значениях факторного признака х коэффициент эластичности принимает различные значения.
Для линейного уравнения регрессии коэффициент эластичности примет вид:
.
Для параболической связи коэффициент эластичности равен:
.
Для гиперболической связи коэффициент эластичности равен:
3. Корреляционный анализ. Показатели тесноты связи между признаками
В случае линейной зависимости между признаками для оценки тесноты связи применяют линейный коэффициент корреляции:
.
Линейный коэффициент корреляции изменяется в пределах от —1 до +1. Если |r| 0,9, то связь сильная или весьма тесная. Если , то это дает основание говорить об отсутствии линейной связи между х и у.
Видео:Эконометрика Линейная регрессия и корреляцияСкачать
Экономическая и математическая интерпретация параметров уравнения парной линейной регрессии. Средний коэффициент эластичности
СРЕДНИЙ КОЭФФИЦИЕНТ ЭЛАСТИЧНОСТИ
В уравнении линейной регрессии параметр а (свободный член) с математической точки зрения определяет среднее значение у, которое складывается под влиянием всех факторов, кроме х. С экономической точки зрения параметр а чаще всего не интерпретируется, поскольку очень часто значение признака х не может быть равно нулю.
Параметр b (коэффициент при х) определяет, насколько в среднем изменится у при изменении факторного признака на единицу.
Чем больше величина коэффициента регрессии Ь, тем значительнее влияние данного факторного признака на моделируемый результативный.
Знак коэффициента регрессии b говорит о характере влияния фактора х на результативный признак, так же как и знак парного линейного коэффициента корреляции г.
Экономическая интерпретация параметров линейного уравнения регрессии дополняется расчетом среднего коэффициента эластичности:
где Э — средний коэффициент эластичности для парной линейной регрессии, %; b — коэффициент регрессии; х — среднее арифметическое значение признака х; у. — среднее арифметическое значение признака у.
Средний коэффициент эластичности показывает, на сколько процентов в среднем изменится у при изменении факторах на 1 %.
Если средний коэффициент эластичности больше 1 %, то говорят, что признак у эластичен по отношению к фактору х. [1]
На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонение эмпирических данных от теоретических. Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения регрессии.
При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения у может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:
где у,— значения у, вычисленные по модели у, = а + Ь-х.
Разделив правую и левую часть выражения (2.18) на ^(у. — у) 2 , получим
Коэффициент детерминации определяется следующим образом:
Коэффициент детерминации показывает долю вариации результативного признака, находящуюся под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака у учтена в модели и обусловлена влиянием на него факторов.
Чем ближе R- к 1, тем выше качество модели.
Для оценки качества регрессионных моделей целесообразно также использовать коэффициент, или индекс, корреляции R. Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной линейной модели он равен коэффициенту линейной корреляции по модулю.
Качество полученного уравнения регрессии оценивают также с помощью средней относительной ошибки аппроксимации (приближения), которая рассчитывается по формуле:
где А — средняя относительная ошибка аппроксимации, %; п — объем статистической совокупности; у, — фактические значения результативного признака; у, — теоретические значения результативного признака.
Допустимый предел значений средней относительной ошибки аппроксимации составляет не более 8-10 %.
После того как уравнение регрессии построено, выполняется проверка статистической значимости построенного уравнения.
Оценить значимость уравнения регрессии — это значит установить, соответствует ли математическая модель, выражающая зависимость между у и х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных х для описания зависимой переменной у.
Оценка значимости уравнения регрессии осуществляется с помощью критерия Фишера, который также называется F-критерием. Для парной регрессии формула F-критерия выглядит следующим образом:
где F — расчетное значение F-критерия Фишера; п — объем статистической совокупности; г — коэффициент корреляции.
Если рассчитанное по вышеприведенной формуле значение F-критерия больше табличного значения, то уравнение регрессии признается статистически значимым. Табличное значение F-критерия берется из специальных статистических таблиц, которые есть в любом учебнике по эконометрике. Табличное значение F-критерия выбирается исходя из уровня значимости а = 0,05 (такой уровень значимости принимается для экономических расчетов) и числа степеней свободы ki = 1 и k2 = п-2 (для парной регрессии).
Табличное значение F-критерия можно определить с помощью встроенной функций MS Excel = БРАСПОБР (0,05; 1; п-2). Аргументы функции приведены для парной линейной регрессии.
🔍 Видео
Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать
Что такое линейная регрессия? Душкин объяснитСкачать
Парная регрессия: линейная зависимостьСкачать
Коэффициент детерминации. Основы эконометрикиСкачать
Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать
Эконометрика. Линейная парная регрессияСкачать
Коэффициент линейной регрессии, 2 способаСкачать
Математика #1 | Корреляция и регрессияСкачать
Метод наименьших квадратов. Линейная аппроксимацияСкачать
Множественная регрессия в ExcelСкачать
Уравнение парной линейной регрессии с помощью Анализа ДанныхСкачать
Линейная регрессияСкачать
Лекция 8. Линейная регрессияСкачать
Множественная регрессияСкачать
Эконометрика. Множественная регрессия и корреляция.Скачать
Урок 2. Экономический смысл двойственной задачиСкачать
РЕАЛИЗАЦИЯ ЛИНЕЙНОЙ РЕГРЕССИИ | Линейная регрессия | LinearRegression | МАШИННОЕ ОБУЧЕНИЕСкачать
Линейная регрессия и L1/L2-регуляризацияСкачать