Оценка значимости уравнения парной линейной регрессии

Оценка значимости параметров уравнения парной линейной регрессии

Парная регрессия представляет собой регрессию между двумя переменными

—у и х, т.е. модель вида Оценка значимости уравнения парной линейной регрессии+ Е

, где у — результативный признак,т.е зависимая переменная; х — признак-фактор.

Линейная регрессия сводится к нахождению уравнения вида Оценка значимости уравнения парной линейной регрессииили Оценка значимости уравнения парной линейной регрессии

Уравнение вида Оценка значимости уравнения парной линейной регрессиипозволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х.

Построение линейной регрессии сводится к оценке ее пара­метров а и в.

Оценки параметров линейной регрессии могут быть найдены разными методами.

1. Оценка значимости уравнения парной линейной регрессии

2. Оценка значимости уравнения парной линейной регрессии

Параметр b называется коэффициентом регрессии. Его вели­чина показывает

среднее изменение результата с изменением фактора на одну единицу.

Формально а — значение у при х = 0. Если признак-фактор

не имеет и не может иметь нулевого значения, то вышеуказанная

трактовка свободного члена, а не имеет смысла. Параметр, а может

не иметь экономического содержания. Попытки экономически

интерпретировать параметр, а могут привести к абсурду, особенно при а 0,

то относительное изменение результата происходит медленнее, чем изменение

проверка качества найденных параметров и всей модели в целом:

-Оценка значимости коэффициента регрессии (b) и коэффициента корреляции

-Оценка значимости всего уравнения регрессии. Коэффициент детерминации

Уравнение регрессии всегда дополняется показателем тесноты связи. При

использовании линейной регрессии в качестве такого показателя выступает

линейный коэффициент корреляции rxy. Существуют разные

модификации формулы линейного коэф­фициента корреляции.

Оценка значимости уравнения парной линейной регрессии

Линейный коэффициент корреляции находится и границах: -1≤.rxy

≤ 1. При этом чем ближе r к 0 тем слабее корреляция и наоборот чем

ближе r к 1 или -1, тем сильнее корреляция, т.е. зависимость х и у близка к

линейной. Если r в точности =1или -1 все точки лежат на одной прямой.

Если коэф. регрессии b>0 то 0 ≤.rxy ≤ 1 и

в модели факторов.

МНК позволяет получить такие оценки параметров а и b, которых

сумма квадратов отклонений фактических значений ре­зультативного признака

(у) от расчетных (теоретических) Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессииИными словами, из

всего множества линий линия регрессии на графике выбирается так, чтобы сумма

квадратов расстояний по вертикали между точками и этой линией была бы

минималь­ной. Оценка значимости уравнения парной линейной регрессии

Решается система нормальных уравнений

Оценка значимости уравнения парной линейной регрессии

ОЦЕНКА СУЩЕСТВЕННОСТИ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ.

Оценка значимости уравнения регрессии в целом дается с по­мощью F-критерия

Фишера. При этом выдвигается нулевая ги­потеза, что коэффициент регрессии равен

нулю, т. е. b = 0, и следовательно, фактор х не оказывает

влияния на результат у.

Непосредственному расчету F-критерия предшествует анализ дисперсии.

Центральное место в нем занимает разложе­ние общей суммы квадратов отклонений

переменной у от средне го значения у на две части —

«объясненную» и «необъясненную»:

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии— общая сумма квадратов отклонений

Оценка значимости уравнения парной линейной регрессии— сумма квадратов

отклонения объясненная регрессией Оценка значимости уравнения парной линейной регрессии

— остаточная сумма квадратов отклонения.

Любая сумма квадратов отклонений связана с числом степе­ней свободы, т.

е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности nис числом определяемых по ней констант. Применительно к исследуемой проблеме число cтепеней свободы должно показать, сколько независимых откло­нений из п возможных требуется для

образования данной суммы квадратов.

Дисперсия на одну степень свободы D.

Оценка значимости уравнения парной линейной регрессии

F-отношения (F-критерий): Оценка значимости уравнения парной линейной регрессии Оценка значимости уравнения парной линейной регрессии

Ecли нулевая гипотеза справедлива, то факторная и остаточная дисперсии не

отличаются друг от друга. Для Н0 необходимо опровержение, чтобы

факторная дисперсия превышала остаточную в несколько раз. Английским

статистиком Снедекором раз­работаны таблицы критических значений F-отношений

при разных уровнях существенности нулевой гипотезы и различном числе степеней

свободы. Табличное значение F-критерия — это максимальная величина отношения

дисперсий, которая может иметь место при случайном их расхождении для данного

уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения

признается достоверным, если о больше табличного. В этом случае нулевая

гипотеза об отсутствии связи признаков отклоняется и делается вывод о

существенности этой связи: Fфакт > Fтабл Н0

Если же величина окажется меньше табличной Fфакт ‹, Fтабл

, то вероятность нулевой гипотезы выше заданного уровня и она не может быть

отклонена без серьезного риска сделать неправильный вывод о наличии связи. В

этом случае уравнение регрессии считается статистически незначимым. Но

Содержание
  1. Пример нахождения статистической значимости коэффициентов регрессии
  2. Парная линейная регрессия. Задачи регрессионного анализа
  3. Понятие линейной регрессии. Парная линейная регрессия
  4. Уравнение парной линейной регрессии и метод наименьших квадратов
  5. Определение коэффициентов уравнения парной линейной регрессии
  6. Составить уравнение парной линейной регрессии самостоятельно, а затем посмотреть решение
  7. Анализ качества модели линейной регрессии
  8. Коэффициент детерминации
  9. F-статистика (статистика Фишера) для проверки качества модели линейной регрессии
  10. Сумма квадратов остатков
  11. Стандартная ошибка регрессии
  12. Интерпретация коэффициентов уравнения парной линейной регрессии и прогноз значений зависимой переменной
  13. Задачи регрессионного анализа
  14. Проверка гипотезы о равенстве нулю коэффициента направления прямой парной линейной регрессии
  15. 📹 Видео

Видео:Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Пример нахождения статистической значимости коэффициентов регрессии

Числитель в этой формуле может быть рассчитан через коэффициент детерминации и общую дисперсию признака-результата: Оценка значимости уравнения парной линейной регрессии.
Для параметра a критерий проверки гипотезы о незначимом отличии его от нуля имеет вид:
Оценка значимости уравнения парной линейной регрессии,
где Оценка значимости уравнения парной линейной регрессии— оценка параметра регрессии, полученная по наблюдаемым данным;
μa – стандартная ошибка параметра a.
Для линейного парного уравнения регрессии:
Оценка значимости уравнения парной линейной регрессии.
Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции в генеральной совокупности используют следующий критерий:
Оценка значимости уравнения парной линейной регрессии, где ryx — оценка коэффициента корреляции, полученная по наблюдаемым данным; mr – стандартная ошибка коэффициента корреляции ryx.
Для линейного парного уравнения регрессии:
Оценка значимости уравнения парной линейной регрессии.
В парной линейной регрессии между наблюдаемыми значениями критериев существует взаимосвязь: t ( b =0) = t (r=0).

Пример №1 . Уравнение имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 = 0.73 2 = 0.54, т.е. в 54% случаев изменения х приводят к изменению y . Другими словами — точность подбора уравнения регрессии — средняя.

xyx 2y 2x ∙ yy(x)(y-y cp ) 2(y-y(x)) 2(x-x p ) 2
691244761153768556128.48491.3620.11367.36
8313368891768911039141.4173.3670.5626.69
9214684642131613432149.70.0313.7114.69
9715394092340914841154.3246.691.7378.03
8813877441904412144146.0166.6964.210.03
9315986492528114787150.63164.6970.1323.36
7414554762102510730133.11.36141.68200.69
7915262412310412008137.7134.03204.2184.03
105168110252822417640161.7476.6939.74283.36
9915498012371615246156.1661.364.67117.36
8512772251612910795143.25367.36263.9110.03
9415588362402514570151.5578.0311.9134.03
105817549452025833815578817541961.67906.571239.67
2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.2704
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 88,16
(128.06;163.97)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (3.41>1.812).

Статистическая значимость коэффициента регрессии b подтверждается (2.7>1.812).
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (tтабл=1.812):
(a — tтабл·S a; a + tтабл·Sa)
(0.4325;1.4126)
(b — tтабл·S b; b + tтабл·Sb)
(21.3389;108.3164)
2) F-статистики

Fkp = 4.96
Поскольку F > Fkp, то коэффициент детерминации статистически значим.

Пример №2 . По территориям региона приводятся данные за 199Х г.; <table хСреднедневная заработная плата, руб., у17813328214838713447915458916261061957671398881589731521087162117615912115173 Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х , составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора.
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
12a+1027b=1869
1027a+89907b=161808
Из первого уравнения выражаем а и подставим во второе уравнение. Получаем b = 0.92, a = 76.98
Уравнение регрессии: y = 0.92 x + 76.98 Оценка значимости уравнения парной линейной регрессии
1. Параметры уравнения регрессии.
Выборочные средние.

Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:

Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами — влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199, т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами — точность подбора уравнения регрессии — средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели. <table 2y 2x·yy(x)(y i — y ) 2(y-y(x)) 2(x i — x ) 2|y-y x |:y7813360841768910374148,77517,56248,757,510,11868214867242190412136152,4560,0619,8212,840,03018713475691795611658157,05473,06531,482,010,1727915462412371612166149,693,0618,5743,340,0288916279212624414418158,8939,069,6411,670,0192106195112363802520670174,541540,56418,52416,840,1049671394489193219313138,65280,560,1258345,340,00268815877442496413904157,975,060,00075,840,00027315253292310411096144,1714,0661,34158,340,05158716275692624414094157,0539,0624,462,010,03057615957762528112084146,9310,56145,791,840,0759115173132252992919895182,83297,5696,55865,340,0568

102718698990729437716180818693280,251574,922012,920,6902 2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим tкрит:
tкрит = (10;0.05) = 1.812
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 157.4922 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.

Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (10;0.05) = 1.812

Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(0.9204 — 1.812·0.2797; 0.9204 + 1.812·0.2797)
(0.4136;1.4273)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a-ta)
(76.9765 — 1.812·24.2116; 76.9765 + 1.812·24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Парная линейная регрессия. Задачи регрессионного анализа

Будут и задачи для самостоятельного решения, к которым можно посмотреть ответы.

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Понятие линейной регрессии. Парная линейная регрессия

Линейная регрессия — выраженная в виде прямой зависимость среднего значения какой-либо величины от некоторой другой величины. В отличие от функциональной зависимости y = f(x) , когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при линейной регрессии одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y.

Если в результате наблюдения установлено, что при каждом определённом значении x существует сколько-то (n) значений переменной y, то зависимость средних арифметических значений y от x и является регрессией в статистическом понимании.

Если установленная зависимость может быть записана в виде уравнения прямой

то эта регрессионная зависимость называется линейной регрессией.

О парной линейной регрессии говорят, когда установлена зависимость между двумя переменными величинами (x и y). Парная линейная регрессия называется также однофакторной линейной регрессией, так как один фактор (независимая переменная x) влияет на результирующую переменную (зависимую переменную y).

В уроке о корреляционной зависимости были разобраны примеры того, как цена на квартиры зависит от общей площади квартиры и от площади кухни (две различные независимые переменные) и о том, что результаты наблюдений расположены в некотором приближении к прямой, хотя и не на самой прямой. Если точки корреляционной диаграммы соединить ломанной линией, то будет получена линия эмпирической регрессии. А если эта линия будет выровнена в прямую, то полученная прямая будет прямой теоретической регрессии. На рисунке ниже она красного цвета (для увеличения рисунка щёлкнуть по нему левой кнопкой мыши).

Оценка значимости уравнения парной линейной регрессии

По этой прямой теоретической регрессии может быть сделан прогноз или восстановление неизвестных значений зависимой переменной по заданным значениям независимой переменной.

В случае парной линейной регрессии для данных генеральной совокупности связь между независимой переменной (факториальным признаком) X и зависимой переменной (результативным признаком) Y описывает модель

Оценка значимости уравнения парной линейной регрессии,

Оценка значимости уравнения парной линейной регрессии— свободный член прямой парной линейной регрессии,

Оценка значимости уравнения парной линейной регрессии— коэффициент направления прямой парной линейной регрессии,

Оценка значимости уравнения парной линейной регрессии— случайная погрешность,

N — число элементов генеральной совокупности.

Уравнение парной линейной регрессии для генеральной совокупности можно построить, если доступны данные обо всех элементах генеральной совокупности. На практике данные всей генеральной совокупности недоступны, но доступны данные об элементах некоторой выборки.

Поэтому параметры генеральной совокупности оценивают при помощи соответствующих параметров соответствующей выборки: свободный член прямой парной линейной регрессии генеральной совокупности Оценка значимости уравнения парной линейной регрессиизаменяют на свободный член прямой парной линейной регрессии выборки Оценка значимости уравнения парной линейной регрессии, а коэффициент направления прямой парной линейной регрессии генеральной совокупности Оценка значимости уравнения парной линейной регрессии— на коэффициент направления прямой парной линейной регрессии выборки Оценка значимости уравнения парной линейной регрессии.

В результате получаем уравнение парной линейной регрессии выборки

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии— оценка полученной с помощью модели линейной регрессии зависимой переменной Y,

Оценка значимости уравнения парной линейной регрессии— погрешность,

n — размер выборки.

Чтобы уравнение парной линейной регрессии было более похоже на привычное уравнение прямой, его часто также записывают в виде

Оценка значимости уравнения парной линейной регрессии.

Видео:Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Уравнение линейной регрессии. Интерпретация стандартной таблички

Уравнение парной линейной регрессии и метод наименьших квадратов

Определение коэффициентов уравнения парной линейной регрессии

Если заранее известно, что зависимость между факториальным признаком x и результативным признаком y должна быть линейной, выражающейся в виде уравнения типа Оценка значимости уравнения парной линейной регрессии, задача сводится к нахождению по некоторой группе точек наилучшей прямой, называемой прямой парной линейной регрессии. Следует найти такие значения коэффициентов a и b , чтобы сумма квадратов отклонений Оценка значимости уравнения парной линейной регрессиибыла наименьшей:

Оценка значимости уравнения парной линейной регрессии.

Если через Оценка значимости уравнения парной линейной регрессиии Оценка значимости уравнения парной линейной регрессииобозначить средние значения признаков X и Y,то полученная с помощью метода наименьших квадратов функция регрессии удовлетворяет следующим условиям:

  • прямая парной линейной регрессии проходит через точку Оценка значимости уравнения парной линейной регрессии;
  • среднее значение отклонений равна нулю: Оценка значимости уравнения парной линейной регрессии;
  • значения Оценка значимости уравнения парной линейной регрессиии Оценка значимости уравнения парной линейной регрессиине связаны: Оценка значимости уравнения парной линейной регрессии.

Условие метода наименьших квадратов выполняется, если значения коэффициентов равны:

Оценка значимости уравнения парной линейной регрессии,

Оценка значимости уравнения парной линейной регрессии.

Пример 1. Найти уравнение парной линейной регрессии зависимости между валовым внутренним продуктом (ВВП) и частным потреблением на основе данных примера урока о корреляционной зависимости (эта ссылка, которая откроется в новом окне, потребуется и при разборе следующих примеров).

Решение. Используем рассчитанные в решении названного выше примера суммы:

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии

Используя эти суммы, вычислим коэффициенты:

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии

Таким образом получили уравнение прямой парной линейной регрессии:

Оценка значимости уравнения парной линейной регрессии

Составить уравнение парной линейной регрессии самостоятельно, а затем посмотреть решение

Пример 2. Найти уравнение парной линейной регрессии для выборки из 6 наблюдений, если уже вычислены следующие промежуточные результаты:

Оценка значимости уравнения парной линейной регрессии;

Оценка значимости уравнения парной линейной регрессии;

Оценка значимости уравнения парной линейной регрессии;

Оценка значимости уравнения парной линейной регрессии;

Видео:Парная и множественная линейная регрессияСкачать

Парная и множественная линейная регрессия

Анализ качества модели линейной регрессии

Метод наименьших квадратов имеет по меньшей мере один существенный недостаток: с его помощью можно найти уравнение линейной регрессии и в тех случаях, когда данные наблюдений значительно рассеяны вокруг прямой регрессии, то есть находятся на значительном расстоянии от этой прямой. В таких случаях за точность прогноза значений зависимой переменной ручаться нельзя. Существуют показатели, которые позволяют оценить качество уравнения линейной регрессии прежде чем использовать модели линейной регрессии для практических целей. Разберём важнейшие из этих показателей.

Коэффициент детерминации

Коэффициент детерминации Оценка значимости уравнения парной линейной регрессиипринимает значения от 0 до 1 и в случае качественной модели линейной регрессии стремится к единице. Коэффициент детерминации показывает, какую часть общего рассеяния зависимой переменной объясняет независимая переменная:

Оценка значимости уравнения парной линейной регрессии,

Оценка значимости уравнения парной линейной регрессии— сумма квадратов отклонений, объясняемых моделью линейной регрессии, которая характеризует рассеяние точек прямой регрессии относительно арифметического среднего,

Оценка значимости уравнения парной линейной регрессии— общая сумма квадратов отклонений, которая характеризует рассеяние зависимой переменной Y относительно арифметического среднего,

Оценка значимости уравнения парной линейной регрессии— сумма квадратов отклонений ошибки (не объясняемых моделью линейной регрессии), которая характеризует рассеяние зависимой переменной Y относительно прямой регресии.

Пример 3. Даны сумма квадратов отклонений, объясняемых моделью линейной регрессии (3500), общая сумма квадратов отклонений (5000) и сумма квадратов отклонений ошибки (1500). Найти коэффициент детерминации двумя способами.

F-статистика (статистика Фишера) для проверки качества модели линейной регрессии

Минимальное возможное значение F-статистики — 0. Чем выше значение статистики Фишера, тем качественнее модель линейной регрессии. Этот показатель представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы):

Оценка значимости уравнения парной линейной регрессии

где m — число объясняющих переменных.

Сумма квадратов остатков

Сумма квадратов остатков (RSS) измеряет необъясненную часть дисперсии зависимой переменной:

Оценка значимости уравнения парной линейной регрессии

Оценка значимости уравнения парной линейной регрессии

остатки — разности между реальными значениями зависимой переменной и значениями, оценёнными уравнением линейной регрессии.

В случае качественной модели линейной регрессии сумма квадратов остатков стремится к нулю.

Стандартная ошибка регрессии

Стандартная ошибка регрессии (SEE) измеряет величину квадрата ошибки, приходящейся на одну степень свободы модели:

Оценка значимости уравнения парной линейной регрессии

Чем меньше значение SEE, тем качественнее модель.

Пример 4. Рассчитать коэффициент детерминации для данных из примера 1.

Решение. На основании данных таблицы (она была приведена в примере урока о корреляционной зависимости) получаем, что SST = 63 770,593 , SSE = 10 459,587 , SSR = 53 311,007 .

Можем убедиться, что выполняется закономерность SSR = SSTSSE :

Получаем коэффициент детерминации:

Оценка значимости уравнения парной линейной регрессии.

Таким образом, 83,6% изменений частного потребления можно объяснить моделью линейной регресии.

Видео:Линейная регрессия. Оценка качества моделиСкачать

Линейная регрессия. Оценка качества модели

Интерпретация коэффициентов уравнения парной линейной регрессии и прогноз значений зависимой переменной

Итак, уравнение парной линейной регрессии:

Оценка значимости уравнения парной линейной регрессии.

В этом уравнении a — свободный член, b — коэффициент при независимой переменной.

Интерпретация свободного члена: a показывает, на сколько единиц график регрессии смещён вверх при x=0, то есть значение переменной y при нулевом значении переменной x.

Интерпретация коэффициента при независимой переменной: b показывает, на сколько единиц изменится значение зависимой переменной y при изменении x на одну единицу.

Пример 5. Зависимость частного потребления граждан от ВВП (истолкуем это просто: от дохода) описывается уравнением парной линейной регрессии Оценка значимости уравнения парной линейной регрессии. Сделать прогноз потребления при доходе в 20 000 у.е. Выяснить, на сколько увеливается потребление при увеличении дохода на 5000 у.е. Меняется ли потребление, если доход не меняется?

Решение. Подставляем в уравнение парной линейной регрессии x i = 20000 и получаем прогноз потребления при доходе в 20 000 у.е. y i = 17036,4662 .

Подставляем в уравнение парной линейной регрессии x i = 5000 и получаем прогноз увеличения потребления при увеличении дохода на 5000 у.е. y i = 4161,9662 .

Если доход не меняется, то x i = 0 и получаем, что потребление уменьшается на 129,5338 у.е.

Видео:Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Задачи регрессионного анализа

Регрессионный анализ — раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным.

Наиболее частые задачи регрессионного анализа:

  • установление факта наличия или отсутствия статистических зависимостей между переменными величинами;
  • выявление причинных связей между переменными величинами;
  • прогноз или восстановление неизвестных значений зависимых переменных по заданным значениям независимых переменных.

Также делаются проверки статистических гипотез о регрессии. Кроме того, при изучении связи между двумя величинами по результатам наблюдений в соответствии с теорией регрессии предполагается, что зависимая переменная имеет некоторое распределение вероятностей при фиксированном значении независимой переменной.

В исследованиях поведения человека, чтобы они претендовали на объективность, важно не только установить зависимость между факторами, но и получить все необходимые статистические показатели для результата проверки соответствующей гипотезы.

Видео:Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Проверка гипотезы о равенстве нулю коэффициента направления прямой парной линейной регрессии

Одна из важнейших гипотез в регрессионном анализе — гипотеза о том, что коэффициент направления прямой регрессии генеральной совокупности Оценка значимости уравнения парной линейной регрессииравен нулю.

Если это предположение верно, то изменения независимой переменной X не влияют на изменения зависимой переменной Y: переменные X и Y не коррелированы, то есть линейной зависимости Y от X нет.

Оценка значимости уравнения парной линейной регрессии

рассматривают во взаимосвязи с альтернативной гипотезой

Оценка значимости уравнения парной линейной регрессии.

Статистика коэффициента направления

Оценка значимости уравнения парной линейной регрессии

соответствует распределению Стьюдента с числом степеней свободы v = n — 2 ,

где Оценка значимости уравнения парной линейной регрессии— стандартная погрешность коэффициента направления прямой линейной регресии b 1 .

Доверительный интервал коэффициента направления прямой линейной регрессии:

Оценка значимости уравнения парной линейной регрессии.

Критическая область, в которой с вероятностью P = 1 — α отвергают нулевую гипотезу и принимают альтернативную гипотезу:

Оценка значимости уравнения парной линейной регрессии

Пример 6. На основе данных из предыдущих примеров (о ВВП и частном потреблении) определить доверительный интервал коэффициента направления прямой линейной регресии 95% и проверить гипотезу о равенстве нулю коэффициента направления прямой парной линейной регрессии.

Можем рассчитать, что Оценка значимости уравнения парной линейной регрессии, а стандартная погрешность регрессии Оценка значимости уравнения парной линейной регрессии.

Таким образом, стандартная погрешность коэффициента направления прямой линейной регресии b 1 :

Оценка значимости уравнения парной линейной регрессии.

Так как Оценка значимости уравнения парной линейной регрессиии Оценка значимости уравнения парной линейной регрессии(находим по таблице в приложениях к учебникам по статистике), то доверительный интервал 95% коэффициента направления прямой парной линейной регрессии:

Оценка значимости уравнения парной линейной регрессии.

Так как гипотетическое значение коэффициента — нуль — не принадлежит доверительному интервалу, с вероятностью 95% можем отвергнуть основную гипотезу и принять альтернативную гипотезу, то есть считать, что зависимая переменная Y линейно зависит от независимой переменной X.

📹 Видео

Критерий Стьюдента в формулах (парная регрессия)Скачать

Критерий Стьюдента в формулах (парная регрессия)

Уравнение парной линейной регрессии с помощью Анализа ДанныхСкачать

Уравнение парной линейной регрессии с помощью Анализа Данных

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Регрессия в ExcelСкачать

Регрессия в Excel

13-16 доска Оценка и распределение коэффициента в парной регрессииСкачать

13-16 доска Оценка и распределение коэффициента в парной регрессии

Парная нелинейная регрессияСкачать

Парная нелинейная регрессия

Множественная регрессияСкачать

Множественная регрессия

Коэффициент корреляции. Статистическая значимостьСкачать

Коэффициент корреляции.  Статистическая значимость

Линейная регрессияСкачать

Линейная регрессия

Метод наименьших квадратов. Парная регрессия расчет без Excel @economc #МНК #регрессия #корреляцияСкачать

Метод наименьших квадратов. Парная регрессия расчет без Excel @economc #МНК #регрессия #корреляция

Метод наименьших квадратов. Линейная аппроксимацияСкачать

Метод наименьших квадратов. Линейная аппроксимация
Поделиться или сохранить к себе: