Проверка уравнения регрессии на мультиколлинеарность

Мультиколлинеарность

Коэффициенты интеркорреляции (т. е. сила связи между объясняющими переменными) позволяют исключить из модели регрессии дублирующие факторы. Две переменных явно коллинеарны, когда они находятся между собой в линейной зависимости, если коэффициент корреляции > 0,7.

Поскольку одним из условий нахождения уравнения множественной регрессии является независимость действия факторов, коллинеарность факторов нарушает это условие. Если факторы модели коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Предпочтение в эконометрике отдается не фактору, более сильно связанному с результатом, а фактору, который при сильной связи с результатом имеет наименьшую тесноту связи с другими факторами. Т.е. коэффициент корреляции между факторами меньше 0,3 или, в идеале, близок к нулю. В этом условии проявляется специфика множественной регрессии как метода исследования комплексного влияния факторов на результат в условиях их независимости друг от друга.

Видео:Определение мультиколлинеарностиСкачать

Определение мультиколлинеарности

Матрица парных коэффициентов корреляции

Пусть, например, при изучении зависимости у = f(x, z, v) матрица парных коэффициентов корреляции оказалась следующей:

Проверка уравнения регрессии на мультиколлинеарность

Факторы х и z дублируют друг друга, т.к. связь между ними сильная (больше 0,7). В анализ нужно включить фактор z, а не х, так как корреляция z с результатом у слабее, чем корреляция фактора х с у, но значительно слабее межфакторная связь Rzv

Видео:Мультиколлинеарность. Алгоритм Фаррара-Глобера. Эконометрика. Регрессия. Multicollinearity.Скачать

Мультиколлинеарность. Алгоритм Фаррара-Глобера. Эконометрика. Регрессия. Multicollinearity.

Мультиколлинеарность

Видео:Множественная регрессия в Excel и мультиколлинеарностьСкачать

Множественная регрессия в Excel и мультиколлинеарность

Последствия и признаки мультиколлинеарности

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы, det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

Признаки мультиколлинеарности

  • Регрессионные коэффициенты значительно изменяются по мере удаления или добавления новых предикторов;
  • Регрессионный коэффициент отрицательный, хотя, исходя из теории, значения зависимой переменной должны расти пропорционально изменению предиктора(или наоборот);
  • Ни один из коэффициентов не обладает статистической значимостью, однако F-статистика показывает значимость коэффициента детерминации.
  • Регрессионный коэффициент не является значимым, хотя теоретически связь между ним и зависимой переменной должна быть существенной.
  • При изменении данных (увеличении или уменьшении выборки) оценки коэффициентов значительно изменяются

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Мультиколлинеарность повышает стандартную ошибку коэффициентов, тем самым искусственно снижая значимость.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t-статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1. xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Видео:Что поделать с мультиколлинеарностьюСкачать

Что поделать с мультиколлинеарностью

Парные (линейные) и частные коэффициенты корреляции

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y ), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r| 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t-критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят tкр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
Проверка уравнения регрессии на мультиколлинеарность, (2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если tНабл по модулю будет больше, чем tкрит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, ryx1|x2 (частный коэффициент корреляции между y и x1 при фиксированном влиянии x2), это означает, что определяется количественная мера линейной зависимости между y и x1, которая будет иметь место, если устранить влияние x2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции ryx1|x2 получится меньше, чем соответствующий парный коэффициент ryx1, значит, взаимосвязь признаков y и x1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x2. И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x2 ослабляет своим воздействием связь y и x1.
Частный коэффициент корреляции между двумя переменными (y и x2) при исключении влияния одного фактора (x1) можно вычислить по следующей формуле:
Проверка уравнения регрессии на мультиколлинеарность. (3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x2
Проверка уравнения регрессии на мультиколлинеарность;
при фиксированном x3
Проверка уравнения регрессии на мультиколлинеарность.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

Видео:МультиколлинеарностьСкачать

Мультиколлинеарность

Пошаговая регрессия

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

YX1X2
6103,5
6123,6
7153,9
7174,1
7184,2
8194,5
8195,3
9205,3
9205,6
10216
10216,3
11226,4
11237
12257,5
12287,9
13308,2
13318,4
14318,6
14359,5
153610

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора. Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

yx1x2
y10.970.991
x10.9710.977
x20.9910.9771

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов xi учитываются следующие условия:
— связь между результативным признаком и факторным должна быть выше межфакторной связи;
— связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
— при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае rx1 x2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 — связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:
Проверка уравнения регрессии на мультиколлинеарность
где m = 1 — количество факторов в уравнении регрессии.
Проверка уравнения регрессии на мультиколлинеарность
По таблице Стьюдента находим Tтабл
tкрит(n-m-1;α/2) = (18;0.025) = 2.101
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
Проверка уравнения регрессии на мультиколлинеарность
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значимю
Таким образом, связь между (y и xx1 ), (y и xx2 ) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности.
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 — хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий «хи-квадрат»).
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -[n-1-(2m+5)/6]ln(det[R])
где m = 2 — количество факторов, n = 20 — количество наблюдений, det[R] — определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χтабл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χтабл 2 (1;0.05) = 3.84146
Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).
Определяем обратную матрицу D = R -1 :

D =
55,365-2,256-52,656
-2,25622,386-19,642
-52,656-19,64272,373

Вычисляем F-критерии Фишера:
Проверка уравнения регрессии на мультиколлинеарность
где dkk — диагональные элементы матрицы.
Рассчитанные значения критериев сравниваются с табличными при v1=n-m и v2=m-1 степенях свободы и уровне значимости α. Если Fk > FТабл, то k-я переменная мультиколлинеарна с другими.
v1=20-2 = 18; v2=2-1 = 1. FТабл(18;1) = 248
Проверка уравнения регрессии на мультиколлинеарность
Поскольку F1 > Fтабл, то переменная y мультиколлинеарна с другими.
Проверка уравнения регрессии на мультиколлинеарность
Поскольку F2 > Fтабл, то переменная x1 мультиколлинеарна с другими.
Проверка уравнения регрессии на мультиколлинеарность
Поскольку F3 > Fтабл, то переменная x2 мультиколлинеарна с другими.

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции.
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.
Проверка уравнения регрессии на мультиколлинеарность
Проверка уравнения регрессии на мультиколлинеарность
Теснота связи низкая.
Определим значимость коэффициента корреляции ryx1 /x2 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Проверка уравнения регрессии на мультиколлинеарность
где k = 1 — число фиксируемых факторов.
Проверка уравнения регрессии на мультиколлинеарность
По таблице Стьюдента находим Tтабл
tкрит(n-k-2;α/2) = (17;0.025) = 2.11
Поскольку tнабл tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
Как видим, связь y и x2 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1 , x2.

Видео:Устранение мультиколлинеарности. Метод LASSO и гребневой регрессииСкачать

Устранение мультиколлинеарности. Метод LASSO и гребневой регрессии

Лабораторная работа №5 по курсу «Основы математической статистики и . планирование эксперимента» Множественная линейная регрессия. Мультиколлинеарность

Проверка уравнения регрессии на мультиколлинеарность

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное АВТОНОМНОЕ образовательное учреждение высшего профессионального образования
«Национальный исследовательский ядерный университет «МИФИ»

Димитровградский инженерно-технологический институт –
филиал федерального государственного автономного образовательного учреждения высшего
профессионального образования «Национальный исследовательский ядерный университет «МИФИ»
(ДИТИ НИЯУ МИФИ)

Лабораторная работа №5
по курсу «Основы математической статистики и
планирование эксперимента»

Множественная линейная регрессия. Мультиколлинеарность

Составил: доцент кафедры
высшей математики
канд. экон. наук

Теоретическая часть 4

Модели множественной регрессии 4

Идентификация моделей множественной линейной регрессии (МНК) 5

Мультиколлинеарность. Корреляционная матрица 7

Проверка качества уравнения множественной регрессии. Отбор факторов 9

Оформление отчета 15

Контрольные вопросы 15

Видео:Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Цель работы

Научиться осуществлять отбор факторов и оценивать значения параметров множественной линейной регрессии; выявлять мультиколлинеарность факторов; оценивать качество модели множественной регрессии.

Видео:Пример проверки гипотезы о незначимости регрессииСкачать

Пример проверки гипотезы о незначимости регрессии

Задание

Имеются выборки равного объема для показателей Y и X1, X2, X3, X4. Предполагается наличие линейной зависимости уровней Y от X1, X2, X3, X4. Необходимо выполнить следующее.

Построить корреляционную матрицу, проанализировать ее и отобрать неколлинеарные факторы.

Осуществить идентификацию модели со всеми включенными факторами, и модели с выбранными факторами. Проверка качества полученной модели – расчет классического и скорректированного коэффициента детерминации Расчет коэффициентов эластичности.

Рассчитать средние коэффициенты эластичности для каждого фактора, включенного в модель, пояснить их смысл.

Видео:Множественная регрессия в программе Statistica (Multiple regression)Скачать

Множественная регрессия в программе Statistica (Multiple regression)

Теоретическая часть

Модели множественной регрессии

Уравнение множественной регрессии описывает зависимость результативного признака Проверка уравнения регрессии на мультиколлинеарностьот нескольких факторов Проверка уравнения регрессии на мультиколлинеарность.

Уравнение множественной линейной регрессии имеет вид:

Проверка уравнения регрессии на мультиколлинеарность.

Как и в случае парной регрессии, для построения модели необходимо решить задачи ее спецификации, идентификации и верификации.

В общем случае спецификация модели множественной регрессии включает:

    отбор факторов модели; выбор функционального вида модели.

Модель множественной регрессии может быть и нелинейной, как по переменным, так и по параметрам, например:

    логарифмическая Проверка уравнения регрессии на мультиколлинеарностьстепенная Проверка уравнения регрессии на мультиколлинеарность, экспоненциальная Проверка уравнения регрессии на мультиколлинеарность, гиперболические Проверка уравнения регрессии на мультиколлинеарностьили Проверка уравнения регрессии на мультиколлинеарность, смешанные Проверка уравнения регрессии на мультиколлинеарностьи др.

В данной лабораторной работе рассматривается только линейная модель.

Что касается нелинейных, то для них справедливо все то же, что и в случае парной регрессии – нелинейные по параметрам модели необходимо линеаризовать, учитывая вхождение стохастической компоненты.

Широко используется модель множественной регрессии в стандартизованном масштабе:

Проверка уравнения регрессии на мультиколлинеарность,

Проверка уравнения регрессии на мультиколлинеарность, Проверка уравнения регрессии на мультиколлинеарность– нормированные и центрированные величины: Проверка уравнения регрессии на мультиколлинеарность, Проверка уравнения регрессии на мультиколлинеарность, Проверка уравнения регрессии на мультиколлинеарность, Проверка уравнения регрессии на мультиколлинеарность.

Уравнение регрессии в стандартизованном масштабе не содержит свободного члена, а переменные Проверка уравнения регрессии на мультиколлинеарность, Проверка уравнения регрессии на мультиколлинеарностьвыражаются в долях от своих СКО.

Параметры (или их оценки) стандартизованного уравнения регрессии связаны с параметрами в естественном масштабе следующими соотношениями:

Проверка уравнения регрессии на мультиколлинеарностьПроверка уравнения регрессии на мультиколлинеарность

Значения параметров Проверка уравнения регрессии на мультиколлинеарностьсравнимы между собой, а параметров Проверка уравнения регрессии на мультиколлинеарность– нет. Но Проверка уравнения регрессии на мультиколлинеарностьимеют качественную интерпретацию: каждый коэффициент линейной регрессии показывает, на сколько изменится зависимая переменная при увеличении соответствующей независимой переменной на 1 (и неизменности других переменных).

Идентификация моделей множественной линейной регрессии (МНК)

Идентификация модели множественной линейной регрессии осуществляется с помощью МНК.

Проверка уравнения регрессии на мультиколлинеарность.

Идентификацию можно выполнить несколькими способами, через уравнение регрессии в естественном масштабе или в стандартизованном масштабе.

Решение СЛАУ, являющейся реализацией МНК:

Проверка уравнения регрессии на мультиколлинеарность

В матричном виде уравнение множественной регрессии имеет вид:

Проверка уравнения регрессии на мультиколлинеарность Проверка уравнения регрессии на мультиколлинеарность Проверка уравнения регрессии на мультиколлинеарностьПроверка уравнения регрессии на мультиколлинеарность

Проверка уравнения регрессии на мультиколлинеарностьПроверка уравнения регрессии на мультиколлинеарность.

Тогда МНК записывается в виде:

Проверка уравнения регрессии на мультиколлинеарность

Проверка уравнения регрессии на мультиколлинеарность

Проверка уравнения регрессии на мультиколлинеарность

Проверка уравнения регрессии на мультиколлинеарность.

Замечание: под МНК нередко понимают именно эту формулу.

Уравнению регрессии в стандартизованном масштабе соответствует следующая система:

Проверка уравнения регрессии на мультиколлинеарность

Каждая сумма в данной системе преобразуется к соответствующему коэффициенту корреляции, например:

Проверка уравнения регрессии на мультиколлинеарность.

Проверка уравнения регрессии на мультиколлинеарность

Например, для Проверка уравнения регрессии на мультиколлинеарность

Проверка уравнения регрессии на мультиколлинеарность.

При любом способе решения, для множественной линейной регрессии справедлива теорема Гаусса-Маркова. Однако к пяти условиям Гаусса-Маркова, накладываемым на уравнение парной регрессии, добавляется еще одно:

6. Отсутствие мультиколлинеарности, т. е. линейной зависимости между объясняющими переменными:

Проверка уравнения регрессии на мультиколлинеарность.

При нарушении этого условия оценки параметров перестают быть эффективными, а решение системы уравнений в целом становится неустойчивым.

Можно сказать, что наличие линейной зависимости между факторами не позволяет «разделить» их влияние на эндогенную переменную и правильно рассчитать стоящие при них коэффициенты.

При совершенной (строгой) мультиколлинеарности между факторами существует явная функциональная зависимость:

Проверка уравнения регрессии на мультиколлинеарность.

На практике наиболее распространена несовершенная мультиколлинеарность, т. е. корреляционная зависимость между факторами:

Проверка уравнения регрессии на мультиколлинеарность.

Для устранения мультиколлинеарности используются следующие приемы:

Исключение факторов из модели. Если между двумя факторами существует мультиколлинеарность, один из них, менее информативный, следует исключить. Замена переменных – переход от исходных данных к их разностям, темпам роста и т. п. Изменение формы модели – переход от линейной зависимости к нелинейной. Это возможно, только если для нелинейной модели сохраняется зависимость между факторами и регрессором. Получение новой выборки. На практике это не всегда возможно, но на другой выборке показатели могут оказаться некоррелированными.

Мультиколлинеарность. Корреляционная матрица

Проверка наличия мультиколлинеарности осуществляется путем анализа матрицы парных коэффициентов корреляции:

Проверка уравнения регрессии на мультиколлинеарность.

При отсутствии мультиколлинеарности корреляционная матрица должна иметь вид:

Проверка уравнения регрессии на мультиколлинеарность.

При совершенной мультиколлинеарности:

Проверка уравнения регрессии на мультиколлинеарность.

Таким образом, чем ближе определитель матрицы R к 0, тем выше мультиколлинеарность. Если Проверка уравнения регрессии на мультиколлинеарностьблизок к 1, то мультиколлинеарность отсутствует.

Более строго проверку можно выполнить с помощью критерия Проверка уравнения регрессии на мультиколлинеарность.

Проверка уравнения регрессии на мультиколлинеарность– отсутствие мультиколлинеарности;

Проверка уравнения регрессии на мультиколлинеарность– наличие мультиколлинеарности.

Рассчитывается критерий, имеющий распределение Проверка уравнения регрессии на мультиколлинеарностьс Проверка уравнения регрессии на мультиколлинеарностьстепенями свободы:

Проверка уравнения регрессии на мультиколлинеарность.

Если Проверка уравнения регрессии на мультиколлинеарность, то гипотеза Проверка уравнения регрессии на мультиколлинеарностьотклоняется, и в модели присутствуют коррелирующие факторы.

Факторы, оказывающие наибольшее влияние друг на друга, и наименьшее на результативный признак, необходимо исключить из модели. Можно по одному исключать «наихудшие» факторы до тех пор, пока мультиколлинеарность не исчезнет.

Недостаток парных коэффициентов корреляции заключается в том, что они не учитывают косвенное влияние факторов друг на друга.

Необходимо рассчитывать частные коэффициенты корреляции, которые очищены от влияния других факторов.

Частный коэффициент корреляции, очищенный от влияния одного фактора xk рассчитывается по формуле:

Проверка уравнения регрессии на мультиколлинеарность

Частные коэффициенты корреляции, очищенные от влияния всех факторов рассчитываются через обратную матрицу Проверка уравнения регрессии на мультиколлинеарность:

Проверка уравнения регрессии на мультиколлинеарность.

Таким образом, получают матрицу частных коэффициентов корреляции:

Проверка уравнения регрессии на мультиколлинеарность.

Можно вычислить и частные коэффициенты корреляции между результативным признаком и факторами, например:

Проверка уравнения регрессии на мультиколлинеарность

Частные коэффициенты корреляции, очищенные ото всех факторов, можно получить также можно получить через обратную матрицу C, но тогда в корреляционную матрицу нужно добавить строку и столбец для Y:

Проверка уравнения регрессии на мультиколлинеарность.

Частные коэффициенты корреляции позволяют судить о взаимосвязи между двумя переменными при фиксированных значениях других переменных.

Проверка качества уравнения множественной регрессии. Отбор факторов

Качество уравнения регрессии может быть проверено с помощью тех же показателей, что и для парной регрессии – MAE, MAPE-оценки, коэффициента детерминации и др.

В данной работе используются следующие критерии.

Коэффициент множественной детерминации:

Проверка уравнения регрессии на мультиколлинеарность.

Скорректированный коэффициент детерминации:

Проверка уравнения регрессии на мультиколлинеарность.

Проверка уравнения регрессии на мультиколлинеарность

Если Проверка уравнения регрессии на мультиколлинеарность, то нулевую гипотезу Проверка уравнения регрессии на мультиколлинеарностьследует отклонить, и принять модель и Проверка уравнения регрессии на мультиколлинеарностьстатистически значимыми и надежными.

Проверка уравнения регрессии на мультиколлинеарность,

Проверка уравнения регрессии на мультиколлинеарность

Если Проверка уравнения регрессии на мультиколлинеарность, то соответствующий параметр можно считать статистически значимыми и надежными.

Отбор факторов, включаемых в уравнение регрессии, можно выполнить двумя путями:

последовательным включением факторов в модель (пошаговый отбор факторов) – сначала в модель включается один наиболее значимый фактор, затем второй и т. д., пока добавление новых факторов в модель повышает ее качество (скорректированный R2). последовательным исключением факторов – сначала в модель включаются все факторы, затем наименее информативные по одному исключаются из модели, пока не начнет уменьшаться ее качество.

Какой путь выбрать – зависит от конкретной задачи. Если большинство из рассматриваемых факторов достаточно сильно коррелированны с регрессором, то проще идти методом исключения. Если факторов с достаточно сильной корреляцией немного, то удобнее применить пошаговый отбор.

В целом, при выборе факторов, которые могут быть потенциально включены в модель, необходимо, чтобы они обладали двумя свойствами: 1) были количественно измеримы и 2) не были коррелированны между собой.

Видео:Критерий Фишера для проверки адекватности построенной регрессииСкачать

Критерий Фишера для проверки адекватности построенной регрессии

Пример выполнения работы

Задание

Исследуется взаимосвязь показателей качества жизни населения по выборке для 25 регионов:

Средняя ожидаемая продолжительность жизни при рождении, лет

Уровень рождаемости, чел. на 1000 чел. населения

Доля населения с денежными доходами ниже величины прожиточного минимума, % от всего населения

📺 Видео

Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Проверка гипотезы о значимости коэффициентов уравнения регрессииСкачать

Проверка гипотезы о значимости коэффициентов уравнения регрессии

Множественная регрессияСкачать

Множественная регрессия

Наличие мультиколлинеарностиСкачать

Наличие мультиколлинеарности

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в Excel

Проверка гипотез о коэффициентах в RСкачать

Проверка гипотез о коэффициентах в R

Множественная регрессия в программе SPSS (Multiple regression)Скачать

Множественная регрессия в программе SPSS (Multiple regression)
Поделиться или сохранить к себе: