Оценка качества уравнения регрессии по коэффициенту детерминации

Пример нахождения коэффициента детерминации

Коэффициент детерминации рассчитывается для оценки качества подбора уравнения регрессии. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50%. Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими. Значение коэффициента детерминации R 2 = 1 означает функциональную зависимость между переменными.

Для линейной зависимости коэффициент детерминации равен квадрату коэффициента корреляции rxy: R 2 = rxy 2 .
2 «>Рассчитать свое значение
Например, значение R 2 = 0.83, означает, что в 83% случаев изменения х приводят к изменению y . Другими словами, точность подбора уравнения регрессии — высокая.

В общем случае, коэффициент детерминации находится по формуле: Оценка качества уравнения регрессии по коэффициенту детерминацииили Оценка качества уравнения регрессии по коэффициенту детерминации
В этой формуле указаны дисперсии:
Оценка качества уравнения регрессии по коэффициенту детерминации,
где ∑(y- y ) 2 — общая сумма квадратов отклонений;
Оценка качества уравнения регрессии по коэффициенту детерминации— сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
Оценка качества уравнения регрессии по коэффициенту детерминации— остаточная сумма квадратов отклонений.

В случае нелинейной регрессии коэффициент детерминации рассчитывается через этот калькулятор. При множественной регрессии, коэффициент детемрминации можно найти через сервис Множественная регрессия

Пример . Дано:

  • доля денежных доходов, направленных на прирост сбережений во вкладах, займах, сертификатах и в покупку валюты, в общей сумме среднедушевого денежного дохода, % (Y)
  • среднемесячная начисленная заработная плата, тыс. руб. (X)

Следует выполнить: 1. построить поле корреляции и сформировать гипотезу о возможной форме и направлении связи; 2. рассчитать параметры уравнений линейной и A1; 3. выполнить расчет прогнозного значения результата, предполагая, что прогнозные значения факторов составят B2 % от их среднего уровня; 4. оценить тесноту связи с помощью показателей корреляции и детерминации, проанализировать их значения; 5. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом; 6. Оценить с помощью средней ошибки аппроксимации качество уравнений; 7. Оценить надежность уравнений в целом через F-критерий Фишера для уровня значимости а = 0,05. По значениям характеристик, рассчитанных в пп. 5,6 и данном пункте, выберете лучшее уравнение регрессии и дайте его обоснование.

  • Решение онлайн
  • Видео решение

Уравнение имеет вид y = ax + b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая.
Уравнение регрессии

Коэффициент детерминации для линейной регрессии равен квадрату коэффициента корреляции.
R 2 = 0.91 2 = 0.83, т.е. в 83% случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая

xyx 2y 2x ∙ yy(x)(y-y cp ) 2(y-y(x)) 2(x-x p ) 2
15.1255228.01650253850.5505.26527451.1762630.22420.25
17261289681214437549.38518772.0783161.41345.96
12293144858493516433.28473699.5319678.51556.96
10310100961003100386.84450587.755904.58655.36
741425547620306251054501872.88196906.672006001474.56
831985688939402251647552081.861007497.339381.62246.76
852549722564974012166652128.32457813.93176990.62440.36
812012656140481441629722035.421062428.38548.492061.16
221562484243984434364665.47337260.88803758.38184.96
103861001489963860386.84354332.480.71655.36
4383161466891532247.52357913.0318353.53998.56
14.1354.1198.81125386.814992.81482.04393327.5816368.87462.25
427.211775.127710.8219692405.81709494.3111775.18137990.811397376.912502.5
2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим

Анализ точности определения оценок коэффициентов регрессии

S a = 3.3432
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-557.64;913.38)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (6.95>1.812).

Статистическая значимость коэффициента регрессии b не подтверждается (0.96 Fkp, то коэффициент детерминации статистически значим

Видео:Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Основы линейной регрессии

Видео:Коэффициент детерминации. Основы эконометрикиСкачать

Коэффициент детерминации. Основы эконометрики

Что такое регрессия?

Разместим точки на двумерном графике рассеяния и скажем, что мы имеем линейное соотношение, если данные аппроксимируются прямой линией.

Если мы полагаем, что y зависит от x, причём изменения в y вызываются именно изменениями в x, мы можем определить линию регрессии (регрессия y на x), которая лучше всего описывает прямолинейное соотношение между этими двумя переменными.

Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889).

Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» и «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Видео:Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Линия регрессии

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

x называется независимой переменной или предиктором.

Y – зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»

  • a – свободный член (пересечение) линии оценки; это значение Y, когда x=0 (Рис.1).
  • b – угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.
  • a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия.

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис.1. Линия линейной регрессии, показывающая пересечение a и угловой коэффициент b (величину возрастания Y при увеличении x на одну единицу)

Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Метод наименьших квадратов

Мы выполняем регрессионный анализ, используя выборку наблюдений, где a и b – выборочные оценки истинных (генеральных) параметров, α и β , которые определяют линию линейной регрессии в популяции (генеральной совокупности).

Наиболее простым методом определения коэффициентов a и b является метод наименьших квадратов (МНК).

Подгонка оценивается, рассматривая остатки (вертикальное расстояние каждой точки от линии, например, остаток = наблюдаемому y – предсказанный y, Рис. 2).

Линию лучшей подгонки выбирают так, чтобы сумма квадратов остатков была минимальной.

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 2. Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.

Видео:Регрессия в ExcelСкачать

Регрессия в Excel

Предположения линейной регрессии

Итак, для каждой наблюдаемой величины Оценка качества уравнения регрессии по коэффициенту детерминацииостаток равен разнице Оценка качества уравнения регрессии по коэффициенту детерминациии соответствующего предсказанного Оценка качества уравнения регрессии по коэффициенту детерминацииКаждый остаток может быть положительным или отрицательным.

Можно использовать остатки для проверки следующих предположений, лежащих в основе линейной регрессии:

  • Между Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминациисуществует линейное соотношение: для любых пар Оценка качества уравнения регрессии по коэффициенту детерминацииданные должны аппроксимировать прямую линию. Если нанести на двумерный график остатки, то мы должны наблюдать случайное рассеяние точек, а не какую-либо систематическую картину.
  • Остатки нормально распределены с нулевым средним значением;
  • Остатки имеют одну и ту же вариабельность (постоянную дисперсию) для всех предсказанных величин Оценка качества уравнения регрессии по коэффициенту детерминацииЕсли нанести остатки против предсказанных величин Оценка качества уравнения регрессии по коэффициенту детерминацииот Оценка качества уравнения регрессии по коэффициенту детерминациимы должны наблюдать случайное рассеяние точек. Если график рассеяния остатков увеличивается или уменьшается с увеличением Оценка качества уравнения регрессии по коэффициенту детерминациито это допущение не выполняется;

Если допущения линейности, нормальности и/или постоянной дисперсии сомнительны, мы можем преобразовать Оценка качества уравнения регрессии по коэффициенту детерминацииили Оценка качества уравнения регрессии по коэффициенту детерминациии рассчитать новую линию регрессии, для которой эти допущения удовлетворяются (например, использовать логарифмическое преобразование или др.).

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Аномальные значения (выбросы) и точки влияния

«Влиятельное» наблюдение, если оно опущено, изменяет одну или больше оценок параметров модели (т.е. угловой коэффициент или свободный член).

Выброс (наблюдение, которое противоречит большинству значений в наборе данных) может быть «влиятельным» наблюдением и может хорошо обнаруживаться визуально, при осмотре двумерной диаграммы рассеяния или графика остатков.

И для выбросов, и для «влиятельных» наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).

При проведении анализа не стоит отбрасывать выбросы или точки влияния автоматически, поскольку простое игнорирование может повлиять на полученные результаты. Всегда изучайте причины появления этих выбросов и анализируйте их.

Видео:Коэффициент линейной регрессии, 2 способаСкачать

Коэффициент линейной регрессии, 2 способа

Гипотеза линейной регрессии

При построении линейной регрессии проверяется нулевая гипотеза о том, что генеральный угловой коэффициент линии регрессии β равен нулю.

Если угловой коэффициент линии равен нулю, между Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминациинет линейного соотношения: изменение Оценка качества уравнения регрессии по коэффициенту детерминациине влияет на Оценка качества уравнения регрессии по коэффициенту детерминации

Для тестирования нулевой гипотезы о том, что истинный угловой коэффициент Оценка качества уравнения регрессии по коэффициенту детерминацииравен нулю можно воспользоваться следующим алгоритмом:

Вычислить статистику критерия, равную отношению Оценка качества уравнения регрессии по коэффициенту детерминации, которая подчиняется Оценка качества уравнения регрессии по коэффициенту детерминациираспределению с Оценка качества уравнения регрессии по коэффициенту детерминациистепенями свободы, где Оценка качества уравнения регрессии по коэффициенту детерминациистандартная ошибка коэффициента Оценка качества уравнения регрессии по коэффициенту детерминации

Оценка качества уравнения регрессии по коэффициенту детерминации

Оценка качества уравнения регрессии по коэффициенту детерминации,

Оценка качества уравнения регрессии по коэффициенту детерминации— оценка дисперсии остатков.

Обычно если достигнутый уровень значимости Оценка качества уравнения регрессии по коэффициенту детерминациинулевая гипотеза отклоняется.

Можно рассчитать 95% доверительный интервал для генерального углового коэффициента Оценка качества уравнения регрессии по коэффициенту детерминации:

Оценка качества уравнения регрессии по коэффициенту детерминации

где Оценка качества уравнения регрессии по коэффициенту детерминациипроцентная точка Оценка качества уравнения регрессии по коэффициенту детерминациираспределения со степенями свободы Оценка качества уравнения регрессии по коэффициенту детерминациичто дает вероятность двустороннего критерия Оценка качества уравнения регрессии по коэффициенту детерминации

Это тот интервал, который содержит генеральный угловой коэффициент с вероятностью 95%.

Для больших выборок, скажем, Оценка качества уравнения регрессии по коэффициенту детерминациимы можем аппроксимировать Оценка качества уравнения регрессии по коэффициенту детерминациизначением 1,96 (то есть статистика критерия будет стремиться к нормальному распределению)

Видео:Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Оценка качества линейной регрессии: коэффициент детерминации R 2

Из-за линейного соотношения Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминациимы ожидаем, что Оценка качества уравнения регрессии по коэффициенту детерминацииизменяется, по мере того как изменяется Оценка качества уравнения регрессии по коэффициенту детерминации, и называем это вариацией, которая обусловлена или объясняется регрессией. Остаточная вариация должна быть как можно меньше.

Если это так, то большая часть вариации Оценка качества уравнения регрессии по коэффициенту детерминациибудет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным.

Долю общей дисперсии Оценка качества уравнения регрессии по коэффициенту детерминации, которая объясняется регрессией называют коэффициентом детерминации, обычно выражают через процентное соотношение и обозначают R 2 (в парной линейной регрессии это величина r 2 , квадрат коэффициента корреляции), позволяет субъективно оценить качество уравнения регрессии.

Разность Оценка качества уравнения регрессии по коэффициенту детерминациипредставляет собой процент дисперсии который нельзя объяснить регрессией.

Нет формального теста для оценки Оценка качества уравнения регрессии по коэффициенту детерминациимы вынуждены положиться на субъективное суждение, чтобы определить качество подгонки линии регрессии.

Видео:Критерий Фишера для проверки адекватности построенной регрессииСкачать

Критерий Фишера для проверки адекватности построенной регрессии

Применение линии регрессии для прогноза

Можно применять регрессионную линию для прогнозирования Оценка качества уравнения регрессии по коэффициенту детерминациизначения по значению Оценка качества уравнения регрессии по коэффициенту детерминациив пределе наблюдаемого диапазона (никогда не экстраполируйте вне этих пределов).

Мы предсказываем среднюю величину Оценка качества уравнения регрессии по коэффициенту детерминациидля наблюдаемых, которые имеют определенное значение Оценка качества уравнения регрессии по коэффициенту детерминациипутем подстановки этого значения Оценка качества уравнения регрессии по коэффициенту детерминациив уравнение линии регрессии.

Итак, если Оценка качества уравнения регрессии по коэффициенту детерминациипрогнозируем Оценка качества уравнения регрессии по коэффициенту детерминациикак Оценка качества уравнения регрессии по коэффициенту детерминацииИспользуем эту предсказанную величину и ее стандартную ошибку, чтобы оценить доверительный интервал для истинной средней величины Оценка качества уравнения регрессии по коэффициенту детерминациив популяции.

Повторение этой процедуры для различных величин Оценка качества уравнения регрессии по коэффициенту детерминациипозволяет построить доверительные границы для этой линии. Это полоса или область, которая содержит истинную линию, например, с 95% доверительной вероятностью.

Подобным образом можно рассчитать более широкую область, внутри которой, как мы ожидаем, лежит наибольшее число (обычно 95%) наблюдений.

Видео:Множественная регрессияСкачать

Множественная регрессия

Простые регрессионные планы

Простые регрессионные планы содержат один непрерывный предиктор. Если существует 3 наблюдения со значениями предиктора P , например, 7, 4 и 9, а план включает эффект первого порядка P , то матрица плана X будет иметь вид

Оценка качества уравнения регрессии по коэффициенту детерминации

а регрессионное уравнение с использованием P для X1 выглядит как

Если простой регрессионный план содержит эффект высшего порядка для P , например квадратичный эффект, то значения в столбце X1 в матрице плана будут возведены во вторую степень:

Оценка качества уравнения регрессии по коэффициенту детерминации

а уравнение примет вид

Y = b 0 + b 1 P 2

Сигма -ограниченные и сверхпараметризованные методы кодирования не применяются по отношению к простым регрессионным планам и другим планам, содержащим только непрерывные предикторы (поскольку, просто не существует категориальных предикторов). Независимо от выбранного метода кодирования, значения непрерывных переменных увеличиваются в соответствующей степени и используются как значения для переменных X . При этом перекодировка не выполняется. Кроме того, при описании регрессионных планов можно опустить рассмотрение матрицы плана X , а работать только с регрессионным уравнением.

Видео:Как вычислить линейный коэффициент корреляции в MS Excel и построить уравнение регрессии?Скачать

Как вычислить линейный коэффициент корреляции в MS Excel  и построить уравнение регрессии?

Пример: простой регрессионный анализ

Этот пример использует данные, представленные в таблице:

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 3. Таблица исходных данных.

Данные составлены на основе сравнения переписей 1960 и 1970 в произвольно выбранных 30 округах. Названия округов представлены в виде имен наблюдений. Информация относительно каждой переменной представлена ниже:

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 4. Таблица спецификаций переменных.

Задача исследования

Для этого примера будут анализироваться корреляция уровня бедности и степень, которая предсказывает процент семей, которые находятся за чертой бедности. Следовательно мы будем трактовать переменную 3 ( Pt_Poor ) как зависимую переменную.

Можно выдвинуть гипотезу: изменение численности населения и процент семей, которые находятся за чертой бедности, связаны между собой. Кажется разумным ожидать, что бедность ведет к оттоку населения, следовательно, здесь будет отрицательная корреляция между процентом людей за чертой бедности и изменением численности населения. Следовательно мы будем трактовать переменную 1 ( Pop_Chng ) как переменную-предиктор.

Просмотр результатов

Коэффициенты регрессии

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 5. Коэффициенты регрессии Pt_Poor на Pop_Chng.

На пересечении строки Pop_Chng и столбца Парам. не стандартизованный коэффициент для регрессии Pt_Poor на Pop_Chng равен -0.40374 . Это означает, что для каждого уменьшения численности населения на единицу, имеется увеличение уровня бедности на .40374. Верхний и нижний (по умолчанию) 95% доверительные пределы для этого не стандартизованного коэффициента не включают ноль, так что коэффициент регрессии значим на уровне p . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на .65.

Распределение переменных

Коэффициенты корреляции могут стать существенно завышены или занижены, если в данных присутствуют большие выбросы. Изучим распределение зависимой переменной Pt_Poor по округам. Для этого построим гистограмму переменной Pt_Poor .

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 6. Гистограмма переменной Pt_Poor.

Как вы можете заметить, распределение этой переменной заметно отличается от нормального распределения. Тем не менее, хотя даже два округа (два правых столбца) имеют высокий процент семей, которые находятся за чертой бедности, чем ожидалось в случае нормального распределения, кажется, что они находятся «внутри диапазона.»

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 7. Гистограмма переменной Pt_Poor.

Это суждение в некоторой степени субъективно. Эмпирическое правило гласит, что выбросы необходимо учитывать, если наблюдение (или наблюдения) не попадают в интервал (среднее ± 3 умноженное на стандартное отклонение). В этом случае стоит повторить анализ с выбросами и без, чтобы убедиться, что они не оказывают серьезного эффекта на корреляцию между членами совокупности.

Диаграмма рассеяния

Если одна из гипотез априори о взаимосвязи между заданными переменными, то ее полезно проверить на графике соответствующей диаграммы рассеяния.

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 8. Диаграмма рассеяния.

Диаграмма рассеяния показывает явную отрицательную корреляцию ( -.65 ) между двумя переменными. На ней также показан 95% доверительный интервал для линии регрессии, т.е., с 95% вероятностью линия регрессии проходит между двумя пунктирными кривыми.

Критерии значимости

Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 9. Таблица, содержащая критерии значимости.

Критерий для коэффициента регрессии Pop_Chng подтверждает, что Pop_Chng сильно связано с Pt_Poor , p .

На этом примере было показано, как проанализировать простой регрессионный план. Была также представлена интерпретация не стандартизованных и стандартизованных коэффициентов регрессии. Обсуждена важность изучения распределения откликов зависимой переменной, продемонстрирована техника определения направления и силы взаимосвязи между предиктором и зависимой переменной.

Видео:Линейная регрессия. Оценка качества моделиСкачать

Линейная регрессия. Оценка качества модели

Лекция по эконометрике. Лекция по эконометрике

НазваниеЛекция по эконометрике
Дата21.06.2018
Размер1.32 Mb.
Формат файлаОценка качества уравнения регрессии по коэффициенту детерминации
Имя файлаЛекция по эконометрике.docx
ТипЛекция
#47509
страница2 из 5
Оценка качества уравнения регрессии по коэффициенту детерминацииС этим файлом связано 6 файл(ов). Среди них: ЭКОНО Задача.docx, СТАТ в жив. Лекция №9.docx, Вопросы по АВтоматике.docx, ЛЕКЦИЯ СОЦ.СТАТ..doc, доступность к прдовольствию.pdf, Лекция по эконометрике.docx.
Оценка качества уравнения регрессии по коэффициенту детерминацииПоказать все связанные файлы Подборка по базе: 1. Лекция Особенности макетирования и верстки длинных документов, Медицинская статистика Лекция проф.Виноградова К.А.(1).pptx, 6 лекция Отбасы.ppt, 9-10 Лекция дуниетану.ppt, такт 5 лекция.doc, Тест к лекциям.doc, 3 лекция. куиз.docx, 3 лекция.pptx, антибиотики лекция.docx, ТПЭФМ_Практическое занятие 1_между лекциями 11 и 12.doc

2.1 Оценка общего качества уравнения регрессии
Для анализа общего качества полученного уравнения регрессии на количественном уровне используют коэффициент детерминации Оценка качества уравнения регрессии по коэффициенту детерминации. Он рассчитывается по формуле:

Оценка качества уравнения регрессии по коэффициенту детерминации.
В числителе вычитаемой из единицы дроби стоит сумма квадратов отклонений (СКО) выборочных значений зависимой переменной от теоретических, найденных с помощью уравнения регрессии Оценка качества уравнения регрессии по коэффициенту детерминации. В знаменателе – СКО наблюдений зависимой переменной от среднего значения.

Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объяснённой с помощью данного уравнения.

Замечание. В случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента линейной корреляции.

Более точным является значение коэффициента детерминации с поправкой на число степеней свободы.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

Оценка качества уравнения регрессии по коэффициенту детерминациидисперсия, характеризующая общий разброс;

Оценка качества уравнения регрессии по коэффициенту детерминацииостаточная дисперсия, где m – число независимых (объясняющих) переменных, в случае парной регрессии m =1 и формула имеет вид: Оценка качества уравнения регрессии по коэффициенту детерминации.

Учитывая приведённые выше обозначения, формула коэффициента детерминации с поправкой на число степеней свободы будет иметь вид:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Значения коэффициента Оценка качества уравнения регрессии по коэффициенту детерминацииизменяются от 0 до +1 (в редких случаях значение может быть и отрицательным числом).

Близость коэффициента детерминации к +1 свидетельствует о том, что существует статистически значимая линейная связь между переменными, а уравнение имеет хорошее качество.

Близость Оценка качества уравнения регрессии по коэффициенту детерминациик 0 говорит о том, что просто горизонтальная прямая Оценка качества уравнения регрессии по коэффициенту детерминацииявляется лучшей по сравнению с найденной регрессионной прямой.

Самостоятельную важность коэффициент детерминации приобретает только в случае множественной регрессии.
2.2 Оценка существенности параметров линейной регрессии и всего уравнения в целом
После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости производится на основе дисперсионного анализа.

Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения Оценка качества уравнения регрессии по коэффициенту детерминациираскладывается на две части – объясненную и необъясненную:
Оценка качества уравнения регрессии по коэффициенту детерминации
или, соответственно:

Оценка качества уравнения регрессии по коэффициенту детерминации
Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и уравнение должно иметь вид Оценка качества уравнения регрессии по коэффициенту детерминации.

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы (df-degrees of freedom) – это число независимо варьируемых значений признака.

Для общей СКО требуется (n-1) независимых отклонений,
Оценка качества уравнения регрессии по коэффициенту детерминации
Факторная СКО имеет одну степень свободы, и Оценка качества уравнения регрессии по коэффициенту детерминации
Оценка качества уравнения регрессии по коэффициенту детерминации
Таким образом, можем записать:Оценка качества уравнения регрессии по коэффициенту детерминации

Из этого баланса определяем, что Оценка качества уравнения регрессии по коэффициенту детерминации= n–2.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: Оценка качества уравнения регрессии по коэффициенту детерминации— общая дисперсия, Оценка качества уравнения регрессии по коэффициенту детерминации— факторная, Оценка качества уравнения регрессии по коэффициенту детерминации— остаточная.

Анализ статистической значимости коэффициентов линейной регрессии

Хотя теоретические значения коэффициентов Оценка качества уравнения регрессии по коэффициенту детерминацииуравнения линейной зависимости Оценка качества уравнения регрессии по коэффициенту детерминациипредполагаются постоянными величинами, оценки а и b этих коэффициентов, получаемые в ходе построения уравнения по данным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик.

Дисперсии коэффициентов рассчитываются по формулам:

Дисперсия коэффициента регрессии Оценка качества уравнения регрессии по коэффициенту детерминации:
Оценка качества уравнения регрессии по коэффициенту детерминации,
где Оценка качества уравнения регрессии по коэффициенту детерминации– остаточная дисперсия на одну степень свободы.

Дисперсия параметра Оценка качества уравнения регрессии по коэффициенту детерминации:
Оценка качества уравнения регрессии по коэффициенту детерминации
Отсюда стандартная ошибка коэффициента регрессии Оценка качества уравнения регрессии по коэффициенту детерминацииопределяется по формуле:
Оценка качества уравнения регрессии по коэффициенту детерминации,
Стандартная ошибка параметра Оценка качества уравнения регрессии по коэффициенту детерминацииопределяется по формуле:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Далее рассчитываются t – статистики:
Оценка качества уравнения регрессии по коэффициенту детерминации, Оценка качества уравнения регрессии по коэффициенту детерминации
Они служат для проверки нулевых гипотез о том, что истинное значение коэффициента регрессии b или свободного члена a равно нулю: Оценка качества уравнения регрессии по коэффициенту детерминации.

Альтернативная гипотеза имеет вид: Оценка качества уравнения регрессии по коэффициенту детерминации.

t – статистики имеют t – распределение Стьюдента с Оценка качества уравнения регрессии по коэффициенту детерминациистепенями свободы. По таблицам распределения Стьюдента при определённом уровне значимости α и Оценка качества уравнения регрессии по коэффициенту детерминациистепенях свободы находят критическое значение Оценка качества уравнения регрессии по коэффициенту детерминации.

Если Оценка качества уравнения регрессии по коэффициенту детерминации, то нулевая гипотеза должна быть отклонена, коэффициенты считаются статистически значимыми.

Если Оценка качества уравнения регрессии по коэффициенту детерминации, то нулевая гипотеза не может быть отклонена. (В случае, если коэффициент b статистически незначим, уравнение должно иметь вид Оценка качества уравнения регрессии по коэффициенту детерминации, и это означает, что связь между признаками отсутствует. В случае, если коэффициент а статистически незначим, рекомендуется оценить новое уравнение в виде Оценка качества уравнения регрессии по коэффициенту детерминации).

Интервальные оценки коэффициентов линейного уравнения регрессии:

Доверительный интервал для а: Оценка качества уравнения регрессии по коэффициенту детерминации.

Доверительный интервал для b: Оценка качества уравнения регрессии по коэффициенту детерминации

Это означает, что с заданной надёжностью Оценка качества уравнения регрессии по коэффициенту детерминации(где Оценка качества уравнения регрессии по коэффициенту детерминации— уровень значимости) истинные значения а, b находятся в указанных интервалах.

Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Оценка качества уравнения регрессии по коэффициенту детерминацииОни не должны включать нуль.

Анализ статистической значимости уравнения в целом.

Распределение Фишера в регрессионном анализе

Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза Оценка качества уравнения регрессии по коэффициенту детерминациио том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор х не оказывает влияния на результат y (Оценка качества уравнения регрессии по коэффициенту детерминации Оценка качества уравнения регрессии по коэффициенту детерминацииили Оценка качества уравнения регрессии по коэффициенту детерминации).

Величина F – критерия связана с коэффициентом детерминации. В случае множественной регрессии:
Оценка качества уравнения регрессии по коэффициенту детерминации,
где m – число независимых переменных.

В случае парной регрессии формула F – статистики принимает вид:
Оценка качества уравнения регрессии по коэффициенту детерминации.
При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы: Оценка качества уравнения регрессии по коэффициенту детерминации– в случае множественной регрессии, Оценка качества уравнения регрессии по коэффициенту детерминации– для парной регрессии.

Если Оценка качества уравнения регрессии по коэффициенту детерминации, то Оценка качества уравнения регрессии по коэффициенту детерминацииотклоняется и делается вывод о существенности статистической связи между y и x.

Если Оценка качества уравнения регрессии по коэффициенту детерминации, то вероятность уравнение регрессии считается статистически незначимым, Оценка качества уравнения регрессии по коэффициенту детерминациине отклоняется.

Замечание. В парной линейной регрессии Оценка качества уравнения регрессии по коэффициенту детерминации. Кроме того, Оценка качества уравнения регрессии по коэффициенту детерминации, поэтому Оценка качества уравнения регрессии по коэффициенту детерминации. Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число.

Пусть, например, вначале была оценена множественная линейная регрессия Оценка качества уравнения регрессии по коэффициенту детерминациипо п наблюдениям с т объясняющими переменными, и коэффициент детерминации равен Оценка качества уравнения регрессии по коэффициенту детерминации, затем последние k переменных исключены из числа объясняющих, и по тем же данным оценено уравнение Оценка качества уравнения регрессии по коэффициенту детерминации, для которого коэффициент детерминации равен Оценка качества уравнения регрессии по коэффициенту детерминации(Оценка качества уравнения регрессии по коэффициенту детерминацииОценка качества уравнения регрессии по коэффициенту детерминации, т.к. каждая дополнительная переменная объясняет часть , пусть небольшую, вариации зависимой переменной).

Для того, чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов при исключённых переменных, рассчитывается величина
Оценка качества уравнения регрессии по коэффициенту детерминации,
имеющая распределение Фишера с Оценка качества уравнения регрессии по коэффициенту детерминациистепенями свободы.

По таблицам распределения Фишера, при заданном уровне значимости, находят Оценка качества уравнения регрессии по коэффициенту детерминации. И если Оценка качества уравнения регрессии по коэффициенту детерминации, то нулевая гипотеза отвергается. В таком случае исключать все k переменных из уравнения некорректно.

Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких k новых объясняющих переменных.

В этом случае рассчитывается F – статистика
Оценка качества уравнения регрессии по коэффициенту детерминации,
имеющая распределение Оценка качества уравнения регрессии по коэффициенту детерминации. И если она превышает критический уровень, то включение новых переменных объясняет существенную часть необъяснённой ранее дисперсии зависимой переменной (т.е. включение новых объясняющих переменных оправдано).

Замечания. 1. Включать новые переменные целесообразно по одной.

2. Для расчёта F – статистики при рассмотрении вопроса о включении объясняющих переменных в уравнение желательно рассматривать коэффициент детерминации с поправкой на число степеней свободы.

F – статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений.

Пусть имеются 2 выборки, содержащие, соответственно, Оценка качества уравнения регрессии по коэффициенту детерминациинаблюдений. Для каждой из этих выборок оценено уравнение регрессии вида Оценка качества уравнения регрессии по коэффициенту детерминации. Пусть СКО Оценка качества уравнения регрессии по коэффициенту детерминацииот линии регрессии (т.е. Оценка качества уравнения регрессии по коэффициенту детерминации) равны для них, соответственно, Оценка качества уравнения регрессии по коэффициенту детерминации.

Проверяется нулевая гипотеза Оценка качества уравнения регрессии по коэффициенту детерминации: о том, что все соответствующие коэффициенты этих уравнений равны друг другу, т.е. уравнение регрессии для этих выборок одно и то же.

Пусть оценено уравнение регрессии того же вида сразу для всех Оценка качества уравнения регрессии по коэффициенту детерминациинаблюдений, и СКО Оценка качества уравнения регрессии по коэффициенту детерминации.

Тогда рассчитывается F – статистика по формуле:
Оценка качества уравнения регрессии по коэффициенту детерминации
Она имеет распределение Фишера с Оценка качества уравнения регрессии по коэффициенту детерминациистепенями свободы. F – статистика будет близкой к нулю, если уравнение для обеих выборок одинаково, т.к. в этом случае Оценка качества уравнения регрессии по коэффициенту детерминации. Т.е. если Оценка качества уравнения регрессии по коэффициенту детерминацииОценка качества уравнения регрессии по коэффициенту детерминации, то нулевая гипотеза принимается.

Если же Оценка качества уравнения регрессии по коэффициенту детерминации, то нулевая гипотеза отвергается, и единое уравнение регрессии построить нельзя.
2.3 Проверка предпосылок, лежащих в основе МНК
Следующим этапом оценивания качества уравнения является проверка выполнения предпосылок, лежащих в основе метода расчёта параметров МНК.

Предпосылками МНК являются:

1. случайный характер ошибок регрессии;

2. нулевая средняя величина ошибок регрессии, не зависящая от значения объясняющих переменных;

3. независимость распределения ошибок для различных наблюдений; в случае оценки уравнения на временных рядах – отсутствие автокорреляции ошибок;

4. постоянство дисперсии ошибок, её независимость от значений объясняющих переменных – гомоскедастичность (если эта предпосылка не выполняется, то имеет место гетероскедастичность ошибок);

5. нормальность распределения ошибок регрессии.

Для проверки выполнения каждой из предпосылок применения МНК имеются специальные тесты. Реализация многих из этих тестов предполагает значительный объём исходных данных.

Если распределение случайных ошибок Оценка качества уравнения регрессии по коэффициенту детерминациине соответствует некоторым предпосылкам МНК, то следует корректировать модель.

Проверка первой предпосылки МНК

Прежде всего, проверяется случайный характер остатков Оценка качества уравнения регрессии по коэффициенту детерминации– первая предпосылка МНК. С этой целью стоится график зависимости остатков Оценка качества уравнения регрессии по коэффициенту детерминацииот теоретических значений результативного признака (рис. 1). Если на графике получена горизонтальная полоса, то остатки Оценка качества уравнения регрессии по коэффициенту детерминациипредставляют собой случайные величины и МНК оправдан, теоретические значения Оценка качества уравнения регрессии по коэффициенту детерминациихорошо аппроксимируют фактические значения Оценка качества уравнения регрессии по коэффициенту детерминации.
Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 1. Зависимость случайных остатков Оценка качества уравнения регрессии по коэффициенту детерминацииот теоретических значений Оценка качества уравнения регрессии по коэффициенту детерминации.
Возможны следующие случаи, если Оценка качества уравнения регрессии по коэффициенту детерминациизависит от Оценка качества уравнения регрессии по коэффициенту детерминациито:
Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. 2. Зависимость случайных остатков Оценка качества уравнения регрессии по коэффициенту детерминацииот теоретических значений Оценка качества уравнения регрессии по коэффициенту детерминации.
В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки Оценка качества уравнения регрессии по коэффициенту детерминациине будут случайными величинами.

Проверка второй предпосылки МНК

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что Оценка качества уравнения регрессии по коэффициенту детерминации(или Оценка качества уравнения регрессии по коэффициенту детерминации). Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных.

Вместе с тем, несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин Оценка качества уравнения регрессии по коэффициенту детерминации, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков Оценка качества уравнения регрессии по коэффициенту детерминацииот теоретических значений результативного признака Оценка качества уравнения регрессии по коэффициенту детерминациистроится график зависимости случайных остатков Оценка качества уравнения регрессии по коэффициенту детерминацииот факторов, включенных в регрессию Оценка качества уравнения регрессии по коэффициенту детерминации(рис. 3).
Оценка качества уравнения регрессии по коэффициенту детерминации

Рис. .3. Зависимость величины остатков от величины фактора Оценка качества уравнения регрессии по коэффициенту детерминации.
Если остатки на графике расположены в виде горизонтальной полосы, то они независимы от значений Оценка качества уравнения регрессии по коэффициенту детерминации. Если же график показывает наличие зависимости Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминации, то модель неадекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора Оценка качества уравнения регрессии по коэффициенту детерминации. Может быть неправильна спецификация модели и в нее необходимо ввести дополнительные члены от Оценка качества уравнения регрессии по коэффициенту детерминации, например Оценка качества уравнения регрессии по коэффициенту детерминации. Скопление точек в определенных участках значений фактора Оценка качества уравнения регрессии по коэффициенту детерминацииговорит о наличии систематической погрешности модели.

Замечание. Предпосылка о нормальном распределении остатков (пятая предпосылка) позволяет проводить проверку параметров регрессии и корреляции с помощью Оценка качества уравнения регрессии по коэффициенту детерминации— и Оценка качества уравнения регрессии по коэффициенту детерминации-критериев. Вместе с тем, оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Автокорреляция ошибок. Статистика Дарбина-Уотсона

Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений Оценка качества уравнения регрессии по коэффициенту детерминацииот значений отклонений во всех других наблюдениях. Отсутствие зависимости гарантирует отсутствие коррелированности между любыми отклонениями, т.е. Оценка качества уравнения регрессии по коэффициенту детерминациии, в частности, между соседними отклонениями Оценка качества уравнения регрессии по коэффициенту детерминации.

Автокорреляция (последовательная корреляция) остатков определяется как корреляция между соседними значениями случайных отклонений во времени (временные ряды) или в пространстве (перекрестные данные). Она обычно встречается во временных рядах и очень редко – в пространственных данных.

Возможны следующие случаи:
Оценка качества уравнения регрессии по коэффициенту детерминации
Эти случаи могут свидетельствовать о возможности улучшить уравнение путём оценивания новой нелинейной формулы или включения новой объясняющей переменной.

В экономических задачах значительно чаще встречается положительная автокорреляция, чем отрицательная автокорреляция.

Если же характер отклонений случаен, то можно предположить, что в половине случаев знаки соседних отклонений совпадают, а в половине – различны.

Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу.

  1. Она может быть связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака.
  2. В ряде случаев автокорреляция может быть следствием неправильной спецификации модели. Модель может не включать фактор, который оказывает существенное воздействие на результат и влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Очень часто этим фактором является фактор времени Оценка качества уравнения регрессии по коэффициенту детерминации.

От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму модели, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции в остатках.

Для обнаружения автокорреляции используют либо графический метод. Либо статистические тесты.

Графический метод заключается в построении графика зависимости ошибок от времени (в случае временных рядов) или от объясняющих переменных и визуальном определении наличия или отсутствия автокорреляции. Наиболее известный критерий обнаружения автокорреляции первого порядка – критерий Дарбина-Уотсона. Статистика DW Дарбина-Уотсона приводится во всех специальных компьютерных программах как одна из важнейших характеристик качества регрессионной модели. Сначала по построенному эмпирическому уравнению регрессии определяются значения отклонений Оценка качества уравнения регрессии по коэффициенту детерминации. А затем рассчитывается статистика Дарбина-Уотсона по формуле:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Статистика DW изменяется от 0 до 4. DW=0 соответствует положительной автокорреляции, при отрицательной автокорреляции DW=4. Когда автокорреляция отсутствует, коэффициент автокорреляции равен нулю, и статистика DW = 2. Алгоритм выявления автокорреляции остатков на основе критерия Дарбина-Уотсона следующий. Выдвигается гипотеза Оценка качества уравнения регрессии по коэффициенту детерминацииоб отсутствии автокорреляции остатков. Альтернативные гипотезы Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминациисостоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках. Далее по специальным таблицам определяются критические значения критерия Дарбина-Уотсона Оценка качества уравнения регрессии по коэффициенту детерминации(- нижняя граница признания положительной автокорреляции) и Оценка качества уравнения регрессии по коэффициенту детерминации(-верхняя граница признания отсутствия положительной автокорреляции) для заданного числа наблюдений Оценка качества уравнения регрессии по коэффициенту детерминации, числа независимых переменных модели Оценка качества уравнения регрессии по коэффициенту детерминациии уровня значимости Оценка качества уравнения регрессии по коэффициенту детерминации. По этим значениям числовой промежуток Оценка качества уравнения регрессии по коэффициенту детерминацииразбивают на пять отрезков. Принятие или отклонение каждой из гипотез с вероятностью Оценка качества уравнения регрессии по коэффициенту детерминацииосуществляется следующим образом:

Оценка качества уравнения регрессии по коэффициенту детерминации– положительная автокорреляция, принимается Оценка качества уравнения регрессии по коэффициенту детерминации;

Оценка качества уравнения регрессии по коэффициенту детерминации– зона неопределенности;

Оценка качества уравнения регрессии по коэффициенту детерминации– автокорреляция отсутствует;

Оценка качества уравнения регрессии по коэффициенту детерминации– зона неопределенности;

Оценка качества уравнения регрессии по коэффициенту детерминации– отрицательная автокорреляция, принимается Оценка качества уравнения регрессии по коэффициенту детерминации.

Оценка качества уравнения регрессии по коэффициенту детерминации
Если фактическое значение критерия Дарбина-Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют гипотезу Оценка качества уравнения регрессии по коэффициенту детерминации.

Можно показать, что статистика DW тесно связана с коэффициентом автокорреляции первого порядка:
Оценка качества уравнения регрессии по коэффициенту детерминации
Связь выражается формулой:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Значения r изменяются от –1 (в случае отрицательной автокорреляции) до +1 (в случае положительной автокорреляции). Близость r к нулю свидетельствует об отсутствии автокорреляции.

При отсутствии таблиц критических значений DW можно использовать следующее «грубое» правило: при достаточном числе наблюдений (12-15), при 1-3 объясняющих переменных, если Оценка качества уравнения регрессии по коэффициенту детерминации, то отклонения от линии регрессии можно считать взаимно независимыми.

Либо применить к данным уменьшающее автокорреляцию преобразование (например автокорреляционное преобразование или метод скользящих средних).

Существует несколько ограничений на применение критерия Дарбина-Уотсона.

  1. Критерий DW применяется лишь для тех моделей, которые содержат свободный член.
  2. Предполагается, что случайные отклонения определяются по итерационной схеме

Оценка качества уравнения регрессии по коэффициенту детерминации,
называемой авторегрессионной схемой первого порядка AR(1). Здесь Оценка качества уравнения регрессии по коэффициенту детерминации– случайный член.

  1. Статистические данные должны иметь одинаковую периодичность (не должно быть пропусков в наблюдениях).
  2. Критерий Дарбина – Уотсона не применим к авторегрессионным моделям, которые содержат в числе факторов также зависимую переменную с временным лагом (запаздыванием) в один период.

Для авторегрессионных моделей предлагается h – статистика Дарбина
Оценка качества уравнения регрессии по коэффициенту детерминации,
где Оценка качества уравнения регрессии по коэффициенту детерминации– оценка коэффициента автокорреляции первого порядка, D(c) – выборочная дисперсия коэффициента при лаговой переменной yt-1, n – число наблюдений.

Обычно значение Оценка качества уравнения регрессии по коэффициенту детерминациирассчитывается по формуле Оценка качества уравнения регрессии по коэффициенту детерминации, а D(c) равна квадрату стандартной ошибки Sc оценки коэффициента с.

Методы устранения автокорреляции. Авторегрессионное преобразование

В случае наличия автокорреляции остатков полученная формула регрессии обычно считается неудовлетворительной. Автокорреляция ошибок первого порядка говорит о неверной спецификации модели. Поэтому следует попытаться скорректировать саму модель. Посмотрев на график ошибок, можно поискать другую (нелинейную) формулу зависимости, включить неучтённые до этого факторы, уточнить период проведения расчётов или разбить его на части.

Если все эти способы не помогают и автокорреляция вызвана какими–то внутренними свойствами ряда <ei>, можно воспользоваться преобразованием, которое называется авторегрессионной схемой первого порядка AR(1). (Авторегрессией это преобазование называется потому, что значение ошибки Оценка качества уравнения регрессии по коэффициенту детерминацииопределяется значением той же самой величины, но с запаздыванием. Т.к. максимальное запаздывание равно 1, то это авторегрессия первого порядка).

Формула AR(1) имеет вид:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Где Оценка качества уравнения регрессии по коэффициенту детерминации-коэффициент автокорреляции первого порядка ошибок регрессии.

Рассмотрим AR(1) на примере парной регрессии:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Тогда соседним наблюдениям соответствует формула:
Оценка качества уравнения регрессии по коэффициенту детерминации(1),

Оценка качества уравнения регрессии по коэффициенту детерминации(2).
Умножим (2) на Оценка качества уравнения регрессии по коэффициенту детерминациии вычтем из (1):
Оценка качества уравнения регрессии по коэффициенту детерминации.

Сделаем замены переменных
Оценка качества уравнения регрессии по коэффициенту детерминации
получим с учетом
Оценка качества уравнения регрессии по коэффициенту детерминации:

Оценка качества уравнения регрессии по коэффициенту детерминации(6).
Это преобразование называется авторегрессионным (преобразованием Бокса-Дженкинса).

Поскольку случайные отклонения Оценка качества уравнения регрессии по коэффициенту детерминацииудовлетворяют предпосылкам МНК, оценки а * и b будут обладать свойствами наилучших линейных несмещенных оценок. По преобразованным значениям всех переменных с помощью обычного МНК вычисляются оценки параметров а* и b, которые затем можно использовать в регрессии.

Т.о. если остатки по исходному уравнению регрессии автокоррелированы, то для оценки параметров уравнения используют следующие преобразования:

1) Преобразовать исходные переменные у и х к виду (3), (4).

2) Обычным МНК для уравнения (6) определить оценки а * и b.

3) Рассчитать параметр а исходного уравнения из соотношения (4)Оценка качества уравнения регрессии по коэффициенту детерминации.

4) Записать исходное уравнение (1) с параметрами а и b (где а — из п.3, а b берётся непосредственно из уравнения (6)).

Авторегрессионное преобразование может быть обобщено на произвольное число объясняющих переменных, т.е. использовано для уравнения множественной регрессии.

Для преобразования AR(1) важно оценить коэффициент автокорреляции ρ. Это делается несколькими способами. Самое простое – оценить ρ на основе статистики DW:
Оценка качества уравнения регрессии по коэффициенту детерминации,
где r берется в качестве оценки ρ. Этот метод хорошо работает при большом числе наблюдений.

В случае, когда есть основания считать, что положительная автокорреляция отклонений очень велика (Оценка качества уравнения регрессии по коэффициенту детерминации), можно использовать метод первых разностей (метод исключения тенденции), уравнение принимает вид
Оценка качества уравнения регрессии по коэффициенту детерминации

Оценка качества уравнения регрессии по коэффициенту детерминацииОценка качества уравнения регрессии по коэффициенту детерминации.
Из уравнения по МНК оценивается коэффициент b. Параметр а здесь не определяется непосредственно, однако из МНК известно, что Оценка качества уравнения регрессии по коэффициенту детерминации.

В случае полной отрицательной автокорреляции отклонений (Оценка качества уравнения регрессии по коэффициенту детерминации)
Оценка качества уравнения регрессии по коэффициенту детерминации,
получаем уравнение регрессии:
Оценка качества уравнения регрессии по коэффициенту детерминации
или Оценка качества уравнения регрессии по коэффициенту детерминации.

Вычисляются средние за 2 периода, а затем по ним рассчитывают а и b. Данная модель называется моделью регрессии по скользящим средним.

Проверка гомоскедастичности дисперсии ошибок

В соответствии с четвёртой предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора Оценка качества уравнения регрессии по коэффициенту детерминацииостатки Оценка качества уравнения регрессии по коэффициенту детерминацииимеют одинаковую дисперсию Оценка качества уравнения регрессии по коэффициенту детерминации. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность.

В качестве примера реальной гетероскедастичности можно привести то, что люди с большим доходом не только тратят в среднем больше, чем люди с меньшим доходом, но и разброс в их потреблении также больше, поскольку они имеют больше простора для распределения дохода.

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (- графический метод обнаружения гетероскедастичности).
Оценка качества уравнения регрессии по коэффициенту детерминации
Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков Оценка качества уравнения регрессии по коэффициенту детерминацииот теоретических значений результативного признака Оценка качества уравнения регрессии по коэффициенту детерминации.

Оценка качества уравнения регрессии по коэффициенту детерминации
Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- и гетероскедастичности.

При нарушении гомоскедастичности имеем неравенства: Оценка качества уравнения регрессии по коэффициенту детерминации, где Оценка качества уравнения регрессии по коэффициенту детерминации— постоянная дисперсия ошибки при соблюдении предпосылки. Т.е. можно записать, что дисперсия ошибки при Оценка качества уравнения регрессии по коэффициенту детерминациинаблюдении пропорциональна постоянной дисперсии: Оценка качества уравнения регрессии по коэффициенту детерминацииОценка качества уравнения регрессии по коэффициенту детерминации.

Оценка качества уравнения регрессии по коэффициенту детерминации— коэффициент пропорциональности. Он меняется при переходе от одного значения фактора Оценка качества уравнения регрессии по коэффициенту детерминациик другому.

Задача состоит в том, чтобы определить величину Оценка качества уравнения регрессии по коэффициенту детерминациии внести поправку в исходные переменные. При этом используют обобщённый МНК, который эквивалентен обычному МНК, применённому к преобразованным данным.

Чтобы убедиться в обоснованности использования обобщённого МНК проводят эмпирическое подтверждение наличия гетероскедастичности.

При малом объёме выборки, что наиболее характерно для эмпирических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта (в 1965 г. они рассмотрели модель парной линейной регрессии, в которой дисперсия ошибок пропорциональна квадрату фактора). Пусть рассматривается модель, в которой дисперсия Оценка качества уравнения регрессии по коэффициенту детерминациипропорциональна квадрату фактора: Оценка качества уравнения регрессии по коэффициенту детерминации, Оценка качества уравнения регрессии по коэффициенту детерминации. А также остатки имеют нормальное распределение и отсутствует автокорреляция остатков.

Параметрический тест (критерий) Гольдфельда – Квандта:

1. Все n наблюдений в выборке упорядочиваются по величине x.

2. Вся упорядоченная выборка разбивается на три подвыборки (объёмом k, С, k.)
Оценка качества уравнения регрессии по коэффициенту детерминации.
Исключаются из рассмотрения С центральных наблюдений. (По рекомендациям специалистов, объём исключаемых данных С должен быть примерно равен четверти общего объёма выборки n, в частности, при n =20, С=4; при n =30, С = 8; при n =60, С=16).

3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для последней подвыборки (k последних наблюдений).

4. Определяются остаточные суммы квадратов Оценка качества уравнения регрессии по коэффициенту детерминациидля первой и второй Оценка качества уравнения регрессии по коэффициенту детерминациигрупп. Если предположение о пропорциональности дисперсий отклонений значениям x верно, то Оценка качества уравнения регрессии по коэффициенту детерминации.

5. Выдвигается нулевая гипотеза Оценка качества уравнения регрессии по коэффициенту детерминациикоторая предполагает отсутствие гетероскедастичности.

Для проверки этой гипотезы рассчитывается отношение
Оценка качества уравнения регрессии по коэффициенту детерминации,
которое имеет распределение Фишера с Оценка качества уравнения регрессии по коэффициенту детерминациистепеней свободы (здесь m – число объясняющих переменных).

Если Оценка качества уравнения регрессии по коэффициенту детерминации, то гипотеза об отсутствии гетероскедастичности отклоняется при уровне значимости α.

Этот же тест может быть использован и при предположении об обратной пропорциональности между дисперсией и значениями объясняющей переменной Оценка качества уравнения регрессии по коэффициенту детерминации. В этом случае статистика Фишера принимает вид:
Оценка качества уравнения регрессии по коэффициенту детерминации.
При установлении гетероскедастичности возникает необходимость преобразования модели с целью устранения данного недостатка. Вид преобразования зависит от того, известны или нет дисперсии отклонений Оценка качества уравнения регрессии по коэффициенту детерминации. Обобщенный метод наименьших квадратов (ОМНК)

При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов заменять обобщенным методом наименьших квадратов (ОМНК).

Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Остановимся на использовании ОМНК для корректировки гетероскедастичности. Рассмотрим ОМНК для корректировки гетероскедастичности. Будем предполагать, что среднее значение остаточных величин равно нулю Оценка качества уравнения регрессии по коэффициенту детерминации, а дисперсия пропорциональна величине Оценка качества уравнения регрессии по коэффициенту детерминации.

Оценка качества уравнения регрессии по коэффициенту детерминации,
где Оценка качества уравнения регрессии по коэффициенту детерминации– дисперсия ошибки при конкретном Оценка качества уравнения регрессии по коэффициенту детерминации-м значении фактора; Оценка качества уравнения регрессии по коэффициенту детерминации– постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; Оценка качества уравнения регрессии по коэффициенту детерминации– коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии.

При этом предполагается, что Оценка качества уравнения регрессии по коэффициенту детерминациинеизвестна, а в отношении величин Оценка качества уравнения регрессии по коэффициенту детерминациивыдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности.

В общем виде для уравнения Оценка качества уравнения регрессии по коэффициенту детерминациимодель примет вид:
Оценка качества уравнения регрессии по коэффициенту детерминации.
В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в ходе Оценка качества уравнения регрессии по коэффициенту детерминации-го наблюдения, на Оценка качества уравнения регрессии по коэффициенту детерминации. Тогда дисперсия остатков будет величиной постоянной, т. е. Оценка качества уравнения регрессии по коэффициенту детерминации.

Иными словами, от регрессии Оценка качества уравнения регрессии по коэффициенту детерминациипо Оценка качества уравнения регрессии по коэффициенту детерминациимы перейдем к регрессии на новых переменных: Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминации. Уравнение регрессии примет вид:
Оценка качества уравнения регрессии по коэффициенту детерминации,
а исходные данные для данного уравнения будут иметь вид:
Оценка качества уравнения регрессии по коэффициенту детерминации,Оценка качества уравнения регрессии по коэффициенту детерминации.
По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешенную регрессию, в которой переменные Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминациивзяты с весами Оценка качества уравнения регрессии по коэффициенту детерминации.

Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида
Оценка качества уравнения регрессии по коэффициенту детерминации.
Соответственно получим следующую систему нормальных уравнений:
Оценка качества уравнения регрессии по коэффициенту детерминации

Оценка качества уравнения регрессии по коэффициенту детерминации,
Т.е. коэффициент регрессии Оценка качества уравнения регрессии по коэффициенту детерминациипри использовании обобщенного МНК с целью корректировки гетероскедастичности представляет собой взвешенную величину по отношению к обычному МНК с весом Оценка качества уравнения регрессии по коэффициенту детерминации.

Если преобразованные переменные Оценка качества уравнения регрессии по коэффициенту детерминациии Оценка качества уравнения регрессии по коэффициенту детерминациивзять в отклонениях от средних уровней, то коэффициент регрессии Оценка качества уравнения регрессии по коэффициенту детерминацииможно определить как
Оценка качества уравнения регрессии по коэффициенту детерминации.
При обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии Оценка качества уравнения регрессии по коэффициенту детерминацииопределяется по формуле:Оценка качества уравнения регрессии по коэффициенту детерминации.

Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии.

Для применения ОМНК необходимо знать фактические значения дисперсий отклонений Оценка качества уравнения регрессии по коэффициенту детерминации. На практике такие значения известны крайне редко. Поэтому, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях Оценка качества уравнения регрессии по коэффициенту детерминации. В эконометрических исследованиях чаще всего предполагается, что дисперсии отклонений пропорциональны или значениям xi, или значениям Оценка качества уравнения регрессии по коэффициенту детерминации, т.е Оценка качества уравнения регрессии по коэффициенту детерминацииили Оценка качества уравнения регрессии по коэффициенту детерминации.

Если предположить, что дисперсии пропорциональны значениям фактора x, т.е. Оценка качества уравнения регрессии по коэффициенту детерминации, тогда уравнение парной регрессии Оценка качества уравнения регрессии по коэффициенту детерминациипреобразуется делением его левой и правой частей на Оценка качества уравнения регрессии по коэффициенту детерминации:

Оценка качества уравнения регрессии по коэффициенту детерминации

Оценка качества уравнения регрессии по коэффициенту детерминации.
Здесь для случайных отклонений Оценка качества уравнения регрессии по коэффициенту детерминациивыполняется условие гомоскедастичности. Следовательно, для регрессии применим обычный МНК. Следует отметить, что новая регрессия не имеет свободного члена, но зависит от двух факторов. Оценив для неё по МНК коэффициенты а и b, возвращаемся к исходному уравнению регрессии.

Если предположить, что дисперсии Оценка качества уравнения регрессии по коэффициенту детерминации, то соответствующим преобразованием будет деление уравнения парной регрессии Оценка качества уравнения регрессии по коэффициенту детерминациина xi:
Оценка качества уравнения регрессии по коэффициенту детерминации
или, если переобозначить остатки как Оценка качества уравнения регрессии по коэффициенту детерминации:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Здесь для отклонений vi также выполняется условие гомоскедастичности.

В полученной регрессии по сравнению с исходным уравнением параметры поменялись ролями: свободный член а стал коэффициентом, а коэффициент b – свободным членом. Применяя обычный МНК в преобразованных переменных

Оценка качества уравнения регрессии по коэффициенту детерминации,
получим оценки параметров, после чего возвращаемся к исходному уравнению.

Пример. Рассматривая зависимость сбережений Оценка качества уравнения регрессии по коэффициенту детерминацииот дохода Оценка качества уравнения регрессии по коэффициенту детерминации, по первоначальным данным было получено уравнение регрессии
Оценка качества уравнения регрессии по коэффициенту детерминации.
Применяя обобщенный МНК к данной модели в предположении, что ошибки пропорциональны доходу, было получено уравнение для преобразованных данных:
Оценка качества уравнения регрессии по коэффициенту детерминации.
Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т.е. 0,1178 и 0,1026 – оценки параметра Оценка качества уравнения регрессии по коэффициенту детерминациизависимости сбережений от дохода.

В случае множественной регрессии Оценка качества уравнения регрессии по коэффициенту детерминации,

Если предположить Оценка качества уравнения регрессии по коэффициенту детерминации(т.е. дисперсия ошибок пропорциональна квадрату первой объясняющей переменной), то в этом случае обобщенный МНК предполагает оценку параметров следующего трансформированного уравнения:
Оценка качества уравнения регрессии по коэффициенту детерминации.

Следует иметь в виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным.

Пример. Пусть Оценка качества уравнения регрессии по коэффициенту детерминации– издержки производства, Оценка качества уравнения регрессии по коэффициенту детерминации– объем продукции, Оценка качества уравнения регрессии по коэффициенту детерминации– основные производственные фонды, Оценка качества уравнения регрессии по коэффициенту детерминации– численность работников, тогда уравнение
Оценка качества уравнения регрессии по коэффициенту детерминации
является моделью издержек производства с объемными факторами. Предполагая, что Оценка качества уравнения регрессии по коэффициенту детерминациипропорциональна квадрату численности работников Оценка качества уравнения регрессии по коэффициенту детерминации, мы получим в качестве результативного признака затраты на одного работника Оценка качества уравнения регрессии по коэффициенту детерминации, а в качестве факторов следующие показатели: производительность труда Оценка качества уравнения регрессии по коэффициенту детерминациии фондовооруженность труда Оценка качества уравнения регрессии по коэффициенту детерминации. Соответственно трансформированная модель примет вид
Оценка качества уравнения регрессии по коэффициенту детерминации,
где параметры Оценка качества уравнения регрессии по коэффициенту детерминации, Оценка качества уравнения регрессии по коэффициенту детерминации, Оценка качества уравнения регрессии по коэффициенту детерминациичисленно не совпадают с аналогичными параметрами предыдущей модели. Кроме этого, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение издержек производства с изменением абсолютной величины соответствующего фактора на единицу, они фиксируют при обобщенном МНК среднее изменение затрат на работника; с изменением производительности труда на единицу при неизменном уровне фовдовооруженности труда; и с изменением фондовооруженности труда на единицу при неизменном уровне производительности труда.

Если предположить, что в модели с первоначальными переменными дисперсия остатков пропорциональна квадрату объема продукции, Оценка качества уравнения регрессии по коэффициенту детерминации, можно перейти к уравнению регрессии вида
Оценка качества уравнения регрессии по коэффициенту детерминации.
В нем новые переменные: Оценка качества уравнения регрессии по коэффициенту детерминации– затраты на единицу (или на 1 руб. продукции), Оценка качества уравнения регрессии по коэффициенту детерминации– фондоемкость продукции, Оценка качества уравнения регрессии по коэффициенту детерминации– трудоемкость продукции.

В заключение следует отметить, что обнаружении гетероскедастичности и её корректировка являются весьма серьёзной и трудоёмкой проблемой. В случае применения обобщённого (взвешенного) МНК необходима определённая информация или обоснованные предположения о величинах Оценка качества уравнения регрессии по коэффициенту детерминации.

💥 Видео

Множественный и частные коэффициенты корреляцииСкачать

Множественный и частные коэффициенты корреляции

Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Однофакторная регрессионная модель. Коэффициенты детерминации, корреляции. Критерий ФишераСкачать

Однофакторная регрессионная модель. Коэффициенты детерминации, корреляции. Критерий Фишера

Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Расчет коэффициента корреляции в ExcelСкачать

Расчет коэффициента корреляции в Excel

Лекция 8. Линейная регрессияСкачать

Лекция 8. Линейная регрессия
Поделиться или сохранить к себе: