Как оценить качество уравнения регрессии

Показатели качества регрессии

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблю­даемым данным проводится на основе анализа остатков — Как оценить качество уравнения регрессии.

Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины.

Качество модели регрессии оценивается по следующим направлениям:

проверка качества всего уравнения регрессии;

проверка значимости всего уравнения регрессии;

проверка статистической значимости коэффициентов уравнения регрессии;

проверка выполнения предпосылок МНК.

При анализе качества модели регрессии, в первую очередь, используется коэффициент детерминации, который определяется следующим образом:

Как оценить качество уравнения регрессии

где Как оценить качество уравнения регрессии— среднее значение зависимой переменной,

Как оценить качество уравнения регрессии— предсказанное (расчетное) значение зависимой переменной.

Коэффициент детерминации показывает долю вариации результативного признака, находя­щегося под воздействием изучаемых факторов, т. е. определяет, ка­кая доля вариации признака Y учтена в модели и обусловлена влия­нием на него факторов.

Чем ближе Как оценить качество уравнения регрессиик 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также ис­пользовать коэффициент множественной корреляции (индекс корреляции) R

R = Как оценить качество уравнения регрессии= Как оценить качество уравнения регрессии

Данный коэффициент является универсальным, так как он отра­жает тесноту связи и точность модели, а также может использовать­ся при любой форме связи переменных.

Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет.

Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с n1= k и n2 = (n — k — 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

Как оценить качество уравнения регрессии

В качестве меры точности применяют несмещенную оценку дис­персии остаточной компоненты, которая представляет собой отно­шение суммы квадратов уровней остаточной компоненты к величи­не (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины ( Как оценить качество уравнения регрессии) называется стандартной ошибкой:

Как оценить качество уравнения регрессии

значимость отдельных коэффициентов регрессии проверяется по t-статистике пу­тем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

Как оценить качество уравнения регрессии,

где Saj — это стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj. Величина Saj представляет собой квадратный корень из произ­ведения несмещенной оценки дисперсии Как оценить качество уравнения регрессиии j -го диагонального эле­мента матрицы, обратной матрице системы нормальных уравнений.

Как оценить качество уравнения регрессии

где Как оценить качество уравнения регрессии— диагональный элемент матрицы Как оценить качество уравнения регрессии.

Если расчетное значение t-критерия с (n — k — 1) степенями сво­боды превосходит его табличное значение при заданном уровне зна­чимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует ис­ключить из модели (при этом ее качество не ухудшится).

Проверка выполнения предпосылок МНК.

Рассмотрим выполнение предпосылки гомоскедастичности, или равноизменчивости случайной составляющей (возмущения).

Невыполнение этой предпосылки, т.е. нарушение условия гомоскедастичности возмущений означает, что дисперсия возмущения зависит от значений факторов. Такие регрессионные модели называются моделями с гетероскедастичностью возмущений.

Обнаружение гетероскедастичности. Для обнаружения гетероскедастич­ности обычно используют тесты, в которых делаются различные предположения о зависимости между дисперсией случайного члена и объясняющей переменной: тест ранговой корреляции Спирмена, тест Голдфельда — Квандта, тест Глейзера, двусторонний критерий Фишера и другие [2].

При малом объеме выборки для оценки гетероскедастич­ности может использоваться метод Голдфельда — Квандта. Данный тест используется для проверки такого типа гетероскедастичности, когда дисперсия остатков воз­растает пропорционально квадрату фактора. При этом делается предположение, что, случайная составляющая Как оценить качество уравнения регрессиираспределена нормально.

Чтобы оценить на­рушение гомоскедастичности по тесту Голдфельда — Квандта необходимо выполнить следующие шаги.

Упорядочение п наблюдений по мере возрастания перемен­ной х.

Исключение Как оценить качество уравнения регрессиисредних наблюдений ( Как оценить качество уравнения регрессиидолжно быть примерно равно четверти общего количества наблюдений).

Разделение совокупности на две группы (соответственно с малыми и большими значениями фактора Как оценить качество уравнения регрессии) и определение по каждой из групп уравнений регрессии.

Определение остаточной суммы квадратов для первой регрессии Как оценить качество уравнения регрессиии второй регрессии Как оценить качество уравнения регрессии.

Вычисление отношений Как оценить качество уравнения регрессии(или Как оценить качество уравнения регрессии). В числителе должна быть большая сумма квадратов.

Полученное от­ношение имеет F распределение со степенями свободы k1=n1-k и k2=n-n1-k, (k– число оцениваемых параметров в уравнении регрессии).

Если Как оценить качество уравнения регрессии, то гетероскедастичность имеет место.

Чем больше величина F превышает табличное значение F -критерия, тем более нарушена предпосылка о равенстве дисперсий остаточ­ных величин.

Оценка влияния отдельных факторов на зависимую переменную на основе модели (коэффициенты эластичности, b — коэффициенты).

Важную роль при оценке влияния факторов играют коэффициен­ты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени ко­леблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности Э(j) и бета-коэффициенты b(j).

Эластичность Y по отношению к Х(j) определяется как процентное изменение Y, отнесенное к соответствующему процентному изменению Х. В общем случае эластичности не постоянны, они различаются, если измерены для различных точек на линии регрессии. По умолчанию стандартные программы, оценивающие эластичность, вычисляют ее в точках средних значений:

Как оценить качество уравнения регрессии

Эластичность ненормирована и может изменяться от — Как оценить качество уравнения регрессиидо + Как оценить качество уравнения регрессии. Важно, что она безразмерна, так что интерпретация эластичности Как оценить качество уравнения регрессии=2.0 означает, что если Как оценить качество уравнения регрессииизменится на 1%, то это приведет к изменению Как оценить качество уравнения регрессиина 2%. Если Как оценить качество уравнения регрессии=-0.5, то это означает, что увеличение Как оценить качество уравнения регрессиина 1% приведет к уменьшению Как оценить качество уравнения регрессиина 0.5%.

Высокий уровень эластичности означает сильное влияние независимой переменной на объясняемую переменную.

Как оценить качество уравнения регрессии

где Sxj — среднеквадратическое отклонение фактора j

где Как оценить качество уравнения регрессии Как оценить качество уравнения регрессии.

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора j на один процент. Однако он не учитывает степень колеблемости факторов.

Бета-коэффициент показывает, на какую часть величины средне­го квадратического отклонения Sy изменится зависи­мая переменная Y с изменением соответствующей независимой пере­менной Хj на величину своего среднеквадратического отклонения при фиксирован­ном на постоянном уровне значении остальных независимых пере­менных.

Указанные коэффициенты позволяют упорядочить факторы по степени влияния факторов на зависимую переменную.

Долю влияния фактора в суммарном влиянии всех факторов мож­но оценить по величине дельта — коэффициентов D (j):

Как оценить качество уравнения регрессии

где Как оценить качество уравнения регрессии— коэффициент парной корреляции между фактором j (j = 1. m) и зависимой переменной.

В качестве основного литературного источника рекомендуется использовать [4], в качестве дополнительного – [2].

Видео:Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Оценка параметров уравнения регреcсии. Пример

Задание:
По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
где y – затраты на производство, тыс. д. е.
x – выпуск продукции, тыс. ед.

Требуется:
1. Построить уравнения парной регрессии y от x :

  • линейное;
  • степенное;
  • показательное;
  • равносторонней гиперболы.

2. Рассчитать линейный коэффициент парной корреляции и коэффициент детерминации. Сделать выводы.
3. Оценить статистическую значимость уравнения регрессии в целом.
4. Оценить статистическую значимость параметров регрессии и корреляции.
5. Выполнить прогноз затрат на производство при прогнозном выпуске продукции, составляющем 195 % от среднего уровня.
6. Оценить точность прогноза, рассчитать ошибку прогноза и его доверительный интервал.
7. Оценить модель через среднюю ошибку аппроксимации.

1. Уравнение имеет вид y = α + βx
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 =0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая

xyx 2y 2x ∙ yy(x)(y- y ) 2(y-y(x)) 2(x-x p ) 2
7813360841768910374142.16115.9883.831
8214867242190412136148.6117.90.379
8713475691795611658156.6895.44514.2664
7915462412371612166143.77104.67104.670
8916279212624414418159.9332.364.39100
106195112363802520670187.332624.5958.76729
671394489193219313124.4122.75212.95144
8815877442496413904158.29202.510.0881
7315253292310411096134.0967.75320.8436
8716275692624414094156.68332.3628.3364
7615957762528112084138.93231.98402.869
115173132252992919895201.86854.44832.661296
00016.320669.59265.736241
1027186989907294377161808186925672.312829.748774

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
. . .

2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;α/2) = (11;0.05/2) = 1.796
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.1712
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-20.41;56.24)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается

Статистическая значимость коэффициента регрессии b не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (tтабл=1.796):
(a — tтабл·Sa; a + tтабл·S a)
(1.306;1.921)
(b — tтабл·S b; b + tтабл·Sb)
(-9.2733;41.876)
где t = 1.796
2) F-статистики

Fkp = 4.84
Поскольку F > Fkp, то коэффициент детерминации статистически значим

Видео:Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Анализ общего качества уравнения регрессии.

Коэффициент детерминации R 2

После проверки точности и статистической значимости каждого коэффициента регрессионной модели обычно проводится анализ общего качества уравнения модели, которое оценивается по тому, как хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Другими словами, необходимо оценить, насколько широко рассеяны точки наблюдений по их совокупности относительно линии регрессии (линии модели). Поэтому представляется естественным вывод о том, что проверку общего качества регрессионной модели следует проводить на основе дисперсионного анализа, сравнивая дисперсии модельных и реальных значений исследуемой переменной Y.

Рассмотрим для определенного набора наблюдений n дисперсию Dn(y), которая характеризует разброс значений yi вокруг среднего значения. Из дисперсионного анализа следует, что эту дисперсию можно разбить на две части: объясняемую уравнением регрессии и не объясняемую (т. е. связанную со случайными отклонениями ei). Тогда выполняется следующее соотношение:

Как оценить качество уравнения регрессии(2.27)

где Как оценить качество уравнения регрессии– общая сумма квадратов отклонений зависимой переменной Y от среднего значения;

Как оценить качество уравнения регрессии– сумма квадратов, объясняемая уравнением регрессии;

Как оценить качество уравнения регрессии– необъясненная (остаточная) сумма квадратов. Напомним, что Как оценить качество уравнения регрессииопределяется как Как оценить качество уравнения регрессии, а Как оценить качество уравнения регрессии.

Разделив выражение (2.27) на его левую часть, получим формулу для оценки характеристики, которая обозначается как R 2 и называется коэффициентом детерминации:

Как оценить качество уравнения регрессии(2.28)

Коэффициент детерминации R 2 является мерой качества уравнения регрессионной модели и определяет долю дисперсии (разброса), объясняемую регрессией Y на Х, в общей дисперсии зависимой переменной Y.

Из проведенных рассуждений следует, что R 2 принимает значения между 0 и 1 (0 £ R 2 £ 1). Чем ближе R 2 к единице, тем теснее линейная связь между Х и Y (экспериментальные точки теснее примыкают к линии регрессии). Чем ближе R 2 к нулю, тем такая связь слабее. Если R 2 = 0, то дисперсия зависимой переменной полностью обусловлена воздействием неучтенных факторов и линия регрессии (модели) должна быть параллельна оси абсцисс (Y = Как оценить качество уравнения регрессии).

Например, если для построенной модели R 2 = 0,7, то согласно (2.28) можно утверждать, что поведение зависимой переменной (результативного признака) Y на 70 % объясняется влиянием фактора Х и на 30 % обусловлено влиянием неучтенных факторов. Доля влияния неучтенных факторов связана со случайными отклонениями ei и определяется отношением Как оценить качество уравнения регрессии, характеризующим долю разброса зависимой переменной, не объясняемую линейной регрессией Y на Х.

Естественно, что для исследуемого объекта наиболее качественной будет считаться модель с наибольшим значением коэффициента детерминации R 2 .

Заметим, что коэффициент детерминации имеет смысл рассматривать только при наличии параметра Как оценить качество уравнения регрессии(свободного члена) в уравнении регрессионной модели.

Таким образом, коэффициент детерминации R 2 определяет степень тесноты статистической связи между Y и Х. Но об этом же говорит выборочный коэффициент корреляции rxy. Рассматривая эти характеристики, можно установить, что в случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции Как оценить качество уравнения регрессии

Действительно, учитывая (2.13),

Как оценить качество уравнения регрессии.

Естественно, возникает вопрос, какое значение R 2 можно считать удовлетворительным. Ответ на этот вопрос может быть неоднозначным, особенно в случае множественной регрессионной модели и зависит от объема выборки n и постановки задачи, вытекающей из предмодельного анализа.

Более точно проверить значимость уравнения регрессии, т. е. установить, соответствует ли построенная модель реальным данным и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной, позволяет F-тест, который проводится по схеме статистической проверки гипотез. Тестируется гипотеза Н0 о статистической незначимости уравнения регрессии.

Рассмотрим «объясненную» и «необъясненную» дисперсии: Как оценить качество уравнения регрессиии Dn(e). Отношение этих дисперсий, рассчитанное на одну степень свободы, имеет F-распределение (F-статистику), фактически наблюдаемое значение которой для парной регрессии определяется формулой

Как оценить качество уравнения регрессии(2.29)

Учитывая смысл дисперсий Как оценить качество уравнения регрессиии Dn(e), можно считать, что значение Fнабл показывает, в какой мере уравнение регрессии лучше оценивает значение зависимой переменной по сравнению с Как оценить качество уравнения регрессии

Согласно схеме статистической проверки гипотез, гипотеза Н0 отклоняется, т. е. признается статистическая значимость и надежность уравнения регрессии на заданном уровне α, если Fнабл превосходит критическое (табличное) значение F-статистики Фишера (Fнабл > Fкр = Fα, 1, n — 2). Если Fнабл 2 . В этом случае гипотеза Н0 о статистической незначимости регрессионной модели заменяется эквивалентной гипотезой о статистической незначимости R 2 .

Для парной регрессионной модели способы проверки значимости коэффициента Как оценить качество уравнения регрессиис использованием t-критерия (t-тест) и уравнения регрессии (показателя тесноты связи R 2 ) с использованием F-критерия равносильны, поскольку эти критерии связаны соотношением F = t 2 .

Наряду с коэффициентом детерминации R 2 для оценки качества парной регрессионной модели можно использовать характеристику, называемую средней ошибкой аппроксимации Как оценить качество уравнения регрессии:

Как оценить качество уравнения регрессии%. (2.31)

Средняя ошибка аппроксимации определяет среднее относительное отклонение расчетных данных (оцененных по уравнению модели) от фактических. Как оценить качество уравнения регрессииявляется безразмерной величиной и обычно выражается в процентах. Принято считать, что качество модели считается удовлетворительным, если средняя ошибка аппроксимации не превышает 8-9 %.

Пример 2.3.Проверить общее качество и статистическую значимость уравнения регрессии для модели, построенной в примере 2.1.

Оценку качества построенной модели дают коэффициент детерминации R 2 и средняя ошибка аппроксимации Как оценить качество уравнения регрессии.

Вычислим коэффициент детерминации, воспользовавшись данными табл. 2.1.

Как оценить качество уравнения регрессии

Величина коэффициента детерминации показывает, что поведение результативного признака (недельного потребления) Y на 98,3 % объясняется влиянием фактора Х (изменением недельного дохода), а остальные 1,7 % составляют долю необъясненной вариации, происходящей под действием прочих (неучтенных) факторов.

Расчет средней ошибки аппроксимации представлен в последнем столбце табл. 2.1.

Как оценить качество уравнения регрессии

Рассчитанные значения коэффициента детерминации и средней ошибки аппроксимации свидетельствуют о достаточно высоком общем качестве построенной модели.

Проверим статистическую значимость уравнения регрессионной модели с помощью F-теста. Расчетное (наблюдаемое) значение F-статистики Фишера вычисляется по формуле:

Как оценить качество уравнения регрессии.

Табличное значение F-статистики при уровне значимости α = 0,01 и числе степеней свободы ν = n – 2 будет составлять 13,75 (Fкр = 13,75).

Так как Fнабл > Fкр (355,05 > 13,75), то нулевая гипотеза Н0 отклоняется и уравнение регрессионной модели признается статистически значимым и весьма надежным, поскольку наблюдаемое значение F-статистики превосходит табличное значение критерия более чем в 25 раз.

Дата добавления: 2016-06-02 ; просмотров: 2253 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

🎬 Видео

Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Критерий Фишера для проверки адекватности построенной регрессииСкачать

Критерий Фишера для проверки адекватности построенной регрессии

Линейная регрессия. Оценка качества моделиСкачать

Линейная регрессия. Оценка качества модели

Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Регрессия в ExcelСкачать

Регрессия в Excel

Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Множественная регрессияСкачать

Множественная регрессия

Нелинейная регрессия в MS Excel. Как подобрать уравнение регрессии? Некорректное значение R^2Скачать

Нелинейная регрессия в MS Excel. Как подобрать уравнение регрессии? Некорректное значение R^2

Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Уравнение линейной регрессии. Интерпретация стандартной таблички

Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Линейная регрессияСкачать

Линейная регрессия

Построение уравнения линейной регрессии методом наименьших квадратов.Скачать

Построение уравнения линейной регрессии методом наименьших квадратов.

Критерий Стьюдента в формулах (парная регрессия)Скачать

Критерий Стьюдента в формулах (парная регрессия)

Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в Excel

Уравнение регрессииСкачать

Уравнение регрессии

Решение задачи регрессии | Глубокое обучение на PythonСкачать

Решение задачи регрессии | Глубокое обучение на Python
Поделиться или сохранить к себе: