Показатели качества подгонки для регрессионного уравнения

Однофакторное регрессионное уравнение

1. Понятие регрессионного уравнения.

2. Метод наименьших квадратов.

3. Проверка адекватности регрессионного уравнения.

3.1. Показатели качества подгонки.

3.2. Проверка различных гипотез относительно регрессионного уравнения.

3.3. «Хорошие» свойства оценок.

3.4. Экономический смысл коэффициентов регрессии.

1. Регрессионное уравнение модели отражает зависимость между экономическими переменными, а именно между одной зависимой (эндогенной) и одной или более независимыми (экзогенными) переменными. Зависимая переменная обозначается через «у», а независимая через «х».

Направление причинно-следственной связи между переменными определяется через предварительное обоснование и включается в модель как гипотеза.

Регрессионный анализ проверяет статистическую состоятельность модели при данной гипотезе.

Регрессионное уравнение может быть однофакторным и многофакторным. В первом случае одна переменная зависит от другой, во втором случае одна переменная зависит от нескольких других.

Регрессионное уравнение, которое отражает зависимость между математическим ожиданием (условным распределением) одной переменной и соответствующим значением другой переменной, называется однофакторным регрессионным уравнением.

В общем виде однофакторное регрессионное уравнение может быть записано в следующем виде:

Показатели качества подгонки для регрессионного уравнения(1)

Показатели качества подгонки для регрессионного уравнения— условное математическое ожидание переменной Y при заданном значении переменной X.

Частным случаем однофакторного регрессионного уравнения является линейная модель зависимости, которая записывается следующим образом:

yi=a+bxi+ Показатели качества подгонки для регрессионного уравнения(2)

yi – объяснимая (зависимая) переменная;

xi – объясняющая (независимая) переменная;

а – свободный член регрессии или постоянная;

b – коэффициент регрессии, отражает наклон линии, вдоль которой рассеяны данные наблюдения модели. Коэффициент регрессии может быть истолкован как показатель, характеризующий процентное изменение переменной, которым вызвано изменение значения х на единицу.

Если знак перед b положителен, то говорим, что переменные коррелированны положительно, при отрицательном знаке переменные отрицательно коррелированны.

Показатели качества подгонки для регрессионного уравнения– ошибка или так называемая случайная компонента. Наличие случайной компоненты обусловлено двумя основными причинами:

1. любая регрессионная модель является упрощением действительной, на самом деле есть другие параметры, от которых зависит yi.

2. присутствуют ошибки измерений.

Необходимо различать кросс-секционную регрессию и регрессию временных рядов.

Кросс-секционная регрессия проверяет связь между переменными в определенный период времени. Например, зависимость между количеством работников предприятия и прибылью, полученной этим предприятием. Чтобы измерить эту связь мы должны собрать данные по численности работников за 1 период (например, год) и данные о размерах прибыли достаточно большого числа предприятий за тот же самый период.

Данные о прибылях компаний соответствовали бы зависимой переменной, а данные о количестве работников были бы независимыми переменными.

При анализе регрессии во временных рядах данные по каждой из переменных собираются в течение следующих друг за другом периодов времени.

Регрессионный анализ временных рядов позволяет установить взаимосвязь между переменными в среднем в течение того периода времени по которому имеются данные. Независимо от того проводится кросс-секционный анализ или анализ временных рядов, основные принципы положения регрессионного анализа остаются те же.

2.Для статистической проверки взаимозависимости между зависимой (у) и независимой (х) переменными, необходимо найти значения а, b, Показатели качества подгонки для регрессионного уравненияв выражении (2).

Метод оценки этих параметров должен быть таким, чтобы это были «хорошие» оценки.

Метод, используемый чаще других для нахождения параметров регрессионного уравнения и известный как метод наименьших квадратов дает наилучшие линейные несмещенные оценки. Метод называется так потому, что при расчете параметров линии с помощью этого метода минимизируются суммы квадратов значений ошибок Показатели качества подгонки для регрессионного уравнения.

Показатели качества подгонки для регрессионного уравнения Показатели качества подгонки для регрессионного уравнения Показатели качества подгонки для регрессионного уравненияy

Показатели качества подгонки для регрессионного уравнения Показатели качества подгонки для регрессионного уравнения
Показатели качества подгонки для регрессионного уравнения Показатели качества подгонки для регрессионного уравнения
Показатели качества подгонки для регрессионного уравнения Показатели качества подгонки для регрессионного уравнения
Показатели качества подгонки для регрессионного уравнения Показатели качества подгонки для регрессионного уравнения
Показатели качества подгонки для регрессионного уравнения

Показатели качества подгонки для регрессионного уравнения

Допустим на графике нанесены наблюдения о совокупных доходах семей (х) и расходах этих же семей на питание (y). Анализируя графики можно сделать следующие выводы:

1. Точки не лежат на одной кривой и можно только провести некоторую линию в непосредственной близости от всех этих точек.

2. Можно сделать допущение, иными словами выдвинуть гипотезу, что доходы и расходы связаны линейной зависимостью, то есть можно построить некоторую прямую Показатели качества подгонки для регрессионного уравнения, отражающую зависимость между доходами и расходами, при этом значение Показатели качества подгонки для регрессионного уравненияназовем теоретически расчетными значениями зависимой переменной, а коэффициенты Показатели качества подгонки для регрессионного уравненияи Показатели качества подгонки для регрессионного уравнения– оценочными значениями коэффициентов а и b.

Для того, чтобы теоретическая прямая лежала в непосредственной близости от фактически наблюдаемых уi необходимо минимизировать сумму квадратов отклонений между фактическими и расчетными значениями.

Показатели качества подгонки для регрессионного уравнения

Показатели качества подгонки для регрессионного уравнения

Показатели качества подгонки для регрессионного уравнения

Разрыв скобки получим стандартную форму нормальных уравнений (для краткости опустим индексы у знаков сумм).

Показатели качества подгонки для регрессионного уравнения

из этой системы находим Показатели качества подгонки для регрессионного уравненияи Показатели качества подгонки для регрессионного уравнения:

Показатели качества подгонки для регрессионного уравнения

ковариация (cov) показывает тесноту связи

Показатели качества подгонки для регрессионного уравнения;

n – количество наблюдений.

Так рассчитываются величины регрессии.

Ошибка или случайная компонента Показатели качества подгонки для регрессионного уравнениянаходится как разница между расчетными значениями зависимой переменной и фактическими значениями:

Показатели качества подгонки для регрессионного уравнения.

3. Адекватность регрессионного уравнения. То есть его соответствие реальному моделироваемому процессу, достоверность его параметров; исследуется с нескольких позиций:

1. Анализируются показатели качества подгонки регрессионного уравнения.

2. Проверяются различные гипотезы относительно параметров регрессионного уравнения.

3. Проверяется выполнение условий для получения «хороших» оценок МНК.

4. Производится содержательный анализ регрессионного уравнения.

3.1. Показатели качества подгонки отражают соотношение расчетных значений зависимой переменной Показатели качества подгонки для регрессионного уравненияс фактическими значениями зависимой переменной у.

Эти показатели как правило основываются на сумме квадратов разности этих показателей:

Показатели качества подгонки для регрессионного уравнения

Первый из таких показателей – остаточная дисперсия.

Для однофакторного уравнения однофакторная дисперсия определяется по формуле:

Показатели качества подгонки для регрессионного уравнения

Чем меньше Показатели качества подгонки для регрессионного уравнения, тем лучше регрессионное уравнение, Показатели качества подгонки для регрессионного уравнения— является размерной величиной и сопоставление регрессионных уравнений по нему, отражающих различные переменные невозможно. Показателем, на основании которых возможно сопоставление различных уравнений является коэффициент детерминации, он обозначается Показатели качества подгонки для регрессионного уравнения:

Показатели качества подгонки для регрессионного уравнения, где Показатели качества подгонки для регрессионного уравнения— среднеарифметическое значение у.

Показатели качества подгонки для регрессионного уравненияпринимает значения в интервале [0;1], чем ближе Показатели качества подгонки для регрессионного уравненияк 1, тем лучше качество подгонки регрессионного уравнения. На практике помимо коэффициента детерминации часто используются коэффициенты корреляции, показывающих степень связи между двумя переменными.

Этот показатель также независим от единиц измерения и характеризует силу и направление линейной связи между двумя переменными.

Значение коэффициента находится в интервале от (-1;1).

Если коэффициент близок к -1, то говорят об отрицательной линейной связи. Когда показатель близок к 0, то говорят о линейной независимости двух переменных. Когда показатель близок к 1 – о положительной линейной связи. При анализе коэффициентов корреляции необходимо учитывать, что коэффициент корреляции показывает только силу линейной связи.

Показатели качества подгонки для регрессионного уравнения

Показатели качества подгонки для регрессионного уравнения— среднеарифметическое значение x.

3.2. Приведенные ранее показатели качества подгонки не позволяют принять статистического решения по пригодности регрессионного уравнения, хотя и дают некоторое представление о качестве подгонки. Такие решения принимают на основе статистических критериев. Одним из таких критериев является F- критерий. Принятие решения на основе F-критерия опирается на общую процедуру проверки гипотезы. После оценки свободного члена регрессии и коэффициента регрессии выдвигается гипотеза о том, что линейная связь между x и y не подтверждается. Отсутствие связи можно изучить на основе отклонений расчетных значений Показатели качества подгонки для регрессионного уравненияот среднеарифметического значения Показатели качества подгонки для регрессионного уравнения.

Показатели качества подгонки для регрессионного уравнения

Близкое к 0 значение свидетельствует об отсутствии какой-либо тенденции для yi в связи с изменениями x. Строгое решение об опровержении линейной связи проверяется на основе F-статистики. Если F таб расч , то гипотезу об отсутствии линейной связи отвергаем с вероятностью p.

Показатели качества подгонки для регрессионного уравнения

Значения F таб , берутся из таблицы критических точек распределения F (Фишера-Снедекора) для степеней свободы n1=1, n2=n-2.

Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменением x. Выдвинутая гипотеза равноценна тому, что b равен 0 для генеральной совокупности. Если наша гипотеза верна, то t-статистика подчиняется t-распределению со степенями свободы n-2.

Показатели качества подгонки для регрессионного уравнения, где Показатели качества подгонки для регрессионного уравнения— стандартная ошибка коэффициента b рассчитывается по формуле:

Показатели качества подгонки для регрессионного уравнения

Если t расч >t табл , то с заданной вероятностью гипотезу о том, что b=0 отвергаем. t табл находится по таблице критических точек распределения Стьюдента с заданной вероятностью p b степенью свободы n-2. t-статистика используется также при построении доверительного интервала для коэффициента b.

Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

показатели качества регрессии.

Качеством модели регрессии называется адекватность построенной модели исходным (наблюдаемым) данным.

Для оценки качества модели регрессии используются специальные показатели.

Качество линейной модели парной регрессии характеризуется с помощью следующих показателей:

1) парной линейный коэффициент корреляции, который рассчитывается по формуле:

Показатели качества подгонки для регрессионного уравнения

где G(x) – среднеквадратическое отклонение независимой переменной;

G(y) – среднеквадратическое отклонение зависимой переменной.

Также парный линейный коэффициент корреляции можно рассчитать через МНК-оценку коэффициента модели регрессии

Показатели качества подгонки для регрессионного уравнения

Показатели качества подгонки для регрессионного уравнения

Парный линейный коэффициент корреляции характеризует степень тесноты связи между исследуемыми переменными. Он рассчитывается только для количественных переменных. Чем ближе модуль значения коэффициента корреляции к единице, тем более тесной является связь между исследуемыми переменными. Данный коэффициент изменяется в пределах [-1; +1]. Если значение коэффициента корреляции находится в пределах от нуля до единицы, то связь между переменными прямая, т. е. с увеличением независимой переменной увеличивается и зависимая переменная, и наборот. Если коэффициент корреляции находится в пределах отминусеиницы до нуля, то связь между переменными обратная, т. е. с увеличением независимой переменной уменьшается зависимая переменная, и наоборот. Если коэффициент корреляции равен нулю, то связь между переменными отсутствует. Если коэффициент корреляции равен единице или минус единице, то связь между переменными существует функциональная связь, т. е. изменения независимой и зависимой переменных полностью соответствуют друг другу.

2) коэффициент детерминации рассчитывается как вадрат парного линейного коэффициента корреляции и обозначается как ryx2. Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимой переменной, в общем объёме вариации.

Качество линейной модели множественной регрессии характеризуется с помощью показателей, построенных на основе теоремы о разложении дисперсий.

Теорема. Общая дисперсия зависимой переменной может быть разложена на объяснённую и необъяснённую построенной моделью регрессии дисперсии:

Показатели качества подгонки для регрессионного уравнения

где G2(y) – это общая дисперсия зависимой переменной;

σ2(y) – это объяснённая с помощью построенной модели регрессии дисперсия переменной у, которая рассчитывается по формуле:

Показатели качества подгонки для регрессионного уравнения

δ2(y) – необъяснённая или остаточная дисперсия переменной у, которая рассчитывается по формуле:

Показатели качества подгонки для регрессионного уравнения

С использованием теоремы о разложении дисперсий рассчитываются следующие показатели качества линейной модели множественной регрессии:

1) множественный коэффициент корреляции между зависимой переменной у и несколькими независимыми переменными хi:

Показатели качества подгонки для регрессионного уравнения

Данный коэффициент характеризует степень тесноты связи между зависимой и независимыми переменными. Свойства множественного коэффициента корреляции аналогичны свойствам линейнойго парного коэффициента корреляции.

2) теоретический коэффициент детерминации рассчитывается как квадрат множественного коэффициента корреляции:

Показатели качества подгонки для регрессионного уравнения

Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимых переменных;

Показатели качества подгонки для регрессионного уравнения

характеризует в процентном отношении ту долю вариации зависимой переменной, которая не учитывается а построенной модели регрессии;

4) среднеквадратическая ошибка модели регрессии (Meansquareerror – MSE):

Показатели качества подгонки для регрессионного уравнения

где h– это количество параметров, входящих в модель регрессии.

Если показатель среднеквадратической ошибки окажется меньше показателя среднеквадратического отклонения наблюдаемых значений зависимой переменной от модельных значений β(у), то модель регрессии можно считать качественной.

Показатель среднеквадратического отклонения наблюдаемых значений зависимой переменной от модельных значений рассчитывается по формуле:

Показатели качества подгонки для регрессионного уравнения

5) показатель средней ошибки аппроксимации рассчитывается по формуле:

Показатели качества подгонки для регрессионного уравнения

Если величина данного показателя составляет менее 6-7%, то качество построенной модели регрессии считается хорошим. Максимально допустимым значением показателя средней ошибки аппроксимации считается 12-15 %.

13 .

Свойства дисперсии определяются свойствами МО. Напомним, дисперсия является центральным моментом второго порядка:

Дисперсия любой случайной величины независимо от вида распределения, которому она подчиняется обладает следующими свойствами.

1.ДИСПЕРСИЯ НЕСЛУЧАЙНОЙ ВЕЛИЧИНЫ РАВНО НУЛЮ.

Пусть а — неслучайная величина. Тогда D(a)=M[(a-M(a))2]=M[0]=0.

2. ДИСПЕРСИЯ СУММЫ НЕСЛУЧАЙНОЙ И СЛУЧАЙНОЙ ВЕЛИЧИН РАВНА ДИСПЕРСИИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ (ДИСПЕРСИЯ ИНВАРИАНТНА СДВИГУ).

Пусть а — неслучайная величина. Тогда D(a+x)=M[(a+x-M(a+x))2]= M[(x-M(x))2]=D(x).

3.ДИСПЕРСИЯ ПРОИЗВЕДЕНИЯ НЕСЛУЧАЙНОЙ ВЕЛИЧИНЫ НА СЛУЧАЙНУЮ РАВНА ПРОИЗВЕДЕНИЮ СЛУЧАЙНОЙ ВЕЛИЧИНЫ НА КВАДРАТ НЕСЛУЧАЙНОЙ ВЕЛИЧИНЫ.

Пусть а — неслучайная величина. Тогда D(a*x)=M[(a*x-M(a*x))2]=M[(a*(x-M(x))2]=

4. ДИСПЕРСИЯ СУММЫ ДВУХ СЛУЧАЙНЫХ ВЕЛИЧИН РАВНА СУММЕ ДИСПЕРСИЙ ЭТИХ ВЕЛИЧИН И УДВОЕННОЙ КОВАРИАЦИИ ЭТИХ ВЕЛИЧИН.

Пусть x и у — случайные величины. Тогда D(x+y)=M[((x+y)-M(x+y))2]= =M[((x-Mx)+(y-My))2]=M[(x-Mx)2+(y-My)2+2*(x-Mx)*(y-My)]=M[(x-Mx)2]+ +M[(y-My)]+2*M[(x-Mx)*(y-My)]=D(x)+D(y)+2*COV(x,y).

Величина COV(x,y)=M[(x-Mx)*(y-My)] называется ковариацией и обладает свойством: ДЛЯ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН КОВАРИАЦИЯ ВСЕГДА РАВНА НУЛЮ. Отсюда, следует: ДИСПЕРСИЯ СУММЫ ДВУХ НЕЗАВИСИМЫХ (И ТОЛЬКО НЕЗАВИСИМЫХ) СЛУЧАЙНЫХ ВЕЛИЧИН РАВНА СУММЕ ДИСПЕРСИЙ ЭТИХ ВЕЛИЧИН.

Для оценки параметров нелинейных моделей используются два подхода. Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными. Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных. Таким образом, функции, которые показывают изменение одной переменной от другой в процентах или в несколько раз являются функциями, отражающими эластичность.

10.

Обобщенный метод наименьших квадратов, теорема Айткена

Применение обычного метода наименьших квадратов при нарушении условия гомоскедастичности приводит к следующим отрицательным последствиям:

1. оценки неизвестных коэффициентов β неэффективны, то есть существуют другие оценки, которые являются несмещенными и имеют меньшую дисперсию.

2. стандартные ошибки коэффициентов регрессии будут занижены, а, следовательно, t -статистики – завышены, и будет получено неправильное представление о точности уравнения регрессии.

Обобщенный метод наименьших квадратов

Рассмотрим метод оценивания при нарушении условия гомоскедастичности, матрица имеет вид β= (ХТ Ω-1 Х)-1 ХТ Ω-1у

Расчёт неизвестных коэффициентов регрессии по данной формуле называют обобщённым методом наименьших квадратов (ОМНК).

Теорема Айткена: при нарушении предположения гомоскедастичности оценки, полученные обобщенным методом наименьших квадратов, являются несмещенными и наиболее эффективными (имеющими наименьшую вариацию). На практике матрица Ω практически никогда не известна. Поэтому часто пытаются каким-либо методом оценить оценки матрицы Ω и использовать их для оценивания. Этот метод носит название доступного обобщенного метода наименьших квадратов.

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

13.5. Качество подгонки

Один из возможных подходов основывается па том факте, что для стандартной линейной модели регрессии коэффициент детерминации Я2 совпадает с квадратом выборочного коэффициента корреляции между у и прогнозным значением у (см. упражнение 2.7)7. Исходя из этого можно для внутригрупповой регрессии (т. е. для модели с фиксированным эффектом) определить коэффициент детерминации равенством

Within = г2Ы — Уі, Уи — ft), (13.29)

Уг = (Хц — Xi)'(3pЕ И Г2(-, •) — выборочный КОэффиЦиеН’1′ корреляции (в данном случае объем выборки равен пТ).

Аналогично можно определить коэффициент детерминации для межгрупповой регрессии:

где уі = Ж-/Зв (в данном случае объем выборки равен п).

Наконец, для обычной модели объединенный коэффициент детерминации есть

^overall =r2(yit,yit), (13.31)

где уи = x’itpQ]jS.

На самом деле формулами (13.29), (13.30), (13.31) можно определить внутригрупповой, межгрупповой и объединенный коэффициенты детерминации для любой оценки /3 вектора параметров /3. При этом, естественно, считают, что уц = x’itf3, ft = Т ТЇ=і Мі. У = пТ ТІ=і Хл=і Уи- Именно такой подход реализован, например, в широко используемом эконометрическом пакете STATA: при оценивании моделей с панельными данными вычисляются три коэффициента детерминации в соответствии с формулами (13.29), (13.30), (13.31) независимо от того, какой метод оценивания применяется.

Следует сказать, что коэффициенты детерминации в моделях с панельными данными нецелесообразно использовать для того, чтобы определить, какой метод оценивания лучше. Так, если одну и ту же модель оценить, например, обычным методом наименьших квадратов и с помощью случайного эффекта, то объединенный коэффициент детерминации в первом случае всегда будет больше соответствующего объединенного коэффициента для второго метода, даже если более адекватным является использование случайного эффекта. Тем не менее коэффициенты детерминации можно применять для сравнения моделей, отличающихся набором регрессоров и оцениваемых одним и тем же методом.

🎬 Видео

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Коэффициент детерминации. Основы эконометрикиСкачать

Коэффициент детерминации. Основы эконометрики

Тема 6. Эконометрические тесты и показатели качества регрессии.Скачать

Тема 6.  Эконометрические тесты и показатели качества регрессии.

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Линейная регрессия. Оценка качества моделиСкачать

Линейная регрессия. Оценка качества модели

Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Уравнение линейной регрессии. Интерпретация стандартной таблички

Метрики в задачах регрессии. MSE, MAE, MSLE. Машинное обучениеСкачать

Метрики в задачах регрессии. MSE, MAE, MSLE. Машинное обучение

РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12Скачать

РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12

Множественная регрессияСкачать

Множественная регрессия

Интерпретация коэффициента при логарифмировании в уравнениях регрессииСкачать

Интерпретация коэффициента при логарифмировании в уравнениях регрессии

Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Точечный прогноз. Интервальный прогноз. Построение уравнения регрессии с помощью анализа данныхСкачать

Точечный прогноз. Интервальный прогноз. Построение уравнения регрессии с помощью анализа данных

РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16Скачать

РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16

Эконометрика Качество регрессииСкачать

Эконометрика Качество регрессии
Поделиться или сохранить к себе: