Что такое выборочное уравнение регрессии

Выборочное уравнение регрессии

Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической зависимостью, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе или одна из двух величин подвержены еще воздействию случайных факторов. Причем среди этих факторов могут быть и общие для обеих величин, т.е. воздействующие на обе случайные величины. В этих случаях возникает статистическая зависимость.

Статистическойназывается зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, изменение одной из величин вызывает изменение среднего значения другой. В этом случае статистическая зависимость называется корреляционной.Например, связь между количеством удобрений и урожаем, между вложенными средствами и прибылью.

Среднее арифметическое наблюдавшихся значений случайной величины Y , соответствующих значению X=x, называется условным средним Что такое выборочное уравнение регрессииxи является точечной оценкой математического ожидания. Аналогично определяется условное среднее Что такое выборочное уравнение регрессииy .

Условное математическое ожидание M ( Y | x )является функцией отx,следовательно, его оценка, т.е. условное среднее Что такое выборочное уравнение регрессииx,также функция от x:

Что такое выборочное уравнение регрессииx = f*(x).

Это уравнение называется выборочным уравнением регрессии Y на X. Функцию f*(x)называют выборочной регрессией, а ее график – выборочной линией регрессии Y на X . Аналогично уравнение

Что такое выборочное уравнение регрессииy = φ * (y),

функцию φ * (y) и ее график называют выборочным уравнением регрессии, выборочной регрессией и выборочной линией регрессии X на Y .

Отыскание параметров функций f*(x)и φ * (y), если вид их известен, оценка тесноты связи между величинами X и Y – задачи корреляционного анализа.Задачей регрессионного анализа есть оценка параметров функции регрессии βi и остаточной дисперсии σост 2 .

Остаточная дисперсия – та часть рассеивания Y , которую нельзя объяснить действием X. σост 2 может служить для оценки точности подбора функции регрессии и полноты набора признаков, включенных в анализ. Вид зависимости g(x) выбирают, исходя из характера поля корреляции и природы процесса.

Оценкой коэффициента линейной регрессии β является выборочный коэффициент регрессии Y на X ryx. Значения параметра ryxи параметра b уравнения прямой линии регрессии

Y = ryx x + b

подбираются таким образом, чтобы точки (x1,y1), (x2,y2),…,(xn,yn), построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой линии регрессии. Это равносильно требованию, чтобы сумма квадратов отклонений функции Y(xi) от yi была минимальной. В этом суть МНК.

Выборочное уравнение прямой линии регрессии Y на X может быть записано в таком виде:

Что такое выборочное уравнение регрессииxЧто такое выборочное уравнение регрессии= rв sy/sx (x – Что такое выборочное уравнение регрессии) ,

где sx и sy – выборочные средние квадратические отклонения X и Y , а

rв = Что такое выборочное уравнение регрессии

выборочный коэффициент корреляции, вычисленный по сгруппированным данным. Здесь nxy – частота пары вариант (x,y). Аналогично находят выборочное уравнение прямой линии регрессии X на Y :

Что такое выборочное уравнение регрессииyЧто такое выборочное уравнение регрессии= rв sx/sy (y – Что такое выборочное уравнение регрессии)

Для того, чтобы установить, соответствует ли найденная по выборке математическая модель зависимости между Y и X статистическим данным, следует оценить значимость коэффициентов регрессии и значимость уравнения регрессии.

Проверить значимость коэффициентов регрессии означает установить, достаточна ли величина оценки для обоснованного вывода о том, что коэффициент регрессии отличен от нуля. Выдвигают гипотезу H0 : коэффициент регрессии равен нулю β =0. Проверку гипотезы H0 осуществляют с помощью распределенной по закону Стьюдента статистики

t = │b / sb

где b – оценка коэффициента регрессии, а sb – оценка его среднего квадратического отклонения, другими словами стандартная ошибка оценки. Если │t │≥ tкр ( α, k ), нулевую гипотезу о равенстве нулю коэффициента регрессии отвергают, и коэффициент считают значимым. При │t │

b – t(α,k)sb 2 – коэффициент детерминации, n – объем выборки, k – количество факторных признаков.

Видео:Линейная регрессияСкачать

Линейная регрессия

Корреляция и регрессия

Линейное уравнение регрессии имеет вид y=bx+a+ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.

Для наших данных система уравнений имеет вид:

10a + 356b = 49
356a + 2135b = 9485

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17

Уравнение регрессии:
y = 68.16 x — 11.17

1. Параметры уравнения регрессии.
Выборочные средние.

1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 Y фактором X весьма высокая и прямая.

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у ) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у , но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.

1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:

Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами — Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.

1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.

1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596, т.е. в 95.96 % случаев изменения x приводят к изменению у . Другими словами — точность подбора уравнения регрессии — высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.

xyx 2y 2x·yy(x)(yi— y ) 2(y-y(x)) 2(xi— x ) 2|y — yx|:y
0.37115.60.1376243.365.7914.11780.892.210.18640.0953
0.39919.90.1592396.017.9416.02559.0615.040.1630.1949
0.50222.70.252515.2911.423.04434.490.11760.09050.0151
0.57234.20.32721169.6419.5627.8187.3240.780.05330.1867
0.60744.5.36841980.2527.0130.20.9131204.490.03830.3214
0.65526.80.429718.2417.5533.47280.3844.510.02180.2489
0.76335.70.58221274.4927.2440.8361.5426.350.00160.1438
0.87330.60.7621936.3626.7148.33167.56314.390.00490.5794
2.48161.96.1726211.61402158.0714008.0414.662.820.0236
7.23391.99.1833445.25545.2391.916380.18662.543.381.81

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим tкрит:
tкрит = (7;0.05) = 1.895
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 94.6484 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 9.7287 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.

Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bxp ± ε) где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
где

xiy = -11.17 + 68.16xiεiyminymax
0.37114.1119.91-5.834.02
0.39916.0219.85-3.8335.87
0.50223.0419.673.3842.71
0.57227.8119.578.2447.38
0.60730.219.5310.6749.73
0.65533.4719.4913.9852.96
0.76340.8319.4421.460.27
0.87348.3319.4528.8867.78
2.48158.0725.72132.36183.79

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895

Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(68.1618 — 1.895 • 5.2894; 68.1618 + 1.895 • 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — ta)
(-11.1744 — 1.895 • 5.3429; -11.1744 + 1.895 • 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции

1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.

Видео:Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Истинное и выборочное уравнения регрессии

Основные понятия эконометрики.

Эконометрика – это наука, изучающая количественные закономерности и взаимосвязи в экономике.

Она зародилась и получила свое развитие на основе слияния экономической теории, математической экономики, экономической и математической статистики. В современной эконометрике широко используются информатика, статистические пакеты прикладных программ.

Объект – экономика, различные экономические явления и взаимосвязи.

Предмет – их количественные характеристики.

Задачи: 1. построение эконометрических моделей и оценивание их параметров.

2. проверка гипотез, о свойствах показателей и формах их связей.

Эконометрический анализ — основа для экономического анализа и прогнозирования.

Исследуемый экономический показатель называют результативным, объясняемым, зависимым экономическим показателем. Соответствующую переменную – объясняемой или зависимой.

Экономические показатели, воздействие которых на исследуемый экономический показатель изучается, называют факторами, объясняющими или независимыми показателями (переменными).

Зависимость между переменными, на которую накладывается воздействие случайных факторов, называется статистической. Для нее характерно то, что изменение независимой переменной приводит к изменению математического ожидания зависимой переменной.

Уравнение регрессии – математическая формула, описывающая статистическую зависимость между переменными. Если формула описывается линейной функцией, то регрессия называется линейной. Если нелинейной функцией – нелинейной регрессией. Если регрессия связывает одну зависимую и одну независимую переменную, то такая регрессия называется парной (простой). Если рассматривается зависимость экономической переменной от нескольких экономических переменных, то такая регрессия называется множественной.

Парная линейная регрессия

Истинное и выборочное уравнения регрессии.

У= Что такое выборочное уравнение регрессии+ Что такое выборочное уравнение регрессииХ+Е Что такое выборочное уравнение регрессии(1),

где Х – неслучайная величина, У и Е – случайные величины.

Случайная величина Е отражает воздействие на зависимую переменную У неучтенных и случайных факторов и называется ошибкой регрессии. Уравнение (1) называют истинным (теоретическим) уравнением регрессии или линейной регрессионной моделью. На основе реальных статистических данных об экономических показателях Х и У (выборке данных из генеральной совокупности) оцениваются параметры регрессии α и β и строится выборочное уравнение регрессии

Что такое выборочное уравнение регрессии, (2)

а, в, — коэффициенты регрессии. Уравнение (2) называют еще эмпирическим уравнением регрессии.

Одним из методов нахождения коэффициентов регрессии а и в является метод наименьших квадратов (МНК).

🎬 Видео

Что такое линейная регрессия? Душкин объяснитСкачать

Что такое линейная регрессия? Душкин объяснит

Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Уравнение линейной регрессии. Интерпретация стандартной таблички

Как вычислить линейный коэффициент корреляции по таблице? Корреляционное поле и прямая регрессииСкачать

Как вычислить линейный коэффициент корреляции по таблице? Корреляционное поле и прямая регрессии

Нелинейная регрессия в MS Excel. Как подобрать уравнение регрессии? Некорректное значение R^2Скачать

Нелинейная регрессия в MS Excel. Как подобрать уравнение регрессии? Некорректное значение R^2

Как вычислить линейный коэффициент корреляции в MS Excel и построить уравнение регрессии?Скачать

Как вычислить линейный коэффициент корреляции в MS Excel  и построить уравнение регрессии?

Множественная регрессияСкачать

Множественная регрессия

Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Метод наименьших квадратов. Линейная аппроксимацияСкачать

Метод наименьших квадратов. Линейная аппроксимация

РегрессияСкачать

Регрессия

Лекции 14-15. Элементы теории корреляции. Уравнения регрессииСкачать

Лекции 14-15. Элементы теории корреляции. Уравнения регрессии

Построение уравнения линейной регрессии методом наименьших квадратов.Скачать

Построение уравнения линейной регрессии методом наименьших квадратов.

Коэффициент линейной регрессии, 2 способаСкачать

Коэффициент линейной регрессии, 2 способа

Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Что такое полиномиальная регрессия? Душкин объяснитСкачать

Что такое полиномиальная регрессия? Душкин объяснит

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Уравнение парной линейной регрессии с помощью Анализа ДанныхСкачать

Уравнение парной линейной регрессии с помощью Анализа Данных
Поделиться или сохранить к себе: