Точечный и интервальный прогноз по уравнению парной линейной регрессии (4 видео)

Точечный и интервальный прогнозы для модели парной регрессии

Построение прогноза по модели парной линейной регрессии начинается с нахождения прогнозного значения объясняемой переменной у для заданного значения объясняемой переменной х₀:

Прогноз возможен для математического ожидания М(у х = х₀) зависимой переменной у или для индивидуального (конкретного значения) у* Во втором случае нас интересует доверительный интервал для точного, наперед заданного значения объясняющей переменной х₀.

Доверительный интервал для среднего значения (математического ожидания) зависимой переменной нри данном значении переменной х₀ определяется по формуле

где

Дисперсия интервального прогноза для среднего значения у определяется по формуле

где X 2 — выборочная дисперсия:

Доверительный интервал для индивидуальных значений зависимой переменной у*_Х() при данном значении переменной х₀ определяется но формуле

где

Дисперсия интервального прогноза для индивидуального значения г/* равна

Выводы по доверительным областям для зависимой переменной.

1. Прогноз значений зависимой переменной Y по уравнению линейной регрессии оправдан, если значение х₀ объясняющей переменной X не выходит за диапазон ее значений по выборке. Причем чем ближе х₀ к х, тем точнее прогноз, уже доверительный интервал (3.38) и (3.40).
2. Использование уравнения линейной регрессии вне изученного диапазона значений объясняющей переменной X, даже если оно экономически оправдано исходя из смысла решаемой задачи, может привести к значительным погрешностям.

Построим доверительные интервалы для среднего и индивидуального значений зависимой переменной для уравнения регрессии, полученного но данным примера 3.1. Решение. Ранее получено уравнениерегрессии у_< = 3,295 + 2,283.г,.

Выборочная дисперсия

Среднее значение объясняющей переменной х = 13,8; Q_v = 135,6.

Пусть доверительная вероятность у = 0,95.

Критическая точка ?_кр = t₀ 05; 8 = 2,306.

Прогнозное значение зависимой переменной

Дисперсия интервального прогноза для среднего значения у (формула (3.39)):

Доверительный интервал для среднего значения у (формула (3.38)):

Дисперсия интервального прогноза для индивидуального значения у_<) (формула (3.41)):

Доверительный интервал для индивидуального значения у_о (формула (3.40)):

Средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических. Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, это лучшее качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям.

Средняя ошибка аппроксимации рассчитывается по формуле

Содержание

Прогноз по модели парной регрессии
Точечный прогноз по уравнению регрессии
Интервальный прогноз по уравнению регрессии
Вопросы и задачи
Построение интервального прогноза по модели парной линейной регрессии
АНАЛИЗ ОСТАТКОВ ПО МОДЕЛИ РЕГРЕССИИ
Понятие гомоскедастичности и гетероскедастичности остатков модели. Методы проверки ряда остатков модели на гетероскедастичносгь
Методика проведения теста Голдфелда — Квандта на гетероскедастичность остатков
Понятие автокорреляции в остатках. Методика проверки ряда остатков на наличие автокорреляции с помощью критерия Дарбина — Уотсона
Требования к остаткам для качественной модели регрессии
🎥 Видео

Видео:Точечный прогноз. Интервальный прогноз. Построение уравнения регрессии с помощью анализа данныхСкачать

Прогноз по модели парной регрессии

Видео:Эконометрика. Точечный и интервальный прогнозы.Скачать

Точечный прогноз по уравнению регрессии

Если известно значение независимой переменной х, то прогноз зависимой переменной осуществляется подстановкой этого значения в оценку детерминированной составляющей:

Вследствие несмещенности оценок параметров регрессии этот прогноз также является несмещенным

Показателем точности прогноза служит его дисперсия (чем она меньше, тем точнее прогноз):

Из формулы (1.2.3) видно, что чем больше объем выборки, тем точнее прогноз. При фиксированном объеме выборки прогноз тем точнее, чем больше «разнесены» выборочные данные и чем ближе значение независимой переменной к среднему выборочному значению.

Видео:Эконометрика. Линейная парная регрессияСкачать

Интервальный прогноз по уравнению регрессии

Поскольку согласно (1.2.3) у(х)

N^y(x), а дисперсия а 2

в (1.2.3) заменяется ее несмещенной оценкой по формуле (1.1.15), то за середину доверительного интервала для детерминированной составляющей выбирается точечный прогноз зависимой переменной, а ширина доверительного интервала — пропорциональной стандартному отклонению точечного прогноза:

где t_a — двусторонняя критическая граница распределения Стью- дента с (п — 2) степенями свободы.

О Пример 1.1. Зависимость розничного товарооборота от числа занятых

Исследуем зависимость розничного товарооборота (млн руб.) магазинов от среднесписочного числа работников. Товарооборот как результирующий признак обозначим через у, а среднесписочное число работников как независимую переменную (фактор) — через х.

На объем товарооборота влияют также такие факторы, как объем основных фондов, их структура, площадь торговых залов и подсобных помещений, расположение магазинов по отношению к потокам покупателей и т. п. Предположим, что в исследуемой группе магазинов значения этих других факторов примерно одинаковы, поэтому различие их значений на изменении объема товарооборота сказывается незначительно.

В табл. 1.1 в столбцах 2 и 3 приведены значения соответственно среднесписочного числа работников и объема розничного товарооборота, а в следующих столбцах — значения расчетных величин, необходимых для определения оценок коэффициентов регрессии и дисперсии случайной составляющей (Zj=Xj-x, Ayj=yj-y,

Фактические и выравненные значения товарооборота (млн руб.) в зависимости от числа занятых

Найдя по итогам столбцов 2 и 3 средние х = 904/8 = 113, у = 9,6/8 = 1,2, последовательно заполняем столбцы 4—8 и подводим итоги по этим столбцам. Теперь можно определять эмпирические коэффициенты регрессии. По формулам (1.1.6) находим следующие точечные оценки коэффициентов регрессии:

Значение нулевого коэффициента &° представляет собой ординату эмпирической линии регрессии в точке х = х = 113, а коэффициент регрессии dj = 0,01924 — угловой коэффициент этой прямой линии.

На рис. 1.2 изображены система соединенных штриховой линией точек наблюдений и прямая эмпирической регрессии.

Если не учитывать, что мы имеем не теоретическую, а эмпирическую линию регрессии (которая действительно является приближением теоретической линии регрессии), то коэффициент

а, = 0,01924 показывает, что увеличение среднесписочной численности на одного человека приводит к увеличению товарооборота в среднем на 19,24 тыс. руб. Это своего рода эмпирический норматив приростной эффективности использования работников для данной группы магазинов. Если увеличение численности на одного работника приводит к меньшему росту товарооборота, то прием его на работу необоснован.

Теперь можно вычислить выравненные значения (значения ординат эмпирической линии регрессии):

и использовать столбцы 9—11 табл. 1.1. Итог столбца 11, в свою очередь, позволяет получить оценку дисперсии случайной составляющей:

Зная дисперсию случайной составляющей, можно проверить статистические гипотезы о параметрах регрессии и уравнении

Рис. 1.2. Фактические (штриховая ломаная линия) и выравненные (сплошная прямая линия) значения товарооборота

в целом, а также построить интервальные оценки параметров регрессии и прогнозного значения детерминированной составляющей.

Для проверки гипотезы о том, значимо ли отличается от нуля выборочный коэффициент ос,, находим согласно равенству (1.1.18) его эмпирическую значимость

которую теперь надо сравнить с теоретическим значением t_a(n — 2), найденным по таблице распределения Стьюдента (см. табл. П.5.2).

Выбираем уровень значимости ос равным 5% (т. е. с вероятностью 0,05 мы допускаем, что гипотеза Н₀: ос, = 0 будет отвергнута в том случае, когда она на самом деле верна). По табл. П.5.2 находим /₀₀₅(6) = 2,45. Эмпирическая значимость (14,198) существенно

больше теоретической (2,45), поэтому d₁ значимо отличается от нуля, т. е. принимаем гипотезу Н <.ос, *0.

Этот вывод подтверждается и высоким значением коэффициента детерминации:

который показывает, что в исследуемой ситуации 97,1% общей вариабельности розничного товарооборота объясняется изменением числа работников, в то время как на все остальные факторы приходится лишь 2,9% вариабельности.

Этот статистический вывод не абсолютен. Допустим, что в магазинах исследуемой группы стало больше работников, при этом предельная эффективность работника падает и на первый план выходит влияние других факторов. По-видимому, это прежде всего доля дефицитных товаров в ассортименте, комплекс факторов, характеризующих культуру обслуживания, и расположение магазинов.

Построим интервальные оценки параметров регрессии а 0 , а,

в форме d° ± /_а(Ьо, 6с, ± /„6^. Здесь середины интервалов являются точечными оценками коэффициентов регрессии, которые уже рассчитаны: &°=у = 1,2; а, =0,01924. При выборе уровня значимости 5% получаем /0,05(6) = 2,45. Остается только найти стандартные ошибки коэффициентов регрессии. Согласно формулам (1.1.8), (1.1.7)

заменяя а на 6, получаем

Отсюда окончательно получаем, что с вероятностью 0,95 истинные значения параметров лежат в следующих пределах:

Найденные отклонения фактических значений от выравненных (столбец 10) позволяют провести сравнительный анализ работы различных магазинов рассматриваемой группы. Прежде всего необходимо обратить внимание на магазины с отрицательным отклонением (3, 4 и 6-й). Особенно велико отклонение у 4-го магазина. В реальной ситуации необходимо внимательно обследовать эти магазины и установить причины отклонения фактического значения товарооборота от выравненного («нормативного») значения. Это может быть расположение магазина в стороне от основных потоков покупателей, плохое снабжение товарами повышенного спроса, устаревшее оборудование, неудовлетворительный кадровый состав и т. п. При статистическом анализе с учетом сделанных ранее предположений и на основе имеющихся данных приходим к выводу, что в этих магазинах, по-видимому, имеются резервы в организации труда работников. Напротив, в 1, 2, 5, 7 и 8-м магазинах эффективность использования работников выше статистического норматива, но может оказаться, что эти магазины объективно находятся в лучших условиях.

Полученное уравнение регрессии может быть использовано для прогноза. В частности, пусть намечается открытие магазина такого же типа с численностью работников х = 140, тогда достаточно обоснованный объем товарооборота следует установить по уравнению регрессии

С точки зрения принятой теоретической схемы полученный прогноз у(х) является лишь точечной оценкой истинной детерминированной составляющей у (х), а сама составляющая лежит внутри доверительного интервала у (x) ± , в котором согласно формуле (1.2.4)

В результате получаем следующий доверительный интервал для теоретического значения прогноза:

или

Видео:Уравнение парной линейной регрессии с помощью Анализа ДанныхСкачать

Вопросы и задачи

1. Предскажите время реакции полуторамесячного ребенка по следующим данным:

Видео:Парная регрессия: линейная зависимостьСкачать

Построение интервального прогноза по модели парной линейной регрессии

Если построенное уравнение регрессии и показатели тесноты связи признаны статистически значимыми, то такую модель можно использовать для построения прогноза.

Точечный прогноз у_прог„. определяется, если в уравнение регрессии подставить значение факторной переменной х_прогнпри котором нас интересует значение прогнозируемой эндогенной переменной.

Однако вероятность осуществления точечного прогноза невелика, поэтому прибегают к интервальному прогнозу, вероятность которого составляет 95 %. Расчеты, необходимые для интервального прогноза:

где S_np0ZH‘ — стандартная ошибка прогноза; S — стандартная ошибка уравнения регрессии (корень из остаточной дисперсии на одну степень свободы); п — объем выборки; х„_рогн — значение факторной переменной, при которой прогнозируется эндогенная переменная; х, — индивидуальные значения независимой переменой; х — среднее арифметическое значений факторного признака.

Стандартная ошибка уравнения регрессии рассчитывается по формуле:

Доверительный интервал прогноза:

где t — табличное значение t-критерия Стьюдента при уровне значимости 0,05 и числе степеней свободы п-2.

Видео:Эконометрика Линейная регрессия и корреляцияСкачать

АНАЛИЗ ОСТАТКОВ ПО МОДЕЛИ РЕГРЕССИИ

1. Требования к остаткам для качественной модели регрессии.

Видео:Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Понятие гомоскедастичности и гетероскедастичности остатков модели. Методы проверки ряда остатков модели на гетероскедастичносгь

Видео:ЕГО УВАЖАЕТ Весь МИР! Бесценные Советы Великого Кардиохирурга Рената Акчурина - секреты долголетияСкачать

Методика проведения теста Голдфелда — Квандта на гетероскедастичность остатков

Видео:Линейная парная регрессия в Eviews(англ.интерфейс)Скачать

Понятие автокорреляции в остатках. Методика проверки ряда остатков на наличие автокорреляции с помощью критерия Дарбина — Уотсона

Видео:Что такое линейная регрессия? Душкин объяснитСкачать

Требования к остаткам для качественной модели регрессии

Для того чтобы построенная регрессионная модель адекватно описывала моделируемое явление или процесс и имела высокую прогностическую силу, ряд остатков по модели должен удовлетворять следующим требованиям:

1. Дисперсия остатков должна быть одинакова для различных наблюдений.
2. Остатки не должны зависеть друг от друга, т. е. не должно быть автокорреляции в остатках.
3. Остатки должны быть распределены по нормальному закону распределения.

После построения модели регрессии, расчета коэффициента корреляции, коэффициента детерминации, средней относительной ошибки аппроксимации, оценки статистической значимости параметров уравнения регрессии с помощью t-критерия Стьюдента и оценки статистической значимости уравнения регрессии в целом с помощью F-критерия Фишера необходимо проверить ряд остатков модели на постоянство их дисперсии и на автокорреляцию. [1]

После построения модели проверяют ряд ее остатков, и, если выявлено свойство гетероскедастичности остатков, модель не используют для прогноза и анализа явления, а строят новую модель, остатки которой гомоскедастичны.

Возможные причины гетероскедастичности остатков:

1) неучет в модели важных факторов, влияющих на моделируемый признак;
2) неверная форма модели.

Проверка выполнения требования гомоскедастичности остатков может быть произведена:

1) графическим методом, с помощью построения точечного графика зависимости остатков от теоретических значений результативного признака, а также графика зависимости остатков от значений факторного признака; в случае гомоскедастичности облако остатков находится в области, параллельной оси абсцисс; все прочие случаи указывают на гетероскедастичность остатков;
2) с помощью специальных тестов, среди которых:
- а) тест Голдфелда — Квандта;
- б) тест ранговой корреляции Спирмена;
- в) тест Уайта;
- г) тест Парка;
- д) тест Глейзера и др.

Примеры выявления гетероскедастичности в остатках визуально, графическим методом представлены на рис. 7.1-7.3.

Графики зависимости остатков от значений факторного признака выводятся автоматически при использовании надстройки «Анализ данных», инструмент анализа «Регрессия», если поставить галочку в диалоговом окне напротив опции «График остатков».

Рис. 7.1. Гетероскедастичные остатки

Рис. 7.2. Гетероскедастичные остатки 2

Рис. 7.3. Гетероскедастичные остатки 3 Пример графика гомоскедастичных остатков приведен на рис. 7.4.

Рис. 7.4. Гомоскедастичные остатки

Очень часто визуально сложно определить гомоскедастичны остатки или гетероскедастичны, поэтому используются более однозначные и точные количественные критерии.

3. МЕТОДИКА ПРОВЕДЕНИЯ ТЕСТА ГОЛ ДФЕ Л ДА — КВАНДТА НА ГЕТЕРОСКЕДАСТИЧНОСТЬ ОСТАТКОВ

Наиболее популярным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом в 1965 г. Процедура проверки остатков на го- москедастичность по тесту Голдфелда — Квандта следующая:

1) все наблюдения упорядочиваются по возрастанию фактора х;
2) упорядоченную совокупность делят на три группы, причем первая и третья должны быть равного объема; при малом числе наблюдений упорядоченную по признаку х совокупность можно разделить на две равные части; при большом числе наблюдений упорядоченную по признаку х совокупность делят на три равные части; авторы метода рекомендуют, чтобы объемы первой и третьей части удовлетворяли условию п₇ = п₃ = 3/8*и; из дальнейшего анализа исключается средняя часть наблюдений упорядоченной совокупности;
3) по первой и третьей группе наблюдений отдельно строят уравнения регрессии и определяют остаточные суммы квадратов по каждому уравнению SS и SSy,
4) находят отношение:

В числителе должна быть большая из сумм квадратов;

5) определяют табличное значение F-критерия Фишера при уровне значимости 0,05 и числе степеней свободы П]-т, где т — число оцениваемых параметров;
6) сравнивают расчетное значение F-критерия с табличным, если ^_Расч>^табл, то остатки гетероскедастичны, т. е. чем больше найденное отношение Г_расч, тем сильнее вероятность гетероскедастичности остатков; чем больше Граем превышает Г_табл, тем более нарушена предпосылка о равенстве остаточных дисперсий. [2]

Статистика DW принимает значения от 0 до 4. Если полученное значение DW не слишком отличается от 2, то можно сделать вывод об отсутствии автокорреляции в остатках.

Использование критерия Дарбина — Уотсона показано графически на схеме (рис. 7.5).

Рис. 7.5. Схема применения критерия Дарбина — Уотсона

Нижняя и верхняя границы критерия DW_t и DW,, берутся из статистических таблиц с учетом уровня значимости 0,05, объема статистической совокупности (числа наблюдений) и количества параметров при факторном признаке в уравнении регрессии (для парной линейной регрессии такой параметр один — Ь).