Интервальный прогноз для значения x xmax для линейного уравнения регрессии (7 видео)

Интервалы прогноза по линейному уравнению регрессии

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х. Такой прогноз у_х называется точечным. Он не является точным, поэтому дополняется расчетом его стандартной ошибки, в результате чего получается интервальная оценка прогнозного значения:

Преобразуем уравнение регрессии:

Ошибка т. зависит от ошибки у и ошибки коэффициента ре-

грессии Ь, т.е.

Из теории выборки известно, что

Используя в качестве оценки а 2 остаточную дисперсию на одну степень свободы S 2 , получаем:

Ошибка коэффициента регрессии из формулы (1.20):

Таким образом, при х = х_р получаем:

Как видно из формулы (1.31), величина т- достигает минимума при х_р = х и возрастает по мере удаления х_р от х в любом направлении (рис. 1.3). Для нашего примера эта величина составит:

Рис. 1.3. Доверительные границы прогноза при парной линейной регрессии При При х_р = 4.

Для прогнозируемого значения у 95 %-ные доверительные интервалы при заданном х_р определены выражением

т.е. прил:_р = 4 у + 2,57х3,34 или у±8,58. Прих_р = 4 прогнозное значение составит у* = —5,79 + 36,84 х 4 = 141,57. Это точечный прогноз.

Прогноз линии регрессии (1.32) лежит в интервале

Содержание

Интервальный прогноз на основе линейного уравнения регрессии
Прогноз по модели парной регрессии
Точечный прогноз по уравнению регрессии
Интервальный прогноз по уравнению регрессии
Вопросы и задачи
🌟 Видео

Видео:Эконометрика. Точечный и интервальный прогнозы.Скачать

Интервальный прогноз на основе линейного уравнения регрессии

В прогнозных расчетах по уравнению регрессии определяется предсказываемое у_г значение как точечный прогноз у_х при х_р = Xk. т.е. путем подстановки в линейное уравнение регрессии у_х = a + b • х соответствующего значения х. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки у_х, т.е. т

и соответственно мы получаем интервальную оценку прогнозного значения у*:

Из теории выборки известно, чтош 2 = сг 2 /п. Используя в качестве оценки 2 -=^— (2.24)

Ошибка коэффициента регрессии, как уже было показано, определяется формулой

Считая, что прогнозное значение фактора х_р = Хк, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, т.е. т- :

Соответственно т-, имеет выражение:

Рассмотренная формула стандартной ошибки предсказываемого среднего значения у при заданном значении Хк характеризует ошибку положения линии регрессии. Величина стандартной ошибки т- достигает минимума при Хк = х и возрастает по мере того, как «удаляется» от х в любом направлении. Иными словами, чем больше разность между Хк и х, тем больше ошибка т- , с которой предсказывается среднее значение у для заданного значения Хк. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдения х и нельзя ожидать хороших результатов прогноза при удалении Хк от х. Если же значение Хк оказывается за пределами наблюдаемых значений, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько Хк отклоняется от области наблюдаемых значений фактора х.

Для примера 2.1 т- составит:

Соответственно ш- составит эту же величины и при Хк = 2,286. Для прогнозируемого значения у_х 95%-ные доверительные интервалы при заданном Хк определяются выражением

т.е. у ±2,57 • 3,32 или у ±8,56, где Л)05-5 = 2,57 — значение J х к 7 J х к ’ ’ ’

критерия Стьюдента при уровне значимости а = 0,05 и числе степеней свободы 7-2 = 5.

При Хк = 4 прогнозное значение составит:

которое представляет собой точечный прогноз.

Прогноз регрессии в интервале составит:

Все вычисления в упорядоченном виде сведем в следующую таблицу:

На графике, приведенном на рис.2.3, доверительные границы для у_х представляют собой гиперболы, расположенные по обе стороны от линии регрессии. Рис.2.3 показывает, как изменяются пределы в зависимости от изменения Хк’. две гиперболы по обе стороны от линии регрессии определяют 95%-е доверительные интервалы для среднего значения у при заданном значении х.

Рис.2.3. Доверительный интервал линии регрессии: а — верхняя доверительная граница (у_тахУ, б — линия регрессии (у_х); в — нижняя доверительная граница (y_min)

Однако фактические значения у варьируют около среднего значения у_х. Индивидуальные значения у могут отклоняться от у_х на величину случайной ошибки Е, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы с^ост-Поэтому ошибка предсказываемого индивидуального значения у должна включать не только стандартную ошибку т — , но и случайную ошибку (Тост-

Средняя ошибка прогнозируемого индивидуального значения у составит:

По данным примера 2.1 получим:

Доверительные интервалы прогноза индивидуальных значений у при Хк = 4 с вероятностью 0,95 составят: 141,58 ± 2,57 • 7,98, или 141,58 ±20,52, это означает, что 121,06 ЗД43 Н =13,21 у 7 10,857 )

Сравним ее с величиной предполагаемого снижения издержек производства, т. е. 38,95.

Поскольку оценивается значимость только уменьшения затрат, то используется односторонний z-критерий Стьюдента. При ошибке в 5% с пятью степенями свободы /_табл = 2,015. Следовательно, предполагаемое уменьшение затрат значимо отличается от прогнозируемого по модели при 95%-ном уровне доверия. Однако если увеличить вероятность до 99%, при ошибке в 1% фактическое значение /-критерия оказывается ниже табличного 3,365, и рассматриваемое различие в величине затрат статистически незначимо.

Видео:Точечный прогноз. Интервальный прогноз. Построение уравнения регрессии с помощью анализа данныхСкачать

Прогноз по модели парной регрессии

Видео:Эконометрика. Линейная парная регрессияСкачать

Точечный прогноз по уравнению регрессии

Если известно значение независимой переменной х, то прогноз зависимой переменной осуществляется подстановкой этого значения в оценку детерминированной составляющей:

Вследствие несмещенности оценок параметров регрессии этот прогноз также является несмещенным

Показателем точности прогноза служит его дисперсия (чем она меньше, тем точнее прогноз):

Из формулы (1.2.3) видно, что чем больше объем выборки, тем точнее прогноз. При фиксированном объеме выборки прогноз тем точнее, чем больше «разнесены» выборочные данные и чем ближе значение независимой переменной к среднему выборочному значению.

Видео:Множественная регрессия в ExcelСкачать

Интервальный прогноз по уравнению регрессии

Поскольку согласно (1.2.3) у(х)

N^y(x), а дисперсия а 2

в (1.2.3) заменяется ее несмещенной оценкой по формуле (1.1.15), то за середину доверительного интервала для детерминированной составляющей выбирается точечный прогноз зависимой переменной, а ширина доверительного интервала — пропорциональной стандартному отклонению точечного прогноза:

где t_a — двусторонняя критическая граница распределения Стью- дента с (п — 2) степенями свободы.

О Пример 1.1. Зависимость розничного товарооборота от числа занятых

Исследуем зависимость розничного товарооборота (млн руб.) магазинов от среднесписочного числа работников. Товарооборот как результирующий признак обозначим через у, а среднесписочное число работников как независимую переменную (фактор) — через х.

На объем товарооборота влияют также такие факторы, как объем основных фондов, их структура, площадь торговых залов и подсобных помещений, расположение магазинов по отношению к потокам покупателей и т. п. Предположим, что в исследуемой группе магазинов значения этих других факторов примерно одинаковы, поэтому различие их значений на изменении объема товарооборота сказывается незначительно.

В табл. 1.1 в столбцах 2 и 3 приведены значения соответственно среднесписочного числа работников и объема розничного товарооборота, а в следующих столбцах — значения расчетных величин, необходимых для определения оценок коэффициентов регрессии и дисперсии случайной составляющей (Zj=Xj-x, Ayj=yj-y,

Фактические и выравненные значения товарооборота (млн руб.) в зависимости от числа занятых

Найдя по итогам столбцов 2 и 3 средние х = 904/8 = 113, у = 9,6/8 = 1,2, последовательно заполняем столбцы 4—8 и подводим итоги по этим столбцам. Теперь можно определять эмпирические коэффициенты регрессии. По формулам (1.1.6) находим следующие точечные оценки коэффициентов регрессии:

Значение нулевого коэффициента &° представляет собой ординату эмпирической линии регрессии в точке х = х = 113, а коэффициент регрессии dj = 0,01924 — угловой коэффициент этой прямой линии.

На рис. 1.2 изображены система соединенных штриховой линией точек наблюдений и прямая эмпирической регрессии.

Если не учитывать, что мы имеем не теоретическую, а эмпирическую линию регрессии (которая действительно является приближением теоретической линии регрессии), то коэффициент

а, = 0,01924 показывает, что увеличение среднесписочной численности на одного человека приводит к увеличению товарооборота в среднем на 19,24 тыс. руб. Это своего рода эмпирический норматив приростной эффективности использования работников для данной группы магазинов. Если увеличение численности на одного работника приводит к меньшему росту товарооборота, то прием его на работу необоснован.

Теперь можно вычислить выравненные значения (значения ординат эмпирической линии регрессии):

и использовать столбцы 9—11 табл. 1.1. Итог столбца 11, в свою очередь, позволяет получить оценку дисперсии случайной составляющей:

Зная дисперсию случайной составляющей, можно проверить статистические гипотезы о параметрах регрессии и уравнении

Рис. 1.2. Фактические (штриховая ломаная линия) и выравненные (сплошная прямая линия) значения товарооборота

в целом, а также построить интервальные оценки параметров регрессии и прогнозного значения детерминированной составляющей.

Для проверки гипотезы о том, значимо ли отличается от нуля выборочный коэффициент ос,, находим согласно равенству (1.1.18) его эмпирическую значимость

которую теперь надо сравнить с теоретическим значением t_a(n — 2), найденным по таблице распределения Стьюдента (см. табл. П.5.2).

Выбираем уровень значимости ос равным 5% (т. е. с вероятностью 0,05 мы допускаем, что гипотеза Н₀: ос, = 0 будет отвергнута в том случае, когда она на самом деле верна). По табл. П.5.2 находим /₀₀₅(6) = 2,45. Эмпирическая значимость (14,198) существенно

больше теоретической (2,45), поэтому d₁ значимо отличается от нуля, т. е. принимаем гипотезу Н <.ос, *0.

Этот вывод подтверждается и высоким значением коэффициента детерминации:

который показывает, что в исследуемой ситуации 97,1% общей вариабельности розничного товарооборота объясняется изменением числа работников, в то время как на все остальные факторы приходится лишь 2,9% вариабельности.

Этот статистический вывод не абсолютен. Допустим, что в магазинах исследуемой группы стало больше работников, при этом предельная эффективность работника падает и на первый план выходит влияние других факторов. По-видимому, это прежде всего доля дефицитных товаров в ассортименте, комплекс факторов, характеризующих культуру обслуживания, и расположение магазинов.

Построим интервальные оценки параметров регрессии а 0 , а,

в форме d° ± /_а(Ьо, 6с, ± /„6^. Здесь середины интервалов являются точечными оценками коэффициентов регрессии, которые уже рассчитаны: &°=у = 1,2; а, =0,01924. При выборе уровня значимости 5% получаем /0,05(6) = 2,45. Остается только найти стандартные ошибки коэффициентов регрессии. Согласно формулам (1.1.8), (1.1.7)

заменяя а на 6, получаем

Отсюда окончательно получаем, что с вероятностью 0,95 истинные значения параметров лежат в следующих пределах:

Найденные отклонения фактических значений от выравненных (столбец 10) позволяют провести сравнительный анализ работы различных магазинов рассматриваемой группы. Прежде всего необходимо обратить внимание на магазины с отрицательным отклонением (3, 4 и 6-й). Особенно велико отклонение у 4-го магазина. В реальной ситуации необходимо внимательно обследовать эти магазины и установить причины отклонения фактического значения товарооборота от выравненного («нормативного») значения. Это может быть расположение магазина в стороне от основных потоков покупателей, плохое снабжение товарами повышенного спроса, устаревшее оборудование, неудовлетворительный кадровый состав и т. п. При статистическом анализе с учетом сделанных ранее предположений и на основе имеющихся данных приходим к выводу, что в этих магазинах, по-видимому, имеются резервы в организации труда работников. Напротив, в 1, 2, 5, 7 и 8-м магазинах эффективность использования работников выше статистического норматива, но может оказаться, что эти магазины объективно находятся в лучших условиях.

Полученное уравнение регрессии может быть использовано для прогноза. В частности, пусть намечается открытие магазина такого же типа с численностью работников х = 140, тогда достаточно обоснованный объем товарооборота следует установить по уравнению регрессии

С точки зрения принятой теоретической схемы полученный прогноз у(х) является лишь точечной оценкой истинной детерминированной составляющей у (х), а сама составляющая лежит внутри доверительного интервала у (x) ± , в котором согласно формуле (1.2.4)