Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Интервалы прогноза по линейному уравнению регрессии

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х. Такой прогноз ух называется точечным. Он не является точным, поэтому дополняется расчетом его стандартной ошибки, в результате чего получается интервальная оценка прогнозного значения:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Преобразуем уравнение регрессии:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Ошибка т. зависит от ошибки у и ошибки коэффициента ре-

грессии Ь, т.е. Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Из теории выборки известно, что Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Используя в качестве оценки а 2 остаточную дисперсию на одну степень свободы S 2 , получаем:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Ошибка коэффициента регрессии из формулы (1.20):

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Таким образом, при х = хр получаем:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Как видно из формулы (1.31), величина т- достигает минимума при хр = х и возрастает по мере удаления хр от х в любом направлении (рис. 1.3). Для нашего примера эта величина составит:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Рис. 1.3. Доверительные границы прогноза при парной линейной регрессии При Точечная и интервальная оценка прогноза по линейному уравнению регрессииПри хр = 4.

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Для прогнозируемого значения у 95 %-ные доверительные интервалы при заданном хр определены выражением

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

т.е. прил:р = 4 у + 2,57х3,34 или у±8,58. Прихр = 4 прогнозное значение составит у* = —5,79 + 36,84 х 4 = 141,57. Это точечный прогноз.

Прогноз линии регрессии (1.32) лежит в интервале

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Прогноз по модели парной регрессии

Видео:Эконометрика. Точечный и интервальный прогнозы.Скачать

Эконометрика. Точечный и интервальный прогнозы.

Точечный прогноз по уравнению регрессии

Если известно значение независимой переменной х, то прогноз зависимой переменной осуществляется подстановкой этого значения в оценку детерминированной составляющей:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Вследствие несмещенности оценок параметров регрессии этот прогноз также является несмещенным

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Показателем точности прогноза служит его дисперсия (чем она меньше, тем точнее прогноз):

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Из формулы (1.2.3) видно, что чем больше объем выборки, тем точнее прогноз. При фиксированном объеме выборки прогноз тем точнее, чем больше «разнесены» выборочные данные и чем ближе значение независимой переменной к среднему выборочному значению.

Видео:3.2 Точечные оценки математического ожидания и дисперсии .Скачать

3.2  Точечные оценки математического ожидания и дисперсии .

Интервальный прогноз по уравнению регрессии

Поскольку согласно (1.2.3) у(х)

N^y(x), а дисперсия а 2

в (1.2.3) заменяется ее несмещенной оценкой по формуле (1.1.15), то за середину доверительного интервала для детерминированной составляющей выбирается точечный прогноз зависимой переменной, а ширина доверительного интервала — пропорциональной стандартному отклонению точечного прогноза:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

где ta двусторонняя критическая граница распределения Стью- дента с (п — 2) степенями свободы.

О Пример 1.1. Зависимость розничного товарооборота от числа занятых

Исследуем зависимость розничного товарооборота (млн руб.) магазинов от среднесписочного числа работников. Товарооборот как результирующий признак обозначим через у, а среднесписочное число работников как независимую переменную (фактор) — через х.

На объем товарооборота влияют также такие факторы, как объем основных фондов, их структура, площадь торговых залов и подсобных помещений, расположение магазинов по отношению к потокам покупателей и т. п. Предположим, что в исследуемой группе магазинов значения этих других факторов примерно одинаковы, поэтому различие их значений на изменении объема товарооборота сказывается незначительно.

В табл. 1.1 в столбцах 2 и 3 приведены значения соответственно среднесписочного числа работников и объема розничного товарооборота, а в следующих столбцах — значения расчетных величин, необходимых для определения оценок коэффициентов регрессии и дисперсии случайной составляющей (Zj=Xj-x, Ayj=yj-y,

Фактические и выравненные значения товарооборота (млн руб.) в зависимости от числа занятых

Найдя по итогам столбцов 2 и 3 средние х = 904/8 = 113, у = 9,6/8 = 1,2, последовательно заполняем столбцы 4—8 и подводим итоги по этим столбцам. Теперь можно определять эмпирические коэффициенты регрессии. По формулам (1.1.6) находим следующие точечные оценки коэффициентов регрессии:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Значение нулевого коэффициента &° представляет собой ординату эмпирической линии регрессии в точке х = х = 113, а коэффициент регрессии dj = 0,01924 — угловой коэффициент этой прямой линии.

На рис. 1.2 изображены система соединенных штриховой линией точек наблюдений и прямая эмпирической регрессии.

Если не учитывать, что мы имеем не теоретическую, а эмпирическую линию регрессии (которая действительно является приближением теоретической линии регрессии), то коэффициент

а, = 0,01924 показывает, что увеличение среднесписочной численности на одного человека приводит к увеличению товарооборота в среднем на 19,24 тыс. руб. Это своего рода эмпирический норматив приростной эффективности использования работников для данной группы магазинов. Если увеличение численности на одного работника приводит к меньшему росту товарооборота, то прием его на работу необоснован.

Теперь можно вычислить выравненные значения (значения ординат эмпирической линии регрессии):

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

и использовать столбцы 9—11 табл. 1.1. Итог столбца 11, в свою очередь, позволяет получить оценку дисперсии случайной составляющей:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Зная дисперсию случайной составляющей, можно проверить статистические гипотезы о параметрах регрессии и уравнении

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Рис. 1.2. Фактические (штриховая ломаная линия) и выравненные (сплошная прямая линия) значения товарооборота

в целом, а также построить интервальные оценки параметров регрессии и прогнозного значения детерминированной составляющей.

Для проверки гипотезы о том, значимо ли отличается от нуля выборочный коэффициент ос,, находим согласно равенству (1.1.18) его эмпирическую значимость

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

которую теперь надо сравнить с теоретическим значением ta(n — 2), найденным по таблице распределения Стьюдента (см. табл. П.5.2).

Выбираем уровень значимости ос равным 5% (т. е. с вероятностью 0,05 мы допускаем, что гипотеза Н0: ос, = 0 будет отвергнута в том случае, когда она на самом деле верна). По табл. П.5.2 находим /005(6) = 2,45. Эмпирическая значимость (14,198) существенно

больше теоретической (2,45), поэтому d1 значимо отличается от нуля, т. е. принимаем гипотезу Н <.ос, *0.

Этот вывод подтверждается и высоким значением коэффициента детерминации:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

который показывает, что в исследуемой ситуации 97,1% общей вариабельности розничного товарооборота объясняется изменением числа работников, в то время как на все остальные факторы приходится лишь 2,9% вариабельности.

Этот статистический вывод не абсолютен. Допустим, что в магазинах исследуемой группы стало больше работников, при этом предельная эффективность работника падает и на первый план выходит влияние других факторов. По-видимому, это прежде всего доля дефицитных товаров в ассортименте, комплекс факторов, характеризующих культуру обслуживания, и расположение магазинов.

Построим интервальные оценки параметров регрессии а 0 , а,

в форме d° ± /а(Ьо, 6с, ± /„6^. Здесь середины интервалов являются точечными оценками коэффициентов регрессии, которые уже рассчитаны: &°=у = 1,2; а, =0,01924. При выборе уровня значимости 5% получаем /0,05(6) = 2,45. Остается только найти стандартные ошибки коэффициентов регрессии. Согласно формулам (1.1.8), (1.1.7)

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

заменяя а на 6, получаем

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Отсюда окончательно получаем, что с вероятностью 0,95 истинные значения параметров лежат в следующих пределах:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Найденные отклонения фактических значений от выравненных (столбец 10) позволяют провести сравнительный анализ работы различных магазинов рассматриваемой группы. Прежде всего необходимо обратить внимание на магазины с отрицательным отклонением (3, 4 и 6-й). Особенно велико отклонение у 4-го магазина. В реальной ситуации необходимо внимательно обследовать эти магазины и установить причины отклонения фактического значения товарооборота от выравненного («нормативного») значения. Это может быть расположение магазина в стороне от основных потоков покупателей, плохое снабжение товарами повышенного спроса, устаревшее оборудование, неудовлетворительный кадровый состав и т. п. При статистическом анализе с учетом сделанных ранее предположений и на основе имеющихся данных приходим к выводу, что в этих магазинах, по-видимому, имеются резервы в организации труда работников. Напротив, в 1, 2, 5, 7 и 8-м магазинах эффективность использования работников выше статистического норматива, но может оказаться, что эти магазины объективно находятся в лучших условиях.

Полученное уравнение регрессии может быть использовано для прогноза. В частности, пусть намечается открытие магазина такого же типа с численностью работников х = 140, тогда достаточно обоснованный объем товарооборота следует установить по уравнению регрессии

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

С точки зрения принятой теоретической схемы полученный прогноз у(х) является лишь точечной оценкой истинной детерминированной составляющей у (х), а сама составляющая лежит внутри доверительного интервала у (x) ± , в котором согласно формуле (1.2.4)

Точечная и интервальная оценка прогноза по линейному уравнению регрессии Точечная и интервальная оценка прогноза по линейному уравнению регрессии

В результате получаем следующий доверительный интервал для теоретического значения прогноза:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

или Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Видео:Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Вопросы и задачи

1. Предскажите время реакции полуторамесячного ребенка по следующим данным:

Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Прогнозирование по модели множественной регрессии

Прогнозирование по модели множественной линейной регрессии предполагает оценку ожидаемых значений зависимой переменной при заданных значениях независимых переменных, входящих в уравнение регрессии. Различают точечный и интервальный прогнозы.

Точечный прогноз – это расчетное значение зависимой переменной, полученное подстановкой в уравнение множественной линейной регрессии прогнозных (заданных исследователем) значений независимых переменных. Если заданы значения Точечная и интервальная оценка прогноза по линейному уравнению регрессии, то прогнозное значение зависимой переменной (точечный прогноз) будет равно

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.55)

Интервальный прогноз – это минимальное и максимальное значения зависимой переменной, в промежуток между

которыми она попадает с заданной долей вероятности и при заданных значениях независимых переменных.

Интервальный прогноз для линейной функции вычисляется по формуле

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.56)

где tT – теоретическое значение критерия Стьюдента при df=n- – т – 1 степенях свободы; sy – стандартная ошибка прогноза, вычисляемая по формуле

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.57)

где Х – матрица исходных значений независимых переменных; Хпр – матрица-столбец прогнозных значений независимых переменных вида

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Найдем прогнозные значения поступления налогов (пример 2.1), при условии, что связь между показателями описывается уравнением

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Зададим прогнозные значения независимых переменных:

  • – количество занятых Xj: 500 тыс. человек;
  • – объем отгрузки в обрабатывающих производствах х2: 65 000 млн руб.;
  • – производство энергии х3:15 000 млн руб.

Найдем точечный и интервальный прогноз поступления налогов.

При заданных значения независимых переменных поступление налогов в среднем составит

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Вектор прогнозных значений независимых переменных будет иметь вид

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Ошибка прогноза, рассчитанная по формуле (2.57), составила 5556,7. Табличное значение t-критерия при числе степеней свободы df = 44 и уровне значимости а = 0,05 равно 2,0154. Следовательно, прогнозные значения поступления налогов будут с вероятностью 0,95 находиться в границах:

от 18 013,69 – 2,0154-5556,7=6814,1 млн руб.;

до 18 013,69 + 2,0154-5556,7=29 212 млн руб.

Прогнозирование по нелинейным моделям множественной регрессии также можно осуществлять по формулам (2.55)–(2.57), предварительно линеаризовав указанные модели.

Видео:Прогнозирование на основе регрессионных моделей на примере рекламной кампанииСкачать

Прогнозирование на основе регрессионных моделей на примере рекламной кампании

Мультиколлинеарность данных

При построении эконометрической модели предполагается, что независимые переменные воздействуют на зависимую изолированно, т. е. влияние отдельной переменной на результативный признак не связано с влиянием других переменных. В реальной экономической действительности все явления в той или иной мере связаны, поэтому добиться выполнения этого предположения практически невозможно. Наличие связи между независимыми переменными приводит к необходимости оценки ее влияния на результаты корреляционно-регрессионного анализа.

Различают функциональные и стохастические связи между объясняющими переменными. В первом случае говорят об ошибках спецификации модели, которые должны быть исправлены.

Функциональная связь возникает, если в уравнение регрессии в качестве объясняющих переменных включают, в частности, все переменные, входящие в тождество. Например, можно сказать, что доход У складывается из потребления С и инвестиций I, т. е. имеет место тождество. Мы предполагаем, что уровень процентных ставок г зависит от дохода, т.е. модель в общем виде может быть представлена в виде

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Неопытный исследователь, желая улучшить модель, может включить в уравнение также переменные «потребление» и «инвестиции», что приведет к функциональной связи между объясняющими переменными:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Функциональная взаимосвязь столбцов матрицы X приведет к невозможности найти единственное решение уравнения

регрессии, так какТочечная и интервальная оценка прогноза по линейному уравнению регрессии, а нахождение обратной

матрицыТочечная и интервальная оценка прогноза по линейному уравнению регрессиипредполагает деление алгебраических дополнений матрицыТочечная и интервальная оценка прогноза по линейному уравнению регрессиина ее определитель, который в дан

ном случае будет равен нулю.

Более часто между объясняющими переменными наблюдается стохастическая связь, что приводит к уменьшению

величины определителя матрицыТочечная и интервальная оценка прогноза по линейному уравнению регрессии: чем сильнее связь,

тем меньше будет определитель. Это приводит к росту не только оценок параметров, полученных с использованием МНК, но и их стандартных ошибок, которые вычисляются по формуле (2.24): Точечная и интервальная оценка прогноза по линейному уравнению регрессии

в которой, как мы видим, также используется матрица Точечная и интервальная оценка прогноза по линейному уравнению регрессииКорреляционная связь может существовать как между двумя объясняющими переменными (интеркорреляция), так и между несколькими (мультиколлинеарность).

Существует несколько признаков, указывающих на наличие мультиколлинеарности. В частности, такими признаками являются:

  • – не соответствующие экономической теории знаки коэффициентов регрессии. Например, нам известно, что объясняющая переменная х оказывает прямое воздействие на объясняемую переменную у, в то же время коэффициент регрессии при этой переменной меньше нуля;
  • – значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности;
  • – незначимость параметров регрессии, обусловленная высокими значениями стандартных ошибок параметров.

Существование корреляционной связи между независимыми переменными может быть выявлено с помощью показателей корреляции между ними, в частности с помощью парных коэффициентов корреляции rXiX, которые можно записать в виде матрицы

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.58)

Коэффициент корреляции переменной с самой собой равен единице хх = 1), а коэффициент корреляции переменной*, с переменной *,■ равен коэффициенту корреляции переменной XjC переменной X,• х х х х ). Следовательно, данная матрица является симметрической, поэтому в ней указывают только главную диагональ и элементы под ней:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Высокие значения парных линейных коэффициентов корреляции указывают на наличие интеркорреляции, т.е. линейной связи между двумя объясняющими переменными. Чем выше величина Точечная и интервальная оценка прогноза по линейному уравнению регрессии, тем выше интеркорреляция. Так как при построении моделей избежать отсутствия связей между объясняющими переменными практически невозможно, существует следующая рекомендация относительно включения двух переменных в модель в качестве объясняющих. Обе переменные можно включить в модель, если выполняются соотношения

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.59)

т.е. теснота связи результирующей и объясняющей переменных больше, чем теснота связи между объясняющими переменными.

Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы (2.58). Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы – единице. Если связь между независимыми переменными близка к функциональной (т.е. является очень тесной), то определитель матрицы гхг будет близок к нулю.

Еще один метод измерения мультиколлинеарности является следствием анализа формулы стандартной ошибки коэффициента регрессии (2.28):

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Как следует из данной формулы, стандартная ошибка будет тем больше, чем меньше будет величина, которую называют фактор инфляции дисперсии (или фактор вздутия дисперсии) VIF:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

где Точечная и интервальная оценка прогноза по линейному уравнению регрессии– коэффициент детерминации, найденный для уравнения зависимости переменной Xj от других переменных Точечная и интервальная оценка прогноза по линейному уравнению регрессии, входящих в рассматриваемую модель множественной регрессии.

Так как величина Точечная и интервальная оценка прогноза по линейному уравнению регрессииотражает тесноту связи между переменной Xj и прочими объясняющими переменными, то она, по сути, характеризует мультиколлинеарность применительно К данной переменной Xj. При отсутствии связи показатель VIFX будет равен (или близок) единице, усиление связи ведет к стремлению этого показателя к бесконечности. Считают, что если VIFX >3 для каждой переменной *, то имеет место мультиколлинеарность.

Измерителем мультиколлинеарности является также так называемый показатель (число) обусловленности матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии. Он равен отношению максимального Точечная и интервальная оценка прогноза по линейному уравнению регрессиии минимального Точечная и интервальная оценка прогноза по линейному уравнению регрессиисобственных чисел этой матрицы:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.60)

Считается, что если порядок этого соотношения превышает 10s–106, то имеет место сильная мультиколлинеарность [1] .

Проверим наличие мультиколлинеарности в рассматриваемом нами примере 2.1. Матрица парных коэффициентов корреляции имеет вид

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Можно отметить, что связи между объясняющими переменными достаточно тесные, особенно между переменными .Xj и х2; X] и х3, что указывает на интеркорреляцию этих переменных. Более слабая связь наблюдается между переменными х2 и х3. Найдем определитель матрицы г^..

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Полученное значение ближе к нулю, чем к единице, что указывает на наличие мультиколлинеарности объясняющих переменных.

Проверим обоснованность включения всех трех независимых переменных в модель регрессии, используя правило (2.59). Парные линейные коэффициенты корреляции зависимой и независимых переменных равны

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Они больше, чем показатели тесноты связи между независимыми переменными, следовательно, правило (2.59) выполняется, все три переменные можно включить в модель регрессии.

Измерим степень мультиколлинеарности переменных с помощью фактора инфляции дисперсии (VIF). Для этого необходимо рассчитать коэффициенты детерминации для регрессий:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Для этого к каждой регрессии необходимо применить МНК, оценить ее параметры и рассчитать коэффициент детерминации. Для нашего примера результаты расчетов следующие:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Следовательно, фактор инфляции дисперсии для каждой независимой переменной будет равен

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Все рассчитанные величины не превысили критического значения, равного трем, следовательно, при построении модели можно пренебречь существованием связей между независимыми переменными.

Для нахождения собственных чисел матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии(с целью расчета показателя обусловленности η (2.60)) необходи мо найти решение характеристического уравнения

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Матрица Точечная и интервальная оценка прогноза по линейному уравнению регрессиидля нашего примера имеет вид

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

а матрица, модуль определителя которой нужно приравнять нулю, получится следующей:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Характеристический многочлен в данном случае будет иметь четвертую степень, что затрудняет решение задачи вручную. В данном случае рекомендуется воспользоваться возможностями вычислительной техники. Например, в ППП EViews получены следующие собственные числа матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Следовательно, показатель обусловленности η будет равен

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

что свидетельствует о наличии в модели сильной мультиколлинеарности.

Методами устранения мультиколлинеарности являются следующие.

  • 1. Анализ связей между переменными, включаемыми в модель регрессии в качестве объясняющих (независимых), с целью отбора только тех переменных, которые слабо связаны друг с другом.
  • 2. Функциональные преобразования тесно связанных между собой переменных. Например, мы предполагаем, что поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной «плотность населения».
  • 3. Если по каким-то причинам перечень независимых переменных не подлежит изменению, то можно воспользоваться специальными методами корректировки моделей с целью исключения мультиколинеарности: ридж-регрессией (гребневой регрессией), методом главных компонент.

Применение ридж-регрессии предполагает корректировку элементов главной диагонали матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессиина некую произвольно задаваемую положительную величину τ. Значение рекомендуется брать от 0,1 до 0,4. Н. Дрейпер, Г. Смит в своей работе приводят один из способов «автоматического» выбора величины τ, предложенный Хоэрлом, Кеннардом и Белдвином [2] :

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.61)

где т – количество параметров (без учета свободного члена) в исходной модели регрессии; SSe – остаточная сумма квадратов, полученная по исходной модели регрессии без корректировки на мультиколлинеарность; а – вектор-столбец коэффициентов регрессии, преобразованных по формуле

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.62)

где cij – параметр при переменной у, в исходной модели регрессии.

После выбора величины τ формула для оценки параметров регрессии будет иметь вид

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.63)

где I – единичная матрица; X, – матрица значений независимых переменных: исходных или преобразованных по формуле (2.64); Υτ – вектор значений зависимой переменной: исходных или преобразованных по формуле (2.65).

При построении ридж-регрессии рекомендуется преобразовывать независимые переменные

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.64)

и результативную переменную

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.65)

В этом случае после оценки параметров по формуле (2.63) необходимо перейти к регрессии по исходным переменным, используя соотношения

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.66)

Оценки параметров регрессии, полученные с помощью формулы (2.63), будут смещенными. Однако, так как определитель матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессиибольше определителя матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии, дисперсия оценок параметров регрессии уменьшится, что положительно повлияет на прогнозные свойства модели.

Рассмотрим применение ридж-регрессии для примера 2.1. Найдем величину τ с помощью формулы (2.61). Для этого сначала рассчитаем вектор преобразованных коэффициентов регрессии по формуле (2.62):

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Произведение Точечная и интервальная оценка прогноза по линейному уравнению регрессииравно 1,737-109. Следовательно, рекомендуемое τ составит

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

После применения формулы (2.63) и преобразований по фор муле (2.66) получим уравнение регрессии

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Применение метода главных компонент предполагает переход от взаимозависимых переменных х к независимым друг от друга переменным ζ, которые называют главными

компонентами. Каждая главная компонента z, может быть представлена как линейная комбинация центрированных (или стандартизованных) объясняющих переменных t:. Напомним, что центрирование переменной предполагает вычитание из каждого і-го значения данной j-й переменной ее среднего значения:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.67)

а стандартизация (масштабирование) –деление выражения (2.67) на среднее квадратическое отклонение, рассчитанное для исходных значений переменной Xj

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.68)

Так как независимые переменные часто имеют разный масштаб измерения, формула (2.68) считается более предпочтительной.

Количество компонент может быть меньше или равно количеству исходных независимых переменных р. Компоненту с номером к можно записать следующим образом:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.69)

Можно показать, что оценки Точечная и интервальная оценка прогноза по линейному уравнению регрессиив формуле (2.69) соответствуют элементам к-го собственного вектора матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии, где Т – матрица размером Точечная и интервальная оценка прогноза по линейному уравнению регрессии, содержащая стандартизованные переменные. Нумерация главных компонент не является произвольной. Первая главная компонента имеет максимальную дисперсию, ей соответствует максимальное собственное число матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии; последняя – минимальную дисперсию и наименьшее собственное число.

Доля дисперсии к-й компоненты в общей дисперсии независимых переменных рассчитывается по формуле

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.70)

где Хк – собственное число, соответствующее данной компоненте; в знаменателе формулы (2.70) приведена сумма всех собственных чисел матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии.

После расчета значений компонент z, строят регрессию, используя МНК. Зависимую переменную в регрессии по главным компонентам (2.71) целесообразно центрировать (стандартизовать) по формулам (2.67) или (2.68).

Точечная и интервальная оценка прогноза по линейному уравнению регрессии(2.71)

где ty – стандартизованная (центрированная) зависимая переменная; Точечная и интервальная оценка прогноза по линейному уравнению регрессии– коэффициенты регрессии по главным компонентам; Точечная и интервальная оценка прогноза по линейному уравнению регрессии– главные компоненты, упорядоченные по убыванию собственных чисел Хк; δ – случайный остаток.

После оценки параметров регрессии (2.71) можно перейти к уравнению регрессии в исходных переменных, используя выражения (2.67)–(2.69).

Рассмотрим применение метода главных компонент на данных примера 2.1. Отметим, что матрица Точечная и интервальная оценка прогноза по линейному уравнению регрессиидля стандартизованных переменных является в то же время матрицей парных линейных коэффициентов корреляции между независимыми переменными. Она уже была рассчитана и равна

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Найдем собственные числа и собственные векторы этой матрицы, используя ППП Eviews. Получим следующие результаты.

Собственные числа матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Доля дисперсии независимых переменных, отражаемой компонентами, составила

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Объединим собственные векторы матрицы Точечная и интервальная оценка прогноза по линейному уравнению регрессии, записав их как столбцы приведенной ниже матрицы F. Они упорядочены по убыванию собственных чисел, т.е. первый столбец является собственным вектором максимального собственного числа Точечная и интервальная оценка прогноза по линейному уравнению регрессиии т.д.:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Следовательно, три компоненты (соответствующие трем собственным векторам) можно записать в виде

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

После стандартизации исходных переменных по формуле (2.68) и расчета значений компонент Точечная и интервальная оценка прогноза по линейному уравнению регрессии(по n значений каждой компоненты) с помощью МНК найдем параметры уравнения (2.71):

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

В полученном уравнении регрессии значим только параметр при первой компоненте. Это закономерный результат с учетом того, что данная компонента описывает 70,8% вариации независимых переменных. Так как компоненты независимы, при исключении из модели одних компонент параметры уравнения при других компонентах не меняются. Таким образом, имеем уравнение регрессии с одной компонентой:

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Преобразуем полученное выражение в регрессию с исходными переменными

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Таким образом, используя метод главных компонент, мы получили уравнение регрессии

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Устранение мультиколлинеарности с помощью ридж-регрессии и метода главных компонент привело к определенному изменению параметров исходной регрессии, которая имела вид

Точечная и интервальная оценка прогноза по линейному уравнению регрессии

Отметим, что эти изменения были относительно невелики, что указывает на невысокую степень мультиколлинеарности.

🎦 Видео

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Точечный прогноз. Интервальный прогноз. Построение уравнения регрессии с помощью анализа данныхСкачать

Точечный прогноз. Интервальный прогноз. Построение уравнения регрессии с помощью анализа данных

Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Доверительный интервал за 15 мин. Биостатистика.Скачать

Доверительный интервал за 15 мин. Биостатистика.

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)Скачать

Простые показатели качества модели регрессии (R2, критерии Акаике и Шварца)

Уравнение линейной регрессии. Интерпретация стандартной табличкиСкачать

Уравнение линейной регрессии. Интерпретация стандартной таблички

Доверительный интервал для математического ожиданияСкачать

Доверительный интервал для математического ожидания

Лекция 10. Интервальные оценки параметров статистического распределенияСкачать

Лекция 10. Интервальные оценки параметров статистического распределения

Точечные оценки. Интервальные оценки. Метод моментов. Метод максимального правдоподобия.Скачать

Точечные оценки. Интервальные оценки. Метод моментов. Метод максимального правдоподобия.

Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Статистическое оценивание параметров в MS ExcelСкачать

Статистическое оценивание параметров в MS Excel

Регрессия в ExcelСкачать

Регрессия в Excel

Прогнозирование во множественной регрессииСкачать

Прогнозирование во множественной регрессии
Поделиться или сохранить к себе: