Уравнения множественной регрессии должны зачастую учитывать и качественные признаки (такие как, например, степень новизны, профессия, пол, образование, климатические условия, отдельные регионы и т. д.). Чтобы ввести такие факторы в регрессионную модель, их необходимо упорядочить и присвоить им те или иные количественные значения, т. е. квантифицировать в виде фиктивных переменных.
Например, включать в модель фактор «пол сотрудника» в виде фиктивной переменной можно в следующем виде:
Коэффициент регрессии при фиктивной переменной интерпретируется как изменение зависимости при переходе от одной категории к другой при неизменности значений остальных параметров. Вывод о значимости влияния фиктивной переменной и существенности расхождения между качественными признаками производят на основе применения /-критерия Стьюдента к соответствующему коэффициенту в уравнении регрессии.
Таким образом, кроме моделей множественной регрессии, содержащих только количественные объясняющие переменные можно строить также модели, содержащие лишь качественные переменные, либо те и другие одновременно.
Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA-моделями (моделями дисперсионного анализа).
К примеру, в определенных случаях предполагаемую связь результирующего показателя и фактора можно представить моделью парной регрессии
где 0 = 0, если некий фактор не проявляется и О = 1 в противном случае.
Очевидно, что для математического ожидания результирующего показателя тогда выполняется
При этом коэффициент р0 определяет среднее значение результата при отсутствии действия фактора, а коэффициент у указывает, на какую величину изменяется среднее при «включении» фактора. Проверяя статистическую значимость коэффициента у с помощью /-статистики либо значимость коэффициента детерминации R 2 с помощью F-статистики, можно определить, влияет или нет изучаемый фактор (например, степень новизны научно-технической новизны) на результирующий показатель (например, уровень продаж).
Вследствие дискретности фиктивной переменной ANOVA-модели представляют собой кусочно-постоянные функции. Естественно, что применимость таких моделей в экономике крайне ограничена. Гораздо чаще встречаются процессы, модели которых должны содержать как качественные, так и количественные переменные.
Модели, в которых объясняющие переменные носят как количественный, так и качественный характер, называются ANCOVA-моделями (моделями ковариационного анализа).
Простейшей является ANCOVA-модель с одной количественной и одной качественной переменной, имеющей два альтернативных состояния (дихотомический признак):
Можно, например, через У обозначить уровень оплаты труда в фирме, через X — стаж пребывания в должности сотрудника фирмы, О — пол сотрудника. В этом случае ожидаемый уровень оплаты труда при X годах стажа будет:
Видео:Множественная регрессияСкачать
Фиктивные переменные во множественной регрессии
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Для того чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные необходимо преобразовать в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные».
Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:
- — регрессия строится для каждой качественно отличной группы единиц совокупности, т.е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности;
- — общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т.е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных.
Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе у от цены х. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:
у = а + Ь • х+ ?. (3.42)
Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: yi = а + Ь • xi + ?и женского пола: уг = «2 + Z?2 • *2 + ?•
Различия в потреблении кофе проявятся в различии средних yi и у2. Вместе с тем сила влияния х на у может быть одинаковой, т.е. b
/ъ- В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединив уравнения yi и у2 и введя фиктивные переменные, придем к следующему выражению:
у = а + b ‘ zi + Ъ2 • Z2 + Ь • х + ?, (3.43)
где zi и Z2 — фиктивные переменные, фиктивные переменные, принимающие значения:
- 1 — мужской пол ф О — женский пол
- 1 — женский пол
В общем уравнении регрессии (3.43) зависимая переменная у рассматривается как функция не только цены х, но и пола (zi, Z2). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда zi = 1, то Z2 = 0 и, наоборот, при zi = 0 Z2 = 1 •
Для лиц мужского пола, когда z = 1 и Z2 = 0, объединенное уравнение регрессии составит у = а + b • х, а для лиц женского пола, когда zi = 0 и Z2 = 1 — У = «2 + b х. Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии а Ф а2. Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин.
Следует иметь в виду, что при введении фиктивных переменных zi и Z2 в модель у = а + Ь • zi + b2 • Z2 + b • х+ г применение МНК для оценивания параметров а и а,2 приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение (3.43) примет вид
у = а + Ь • zi + Z?2 • Zi + Ъ • х + А. (3.45)
Предполагая при параметре А независимую переменную, равную 1, имеем матрицу исходных данных:
Xy-Z = a-Xz + b-Xx-z + c-Xz 2
Ввиду того, что z принимает лишь два значения (1 и 0), Ez = п (число полей с зяблевой вспашкой), Ех • z = E*i (количество внесенных удобрений на полях с зяблевой вспашкой), Ez 2 = Ez = щ, z = Eyi (сумма у по полям зяблевой вспашки).
В рассматриваемом примере вся совокупность из 25 единиц разделена на две подгруппы: с зяблевой вспашкой — 13 полей и с весенней — 12 полей, т.е. п = 13 и П2 = 12. Соответственно делению на эти две группы имеем:
Хх = Exi + Ех2 = 99 + 93 = 192;
Еу = Eyi + Еу2 = 199,4 + 149,7 = 349,1.
Тогда система нормальных уравнений примет вид:
25• а+ 192 Z?+ 13-с = 349,1
2 ух = 0,517 2 = 0,267) до 57,2% (R 2 yx = 0,756 2 = 0,572). При этом сила влияния количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициенты регрессии по существу, одинаковы (0,326 в парном уравнении и 0,331 в множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует: rxz = -0,016.
Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц/га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц/га для зяблевой вспашки и 12,5 ц/га для весенней). Частный F-критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а= 0,05 и 7,94 при а = 0,01). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.
Уравнение парной регрессии по отдельным видам вспашки показывают практически единую меру влияния количества внесенных уравнений на урожайность:
у = 12,119 + 0,423 • х, R = 0,677 — при зяблевой вспашке;
у = 10,828 + 0,211 • x,R = 0,574 — при весенней вспашке.
Поэтому можно предположить единую меру влияния данного фактора, равную значению коэффициента регрессии, в уравнении регрессии с фиктивной переменной (0,331). Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции ryz.x, оценивающий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора х, т.е. ryx.z = 0,6385.
Частные уравнение регрессии по отдельным видам вспашки составили:
y(z=i) = 12,816 + 0,331 • х- для зяблевой вспашки;
У(2=о) = 9,908 + 0,331 • х, — для весенней вспашки.
Как видим, функция урожайности для первой группы (г = 1) параллельна функции для второй группы, но сдвинута вверх.
В примере 3.6 качественный фактор имел только два состояния, которым соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.
Пример 3.7. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.
При использовании трех категорий домов вводятся две фиктивные переменные: zi и Z2- Пусть переменная z принимает значение 1 для панельных домов и значение 0 для всех остальных типов домов; переменная Z2 принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные z и Z2 принимают значение 0 для домов типа «хрущевка».
Предположим, что уравнение регрессии с фиктивными переменными составило:
у = 320 + 500 • х + 2200 • z + 1600 • Z2-
Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:
- — «хрущевки» у = 320 + 500 • х;
- — панельные у = 2520 + 500 • х;
- — кирпичные у = 1920 + 500 • х.
Параметры при фиктивных переменных zi и Z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых z = Z2 = 0. Параметр при zi = 2200 означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при Z2 показывает, что в кирпичных домах цена выше в среднем на 1600 долл, при неизменной величине полезной площади по сравнению с указанным типом домов.
Рассмотренная трактовка параметров регрессии при фиктивных переменных справедлива, если сила влияния на у фактора х действительно не меняется в разных структурных частях совокупности. Иными словами, отсутствует взаимодействие факторов Xj и фиктивных переменных z, т.е. для каждого значения z влияние фактора х на у одинаково (рис.3.2).
- —-при z = О
- ——при Z = 1
- —-приz = О
- —-при Z = 1
Рис.3.2. Графическая иллюстрация взаимодействия факторов: а — без взаимодействия; б — с взаимодействием
При отсутствии взаимодействия целесообразно построение модели:
При наличии взаимодействия факторов х и z модель с фиктивной переменной принимает вид:
у = а + bx + cz + d(xz),
что соответствует графическому изображению (рис.3.26).
Предположим, рассматриваются две группы наблюдений, для каждой из которых имеет место функциональная зависимость у от фактора х:
yi = 20 + 5 х; ТуХ = 1 ;yi = 35;
Поскольку налицо четкое взаимодействие факторов, попытка построить общую регрессионную модель вида у = а + Ьх + cz приведет к ухудшению результатов аппроксимации модели у = 58+1 ? х-26 • z;2? 2 = 0,842.
Верной в ней будет лишь трактовка коэффициента регрессии при фиктивной переменной z. Поскольку в модели z = 1 для I группы наблюдений, когда yi = 35, a z = 0 для II группы наблюдений, когда уц = 61, то параметр при z, равный — 26, означает, что yi — уц = — 26.
Модель с учетом взаимодействия факторов составит:
у = 70-3 • х-50 • z +8 • (zx); Я 2 = 1,
т.е. функциональная зависимость, заложенная в информацию для каждой группы, продолжает действовать. При z = 0 мы получим уравнение связи для второй группы, т.е. уп = 70 — 3 х. Параметр с при z показывает различие в параметрах а для двух сравниваемых групп: с = щ — «ц = — 50. Параметр d при совмещенной переменной (zx) фиксирует различие в силе связи у и х в группах:
Фиктивные переменные широко используются для оценки сезонных различий в потреблении.
Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду. Так, модель с фиктивными переменными может иметь вид:
1пу = я + Ъ • %i + . +ЪР • Хр + с • z + ?, (3.51)
где z — фиктивная переменная.
Целесообразность такого вида модели диктуется характером связи между экономическими переменными:
Фиктивная переменная вводится в эту модель как очередной сомножитель:
Логарифмируя данное выражение, получим модель вида
In у — In а + Ху • In b 4- Х2 • In Z?2 + . + хр • In bp + z • In c + In ?, которая равносильна приведенной ранее, где параметры и случайная составляющая представлены в логарифмах.
Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.
Пример 3.8. Рассмотрим зависимость уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков х и у, то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (табл.3.4).
Таблица 3.4. Зависимость среднего уровня квалификации рабочих у от сферы применения ручного труда х
Видео:Множественная регрессия в ExcelСкачать
В качестве фиктивных переменных в модель множественной регрессии включаются факторы не имеющие количественных значений
Видео:Множественная регрессия в Excel и мультиколлинеарностьСкачать
Ваш ответ
Видео:Эконометрика. Линейная парная регрессияСкачать
решение вопроса
Видео:Эконометрика 08 Множественная регрессияСкачать
Похожие вопросы
- Все категории
- экономические 43,399
- гуманитарные 33,632
- юридические 17,905
- школьный раздел 607,960
- разное 16,854
Популярное на сайте:
Как быстро выучить стихотворение наизусть? Запоминание стихов является стандартным заданием во многих школах.
Как научится читать по диагонали? Скорость чтения зависит от скорости восприятия каждого отдельного слова в тексте.
Как быстро и эффективно исправить почерк? Люди часто предполагают, что каллиграфия и почерк являются синонимами, но это не так.
Как научится говорить грамотно и правильно? Общение на хорошем, уверенном и естественном русском языке является достижимой целью.
🎬 Видео
Дискретная математика. ДНФСкачать
Эконометрика. Построение модели множественной регрессии в Excel.Скачать
Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать
Построение модели множественной регрессии в программе GretlСкачать
Тема по SPSS: способы включения переменных в модель множественной линейной регрессии.Скачать
Множественная регрессия в MS Excel. Быстрое решение. И подробное решение. Калькулятор!Скачать
Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать
Уравнение множественной регрессии в ExcelСкачать
Эконометрика Линейная регрессия и корреляцияСкачать
Регрессия в ExcelСкачать
Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать
множественная регрессияСкачать
EViews. Урок 1. Построение модели множественной регрессии.Скачать
Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать
Множественная степенная регрессияСкачать