Фиктивные переменные включаются в уравнение множественной регрессии для учет

Фиктивные переменные в множественной регрессии. Модели ANOVA и ANCOVA

Уравнения множественной регрессии должны зачастую учитывать и качественные признаки (такие как, например, степень новизны, профессия, пол, образование, климатические условия, отдельные регионы и т. д.). Чтобы ввести такие факторы в регрессионную модель, их необходимо упорядочить и присвоить им те или иные количественные значения, т. е. квантифицировать в виде фиктивных переменных.

Например, включать в модель фактор «пол сотрудника» в виде фиктивной переменной можно в следующем виде: Фиктивные переменные включаются в уравнение множественной регрессии для учет

Коэффициент регрессии при фиктивной переменной интерпретируется как изменение зависимости при переходе от одной категории к другой при неизменности значений остальных параметров. Вывод о значимости влияния фиктивной переменной и существенности расхождения между качественными признаками производят на основе применения /-критерия Стьюдента к соответствующему коэффициенту в уравнении регрессии.

Таким образом, кроме моделей множественной регрессии, содержащих только количественные объясняющие переменные можно строить также модели, содержащие лишь качественные переменные, либо те и другие одновременно.

Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA-моделями (моделями дисперсионного анализа).

К примеру, в определенных случаях предполагаемую связь результирующего показателя и фактора можно представить моделью парной регрессии

Фиктивные переменные включаются в уравнение множественной регрессии для учет

где 0 = 0, если некий фактор не проявляется и О = 1 в противном случае.

Очевидно, что для математического ожидания результирующего показателя тогда выполняется

Фиктивные переменные включаются в уравнение множественной регрессии для учет

При этом коэффициент р0 определяет среднее значение результата при отсутствии действия фактора, а коэффициент у указывает, на какую величину изменяется среднее при «включении» фактора. Проверяя статистическую значимость коэффициента у с помощью /-статистики либо значимость коэффициента детерминации R 2 с помощью F-статистики, можно определить, влияет или нет изучаемый фактор (например, степень новизны научно-технической новизны) на результирующий показатель (например, уровень продаж).

Вследствие дискретности фиктивной переменной ANOVA-модели представляют собой кусочно-постоянные функции. Естественно, что применимость таких моделей в экономике крайне ограничена. Гораздо чаще встречаются процессы, модели которых должны содержать как качественные, так и количественные переменные.

Модели, в которых объясняющие переменные носят как количественный, так и качественный характер, называются ANCOVA-моделями (моделями ковариационного анализа).

Простейшей является ANCOVA-модель с одной количественной и одной качественной переменной, имеющей два альтернативных состояния (дихотомический признак): Фиктивные переменные включаются в уравнение множественной регрессии для учет

Можно, например, через У обозначить уровень оплаты труда в фирме, через X — стаж пребывания в должности сотрудника фирмы, О — пол сотрудника. В этом случае ожидаемый уровень оплаты труда при X годах стажа будет:

Видео:Множественная регрессияСкачать

Множественная регрессия

Фиктивные переменные во множественной регрессии

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Для того чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные необходимо преобразовать в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные».

Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:

  • — регрессия строится для каждой качественно отличной группы единиц совокупности, т.е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности;
  • — общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т.е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных.

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе у от цены х. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:

у = а + Ь • х+ ?. (3.42)

Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: yi = а + Ь • xi + ?и женского пола: уг = «2 + Z?2 • *2 + ?•

Различия в потреблении кофе проявятся в различии средних yi и у2. Вместе с тем сила влияния х на у может быть одинаковой, т.е. b

/ъ- В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединив уравнения yi и у2 и введя фиктивные переменные, придем к следующему выражению:

у = а + b ‘ zi + Ъ2 • Z2 + Ь • х + ?, (3.43)

где zi и Z2 — фиктивные переменные, фиктивные переменные, принимающие значения:

  • 1 — мужской пол ф О — женский пол
  • 1 — женский пол

В общем уравнении регрессии (3.43) зависимая переменная у рассматривается как функция не только цены х, но и пола (zi, Z2). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда zi = 1, то Z2 = 0 и, наоборот, при zi = 0 Z2 = 1 •

Для лиц мужского пола, когда z = 1 и Z2 = 0, объединенное уравнение регрессии составит у = а + b • х, а для лиц женского пола, когда zi = 0 и Z2 = 1 — У = «2 + b х. Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии а Ф а2. Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин.

Следует иметь в виду, что при введении фиктивных переменных zi и Z2 в модель у = а + Ь • zi + b2 • Z2 + b • х+ г применение МНК для оценивания параметров а и а,2 приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение (3.43) примет вид

у = а + Ь • zi + Z?2 • Zi + Ъ • х + А. (3.45)

Предполагая при параметре А независимую переменную, равную 1, имеем матрицу исходных данных:

Xy-Z = a-Xz + b-Xx-z + c-Xz 2

Ввиду того, что z принимает лишь два значения (1 и 0), Ez = п (число полей с зяблевой вспашкой), Ех • z = E*i (количество внесенных удобрений на полях с зяблевой вспашкой), Ez 2 = Ez = щ, z = Eyi (сумма у по полям зяблевой вспашки).

В рассматриваемом примере вся совокупность из 25 единиц разделена на две подгруппы: с зяблевой вспашкой — 13 полей и с весенней — 12 полей, т.е. п = 13 и П2 = 12. Соответственно делению на эти две группы имеем:

Хх = Exi + Ех2 = 99 + 93 = 192;

Еу = Eyi + Еу2 = 199,4 + 149,7 = 349,1.

Тогда система нормальных уравнений примет вид:

25• а+ 192 Z?+ 13-с = 349,1

2 ух = 0,517 2 = 0,267) до 57,2% (R 2 yx = 0,756 2 = 0,572). При этом сила влияния количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициенты регрессии по существу, одинаковы (0,326 в парном уравнении и 0,331 в множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует: rxz = -0,016.

Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц/га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц/га для зяблевой вспашки и 12,5 ц/га для весенней). Частный F-критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а= 0,05 и 7,94 при а = 0,01). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Уравнение парной регрессии по отдельным видам вспашки показывают практически единую меру влияния количества внесенных уравнений на урожайность:

у = 12,119 + 0,423 • х, R = 0,677 — при зяблевой вспашке;

у = 10,828 + 0,211 • x,R = 0,574 — при весенней вспашке.

Поэтому можно предположить единую меру влияния данного фактора, равную значению коэффициента регрессии, в уравнении регрессии с фиктивной переменной (0,331). Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции ryz.x, оценивающий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора х, т.е. ryx.z = 0,6385.

Частные уравнение регрессии по отдельным видам вспашки составили:

y(z=i) = 12,816 + 0,331 • х- для зяблевой вспашки;

У(2=о) = 9,908 + 0,331 • х, — для весенней вспашки.

Как видим, функция урожайности для первой группы (г = 1) параллельна функции для второй группы, но сдвинута вверх.

В примере 3.6 качественный фактор имел только два состояния, которым соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Пример 3.7. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: zi и Z2- Пусть переменная z принимает значение 1 для панельных домов и значение 0 для всех остальных типов домов; переменная Z2 принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные z и Z2 принимают значение 0 для домов типа «хрущевка».

Предположим, что уравнение регрессии с фиктивными переменными составило:

у = 320 + 500 • х + 2200 • z + 1600 • Z2-

Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:

  • — «хрущевки» у = 320 + 500 • х;
  • — панельные у = 2520 + 500 • х;
  • — кирпичные у = 1920 + 500 • х.

Параметры при фиктивных переменных zi и Z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых z = Z2 = 0. Параметр при zi = 2200 означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при Z2 показывает, что в кирпичных домах цена выше в среднем на 1600 долл, при неизменной величине полезной площади по сравнению с указанным типом домов.

Рассмотренная трактовка параметров регрессии при фиктивных переменных справедлива, если сила влияния на у фактора х действительно не меняется в разных структурных частях совокупности. Иными словами, отсутствует взаимодействие факторов Xj и фиктивных переменных z, т.е. для каждого значения z влияние фактора х на у одинаково (рис.3.2).

Фиктивные переменные включаются в уравнение множественной регрессии для учет

  • —-при z = О
  • ——при Z = 1

Фиктивные переменные включаются в уравнение множественной регрессии для учет

  • —-приz = О
  • —-при Z = 1

Рис.3.2. Графическая иллюстрация взаимодействия факторов: а — без взаимодействия; б — с взаимодействием

При отсутствии взаимодействия целесообразно построение модели:

При наличии взаимодействия факторов х и z модель с фиктивной переменной принимает вид:

у = а + bx + cz + d(xz),

что соответствует графическому изображению (рис.3.26).

Предположим, рассматриваются две группы наблюдений, для каждой из которых имеет место функциональная зависимость у от фактора х:

yi = 20 + 5 х; ТуХ = 1 ;yi = 35;

Поскольку налицо четкое взаимодействие факторов, попытка построить общую регрессионную модель вида у = а + Ьх + cz приведет к ухудшению результатов аппроксимации модели у = 58+1 ? х-26 • z;2? 2 = 0,842.

Верной в ней будет лишь трактовка коэффициента регрессии при фиктивной переменной z. Поскольку в модели z = 1 для I группы наблюдений, когда yi = 35, a z = 0 для II группы наблюдений, когда уц = 61, то параметр при z, равный — 26, означает, что yi — уц = — 26.

Модель с учетом взаимодействия факторов составит:

у = 70-3 • х-50 • z +8 • (zx); Я 2 = 1,

т.е. функциональная зависимость, заложенная в информацию для каждой группы, продолжает действовать. При z = 0 мы получим уравнение связи для второй группы, т.е. уп = 70 — 3 х. Параметр с при z показывает различие в параметрах а для двух сравниваемых групп: с = щ — «ц = — 50. Параметр d при совмещенной переменной (zx) фиксирует различие в силе связи у и х в группах:

Фиктивные переменные широко используются для оценки сезонных различий в потреблении.

Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду. Так, модель с фиктивными переменными может иметь вид:

1пу = я + Ъ • %i + . Р • Хр + с • z + ?, (3.51)

где z — фиктивная переменная.

Целесообразность такого вида модели диктуется характером связи между экономическими переменными:

Фиктивная переменная вводится в эту модель как очередной сомножитель:

Логарифмируя данное выражение, получим модель вида

In у — In а + Ху • In b 4- Х2 • In Z?2 + . + хр In bp + z • In c + In ?, которая равносильна приведенной ранее, где параметры и случайная составляющая представлены в логарифмах.

Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.

Пример 3.8. Рассмотрим зависимость уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков х и у, то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (табл.3.4).

Таблица 3.4. Зависимость среднего уровня квалификации рабочих у от сферы применения ручного труда х

Видео:Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

В качестве фиктивных переменных в модель множественной регрессии включаются факторы не имеющие количественных значений

Видео:Множественная регрессия в Excel и мультиколлинеарностьСкачать

Множественная регрессия в Excel и мультиколлинеарность

Ваш ответ

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

решение вопроса

Видео:Эконометрика 08 Множественная регрессияСкачать

Эконометрика 08 Множественная регрессия

Похожие вопросы

  • Все категории
  • экономические 43,399
  • гуманитарные 33,632
  • юридические 17,905
  • школьный раздел 607,960
  • разное 16,854

Популярное на сайте:

Как быстро выучить стихотворение наизусть? Запоминание стихов является стандартным заданием во многих школах.

Как научится читать по диагонали? Скорость чтения зависит от скорости восприятия каждого отдельного слова в тексте.

Как быстро и эффективно исправить почерк? Люди часто предполагают, что каллиграфия и почерк являются синонимами, но это не так.

Как научится говорить грамотно и правильно? Общение на хорошем, уверенном и естественном русском языке является достижимой целью.

🎬 Видео

Дискретная математика. ДНФСкачать

Дискретная математика. ДНФ

Эконометрика. Построение модели множественной регрессии в Excel.Скачать

Эконометрика. Построение модели множественной регрессии в Excel.

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в Excel

Построение модели множественной регрессии в программе GretlСкачать

Построение модели множественной регрессии в программе Gretl

Тема по SPSS: способы включения переменных в модель множественной линейной регрессии.Скачать

Тема по SPSS: способы включения переменных в модель множественной линейной регрессии.

Множественная регрессия в MS Excel. Быстрое решение. И подробное решение. Калькулятор!Скачать

Множественная регрессия в MS Excel. Быстрое решение. И подробное решение. Калькулятор!

Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Уравнение множественной регрессии в ExcelСкачать

Уравнение множественной регрессии в Excel

Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Регрессия в ExcelСкачать

Регрессия в Excel

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

множественная регрессияСкачать

множественная регрессия

EViews. Урок 1. Построение модели множественной регрессии.Скачать

EViews. Урок 1. Построение модели множественной регрессии.

Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Множественная степенная регрессияСкачать

Множественная степенная регрессия
Поделиться или сохранить к себе: