Фиктивные переменные включаются в уравнение множественной регрессии для учет

Фиктивные переменные в множественной регрессии. Модели ANOVA и ANCOVA

Уравнения множественной регрессии должны зачастую учитывать и качественные признаки (такие как, например, степень новизны, профессия, пол, образование, климатические условия, отдельные регионы и т. д.). Чтобы ввести такие факторы в регрессионную модель, их необходимо упорядочить и присвоить им те или иные количественные значения, т. е. квантифицировать в виде фиктивных переменных.

Например, включать в модель фактор «пол сотрудника» в виде фиктивной переменной можно в следующем виде:

Коэффициент регрессии при фиктивной переменной интерпретируется как изменение зависимости при переходе от одной категории к другой при неизменности значений остальных параметров. Вывод о значимости влияния фиктивной переменной и существенности расхождения между качественными признаками производят на основе применения /-критерия Стьюдента к соответствующему коэффициенту в уравнении регрессии.

Таким образом, кроме моделей множественной регрессии, содержащих только количественные объясняющие переменные можно строить также модели, содержащие лишь качественные переменные, либо те и другие одновременно.

Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA-моделями (моделями дисперсионного анализа).

К примеру, в определенных случаях предполагаемую связь результирующего показателя и фактора можно представить моделью парной регрессии

где 0 = 0, если некий фактор не проявляется и О = 1 в противном случае.

Очевидно, что для математического ожидания результирующего показателя тогда выполняется

При этом коэффициент р₀ определяет среднее значение результата при отсутствии действия фактора, а коэффициент у указывает, на какую величину изменяется среднее при «включении» фактора. Проверяя статистическую значимость коэффициента у с помощью /-статистики либо значимость коэффициента детерминации R 2 с помощью F-статистики, можно определить, влияет или нет изучаемый фактор (например, степень новизны научно-технической новизны) на результирующий показатель (например, уровень продаж).

Вследствие дискретности фиктивной переменной ANOVA-модели представляют собой кусочно-постоянные функции. Естественно, что применимость таких моделей в экономике крайне ограничена. Гораздо чаще встречаются процессы, модели которых должны содержать как качественные, так и количественные переменные.

Модели, в которых объясняющие переменные носят как количественный, так и качественный характер, называются ANCOVA-моделями (моделями ковариационного анализа).

Простейшей является ANCOVA-модель с одной количественной и одной качественной переменной, имеющей два альтернативных состояния (дихотомический признак):

Можно, например, через У обозначить уровень оплаты труда в фирме, через X — стаж пребывания в должности сотрудника фирмы, О — пол сотрудника. В этом случае ожидаемый уровень оплаты труда при X годах стажа будет:

Содержание

Фиктивные переменные во множественной регрессии
В качестве фиктивных переменных в модель множественной регрессии включаются факторы не имеющие количественных значений
Ваш ответ
решение вопроса
Похожие вопросы

Фиктивные переменные во множественной регрессии

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Для того чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные необходимо преобразовать в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные».

Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:

— регрессия строится для каждой качественно отличной группы единиц совокупности, т.е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности;
— общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т.е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных.

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе у от цены х. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:

у = а + Ь • х+ ?. (3.42)

Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: yi = а + Ь • xi + ?и женского пола: уг = «2 + Z?2 • *2 + ?•

Различия в потреблении кофе проявятся в различии средних yi и у2. Вместе с тем сила влияния х на у может быть одинаковой, т.е. b

/ъ- В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединив уравнения yi и у2 и введя фиктивные переменные, придем к следующему выражению:

у = а + b ‘ zi + Ъ2 • Z2 + Ь • х + ?, (3.43)

где zi и Z2 — фиктивные переменные, фиктивные переменные, принимающие значения:

1 — мужской пол _ф О — женский пол
1 — женский пол

В общем уравнении регрессии (3.43) зависимая переменная у рассматривается как функция не только цены х, но и пола (zi, Z2). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда zi = 1, то Z2 = 0 и, наоборот, при zi = 0 Z2 = 1 •

Для лиц мужского пола, когда z = 1 и Z2 = 0, объединенное уравнение регрессии составит у = а + b • х, а для лиц женского пола, когда zi = 0 и Z2 = 1 — У = «2 + b х. Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии а Ф а2. Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин.

Следует иметь в виду, что при введении фиктивных переменных zi и Z2 в модель у = а + Ь • zi + b2 • Z2 + b • х+ г применение МНК для оценивания параметров а и а,2 приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение (3.43) примет вид

у = а + Ь • zi + Z?2 • Zi + Ъ • х + А. (3.45)

Предполагая при параметре А независимую переменную, равную 1, имеем матрицу исходных данных:

Xy-Z = a-Xz + b-Xx-z + c-Xz 2

Ввиду того, что z принимает лишь два значения (1 и 0), Ez = п (число полей с зяблевой вспашкой), Ех • z = E*i (количество внесенных удобрений на полях с зяблевой вспашкой), Ez 2 = Ez = щ, z = Eyi (сумма у по полям зяблевой вспашки).

В рассматриваемом примере вся совокупность из 25 единиц разделена на две подгруппы: с зяблевой вспашкой — 13 полей и с весенней — 12 полей, т.е. п = 13 и П2 = 12. Соответственно делению на эти две группы имеем:

Хх = Exi + Ех₂ = 99 + 93 = 192;

Еу = Eyi + Еу₂ = 199,4 + 149,7 = 349,1.

Тогда система нормальных уравнений примет вид:

25• а+ 192 Z?+ 13-с = 349,1

2 _ух = 0,517 2 = 0,267) до 57,2% (R 2 _yx = 0,756 2 = 0,572). При этом сила влияния количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициенты регрессии по существу, одинаковы (0,326 в парном уравнении и 0,331 в множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует: r_xz = -0,016.

Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц/га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц/га для зяблевой вспашки и 12,5 ц/га для весенней). Частный F-критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а= 0,05 и 7,94 при а = 0,01). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Уравнение парной регрессии по отдельным видам вспашки показывают практически единую меру влияния количества внесенных уравнений на урожайность:

у = 12,119 + 0,423 • х, R = 0,677 — при зяблевой вспашке;

у = 10,828 + 0,211 • x,R = 0,574 — при весенней вспашке.

Поэтому можно предположить единую меру влияния данного фактора, равную значению коэффициента регрессии, в уравнении регрессии с фиктивной переменной (0,331). Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции r_yz._x, оценивающий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора х, т.е. r_yx._z = 0,6385.

Частные уравнение регрессии по отдельным видам вспашки составили:

y(z=i) = 12,816 + 0,331 • х- для зяблевой вспашки;

У(2=о) = 9,908 + 0,331 • х, — для весенней вспашки.

Как видим, функция урожайности для первой группы (г = 1) параллельна функции для второй группы, но сдвинута вверх.

В примере 3.6 качественный фактор имел только два состояния, которым соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Пример 3.7. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: zi и Z2- Пусть переменная z принимает значение 1 для панельных домов и значение 0 для всех остальных типов домов; переменная Z2 принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные z и Z2 принимают значение 0 для домов типа «хрущевка».

Предположим, что уравнение регрессии с фиктивными переменными составило:

у = 320 + 500 • х + 2200 • z + 1600 • Z2-

Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:

— «хрущевки» у = 320 + 500 • х;
— панельные у = 2520 + 500 • х;
— кирпичные у = 1920 + 500 • х.

Параметры при фиктивных переменных zi и Z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых z = Z2 = 0. Параметр при zi = 2200 означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при Z2 показывает, что в кирпичных домах цена выше в среднем на 1600 долл, при неизменной величине полезной площади по сравнению с указанным типом домов.

Рассмотренная трактовка параметров регрессии при фиктивных переменных справедлива, если сила влияния на у фактора х действительно не меняется в разных структурных частях совокупности. Иными словами, отсутствует взаимодействие факторов Xj и фиктивных переменных z, т.е. для каждого значения z влияние фактора х на у одинаково (рис.3.2).

—-при z = О
——при Z = 1

—-приz = О
—-при Z = 1

Рис.3.2. Графическая иллюстрация взаимодействия факторов: а — без взаимодействия; б — с взаимодействием

При отсутствии взаимодействия целесообразно построение модели:

При наличии взаимодействия факторов х и z модель с фиктивной переменной принимает вид:

у = а + bx + cz + d(xz),

что соответствует графическому изображению (рис.3.26).

Предположим, рассматриваются две группы наблюдений, для каждой из которых имеет место функциональная зависимость у от фактора х:

yi = 20 + 5 х; Ту_Х = 1 ;yi = 35;

Поскольку налицо четкое взаимодействие факторов, попытка построить общую регрессионную модель вида у = а + Ьх + cz приведет к ухудшению результатов аппроксимации модели у = 58+1 ? х-26 • z;2? 2 = 0,842.

Верной в ней будет лишь трактовка коэффициента регрессии при фиктивной переменной z. Поскольку в модели z = 1 для I группы наблюдений, когда yi = 35, a z = 0 для II группы наблюдений, когда уц = 61, то параметр при z, равный — 26, означает, что yi — уц = — 26.

Модель с учетом взаимодействия факторов составит:

у = 70-3 • х-50 • z +8 • (zx); Я 2 = 1,

т.е. функциональная зависимость, заложенная в информацию для каждой группы, продолжает действовать. При z = 0 мы получим уравнение связи для второй группы, т.е. уп = 70 — 3 х. Параметр с при z показывает различие в параметрах а для двух сравниваемых групп: с = щ — «ц = — 50. Параметр d при совмещенной переменной (zx) фиксирует различие в силе связи у и х в группах:

Фиктивные переменные широко используются для оценки сезонных различий в потреблении.

Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду. Так, модель с фиктивными переменными может иметь вид:

1пу = я + Ъ • %i + . +Ъ_Р • Хр + с • z + ?, (3.51)

где z — фиктивная переменная.

Целесообразность такого вида модели диктуется характером связи между экономическими переменными:

Фиктивная переменная вводится в эту модель как очередной сомножитель:

Логарифмируя данное выражение, получим модель вида

In у — In а + Ху • In b 4- Х2 • In Z?2 + . + х_р • In b_p + z • In c + In ?, которая равносильна приведенной ранее, где параметры и случайная составляющая представлены в логарифмах.

Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.

Пример 3.8. Рассмотрим зависимость уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков х и у, то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (табл.3.4).

Таблица 3.4. Зависимость среднего уровня квалификации рабочих у от сферы применения ручного труда х

Фиктивные переменные во множественной регрессии

В качестве фиктивных переменных в модель множественной регрессии включаются факторы не имеющие количественных значений

Ваш ответ

решение вопроса

Похожие вопросы