Получение уравнения множественной регрессии методом брандона (7 видео)

Определение коэффициентов уравнения регрессии методом Брандона.

По этому методу уравнение регрессии записывается в виде:

где — любая функция величины x_j.

Порядок расположения факторов x₁, x₂, … x_k в выражении не безразличен для точности обработки результатов наблюдений: чем больше влияние на у оказывает параметр x_j , тем меньше должен быть порядковый номер индекса j. Вид функции выбирается с помощью графических построений. Вид функции выбирается с помощью графических построений. Вначале по точкам выборки системы величин y, x₁, x₂, … x_k строятся поле корреляции и эмпирическая линия регрессии y-x₁ . Таким образом определяется тип зависимости

и методом наименьших квадратов рассчитываются коэффициенты этого уравнения регрессии. Затем составляется выборка новой величины

Эта величина не зависит уже от х₁ , а определяется только параметрами x₂, x₃, … x_k. Поэтому можно записать

По точкам новой выборки величин y₁ и х₂ вновь строятся корреляционное поле и эмпирическая линя регрессии, характеризующая зависимость y₁ от х₂ :

Рассчитываются ее коэффициенты и вновь составляется выборка новой величины

Эта величина не зависит уже от двух факторов x₁ и x₂ и может быть определена из следующего уравнения регрессии:

Такая процедура определения функций продолжается до получения выборки величины:

Эта величина не зависит от всех факторов x₁, x₂, … x_k и определяется коэффициентом исходного уравнения:

где N – объем выборки.

Методы планирования экспериментов.

Методы планирования экспериментов позволяют свести к минимуму число необходимых опытов и одновременно выявить оптимальное значение искомой функции.

Оптимальный двухуровневый план 2 к .

При планировании экспериментов условия опытов представляют собой фиксированное число значений уровней для каждого фактора. Если эксперименты проводятся только на двух уровнях, при двух значениях факторов, и при этом в процессе эксперимента осуществляются все возможные комбинации из k факторов, то постановка опытов по такому плану носит название полного факторного эксперимента (ПФЭ) или плана 2 k .

Уровни факторов представляют собой в этом случае границы исследуемой области по данному технологическому параметру. Пусть, например, изучается влияние на выход продукта у трех факторов: температуры Т в диапазоне 100—200 ºС, давления Р в диапазоне 2—6 МПа == (20—60 кгс/см 2 ) и времени пребывания t = 10— 30 мин. Верхний уровень по температуре z₁ max = 200 °С, нижний; z₁ min = 100 °С, z₁ 0 = 150 °С, Δz₁ = 50 °С:

Вообще для любого фактора z_j имеем:

Точка с координатами (z₁ 0 , z₂ 0 , … ,z_k 0 ) носит название центра плана, иногда ее называют основным уровнем; , Δz_j — единица варьирования, или интервал варьирования по оси z_j. От системы координат z₁, z₂ z₃, . z_k перейдем к новой безразмерной системе координат x₁, x₂, …. , x_k. Формула перехода (кодирования)

В безразмерной системе координат верхний уровень равен +1 нижний равен — 1, координаты центра плана равны нулю и совпадают с началом координат. В нашей задаче k = 3. Число возможных комбинаций N из трех факторов на двух уровнях равно N = 2 k == 2 3 = 8. Запишем план проведения экспериментов (матрицу планирования) в виде таблицы.

Значение факторов в натуральном масштабе	Значение факторов в безразмерной системе координат	Выход
№ опыта	z₁ 0	z₂ 0	z₃ 0	х₁	х₂	х₃	y
-1	-1	-1
+1	-1	-1
-1	+1	-1
+1	+1	-1
-1	-1	+1
+1	-1	+1
-1	+1	+1
+1	+1	+1

Значения выхода у, полученные в результате реализации плана экспериментов, приведены в последнем столбце таблицы.

Представленный в табл. кодированный план геометрически может быть интерпретирован в виде куба, восемь вершин которого, представляют собой восемь экспериментальных точек.

Запишем кодированную матрицу планирования 2 3 и результаты эксперимента, введя столбец так называемой фиктивной переменной x₀=1.

Приведенная в таблице матрица планирования обладает следующими свойствами:

где k — число независимых факторов; N — число опытов в матрице планирования.

Первое свойство — равенство нулю скалярных произведений всех вектор — столбцов — называется свойством ортогональности матрицы планирования. Благодаря этому свойству резко уменьшаются трудности, связанные с расчетом коэффициентов уравнения регрессии, так как матрица коэффициентов нормальных уравнений (Х*Х) становится диагональной и ее диагональные элементы равны числу опытов в матрице планирования N. Диагональные элементы обратной матрицы (Х*Х) -1 :

№ опыта	х₀	х₁	х₂	х₃	y
+1	-1	-1	-1	y₁
+1	+1	-1	-1	y₂
+1	-1	+1	-1	y₃
+1	+1	+1	-1	y₄
+1	-1	-1	+1	y₅
+1	+1	-1	+1	y₆
+1	-1	+1	+1	y₇
+1	+1	+1	+1	y₈

Следовательно, любой коэффициент уравнения регрессии b_jопределяется скалярным произведением столбца у на соответствующий столбец x_j, деленным на число опытов в матрице планирования N:

Пользуясь планом, представленным в таблице, сначала вычислим коэффициенты регрессии линейного уравнения

Если в рассмотрение ввести более полное уравнение регрессии с коэффициентами взаимодействия:

то для определения коэффициентов b₁₂, b₁₃, b₂₃ (эффектов двойного взаимодействия) и b₁₂₃ (эффекта тройного взаимодействия) необходимо расширить матрицу таблицы следующим образом:

№ опыта	х₀	х₁	х₂	х₃	х₁ х₂	х₁ х₃	х₂ х₃	х₁ х₂ х₃	y
+1	-1	-1	-1	+1	+1	+1	-1
+1	+1	-1	-1	-1	-1	+1	+1
+1	-1	+1	-1	+1	+1	+1	+1
+1	+1	+1	-1	+1	-1	-1	-1
+1	-1	-1	+1	+1	-1	-1	+1
+1	+1	-1	+1	-1	+1	+1	-1
+1	-1	+1	+1	-1	-1	+1	-1
+1	+1	+1	+1	+1	+1	+1	+1

Если поставить дополнительно параллельные опыты, можно определить S 2 _воспр , проверить значимость коэффициентов регрессии и при наличии степеней свободы — адекватность уравнения.

В связи с тем, что корреляционная матрица (Х*Х) -1 для спланированного эксперимента таблица есть матрица диагональная

коэффициенты уравнения регрессии некоррелированы между собой. Значимость коэффициентов уравнения регрессии можно проверять для каждого коэффициента в отдельности по критерию Стьюдента. Исключение из уравнения регрессии незначимого коэффициента не скажется на значениях остальных коэффициентов. При этом выборочные коэффициенты b_j оказываются так называемыми несмешанными оценками для соответствующих генеральных коэффициентов β_j.

т. е. величины коэффициентов уравнения регрессии характеризуют вклад каждого фактора в величину у.

Диагональные элементы корреляционной матрицы равны между собой, поэтому все коэффициенты уравнений определяются с одинаковой точностью:

Содержание

Реализация алгоритма построения статистической модели объекта по методу Брандона. Постановка задачи
Множественная регрессия в EXCEL
Оценка неизвестных параметров
Диаграмма рассеяния
Вычисление прогнозных значений Y (отдельное наблюдение и среднее значение) и построение доверительных интервалов
Стандартные ошибки и доверительные интервалы для коэффициентов регрессии
Проверка гипотез
Генерация данных для множественной регрессии с помощью заданного тренда
Коэффициент детерминации
💥 Видео

Видео:Эконометрика. Множественная регрессия и корреляция.Скачать

Реализация алгоритма построения статистической модели объекта по методу Брандона. Постановка задачи

Татьяна Воздвиженская 5 лет назад Просмотров:

1 Голубев ВО Литвинова ТЕ Реализация алгоритма построения статистической модели объекта по методу Брандона Постановка задачи Статистические модели создают на основании имеющихся экспериментальных данных снятых на действующем объекте Задачу формулируют следующим образом: по данной выборке объема т е по заданному числу опытов построить модель и оценить адекватность ее реальному объекту В общем случае современный технологический процесс представляется в виде многомерного объекта блок-схема которого приведена на рис На объект действуют вектор входных параметров составляющие которого и вектор Z управления составляющие которого z z Выходные параметры =l+k X p составляют вектор выходных параметров Y Общий вид статистической модели многомерного технологического объекта можно записать в виде системы алгебраических уравнений или в векторной форме : F F p Fp ; Y FX где X Y векторы входных и выходных параметров объекта В системе параметры управления учтены как входные параметры l l z k l Построение статистической модели одномерного технологического объекта На практике часто возникает необходимость создания моделей для одномерного технологического объекта Блок-схема такого объекта представлена на рис а модель описывается уравнением 3: 3 Процесс построения статистических моделей состоит из нескольких этапов Mth Desge

2 Z Z Z k Технологический Технологический процесс процесс X X X l Y Y p а Рис Блок-схема технологических процессов б Определение тесноты связи между переменными О наличии или отсутствии связи между двумя переменными качественно можно судить по виду поля корреляции [] а количественно по величине выборочного коэффициента корреляции определяемого по формуле 4 где и средние значения: число опытов; и дисперсии Для вычисления удобно использовать: 5 Коэффициент корреляции по абсолютной величине не превышает единицы: Чем ближе абсолютное значение коэффициента к единице тем сильнее линейная связь между величинами Следует отметить что коэффициент корреляции одинаково отмечает долю случайности и криволинейность связи между х и у Зависимость х и у может быть близкой к функциональной но существенно нелинейной; коэффициент корреляции при этом будет значительно меньше единицы Объективное определение тесноты связи может быть проведено в результате совместного анализа качественной и количественной оценок Mth Desge

3 Выбор вида зависимости Для определения вида зависимости 3 следует построить эмпирическую линию регрессии рис 3 Для это весь диапазон изменения х на поле корреляции разбивается на k равных интервалов х Все точки попавшие в j-й интервал j относят к его середине j Для этого определяв частные средние j j для каждого интервала: j j 6 где j число точек в интервале j причем j j объем выборки Y Y j X н X X j X В X Рис 3 Построение эмпирической линии регрессии Затем последовательно соединяют точки j j отрезками прямой Полученная ломаная называемся эмпирической линией регрессии у по х По виду эмпирической линии регрессии можно подобрать уравнение регрессии = < На практике чаще всего используют уравнение регрессии в виде: прямой ; экспоненты e ; параболы ; полинома -й степени и другие Уравнение регрессии в общем случае может быть записано как 7 где расчетное значение функции у; j коэффициенты зависимости; х значение аргумента Mth Desge 3 j

4 Mth Desge 4 Определение параметров зависимости Задачу определения параметров уравнения регрессии 7 решают обычно с использованием метода наименьших квадратов МНК [5 7] Согласно методу наилучшими значениями параметров будут те при которых сумма квадратов отклонений расчетных величин от экспериментальных будет наименьшей т е 8 Условием минимума функции является равенство нулю ее частных производных по всем аргументам: 9 В теории метода система 9 называется нормальной системой: для нее число уравнений равно числу неизвестных Для рассматриваемой функции Ф 8 условием минимума будет После преобразований нормальная система принимает вид а Решение системы алгебраических уравнений а позволит определить значения коэффициентов для конкретного вида зависимости Полученную зависимость называют уравнением регрессии Выражения для определения коэффициентов уравнений регрессии для зависимостей часто встречающихся в практике при создании статистических моделей могут быть получены по методу наименьших квадратов путем решения системы а В случае программной реализации когда вид уравнения регрессии заранее не известен вместо метода наименьших квадратов могут быть использованы э Ф / ; ; / ; / Ф Ф Ф

5 методы условной оптимизации в частности метод штрафных функций [6] Проверка адекватности уравнения регрессии Адекватность уравнения проверяют по критерию Фишера: F / ост в где ост остаточная дисперсия определяющая разброс экспериментальных данных относительно уравнения регрессии; величину случайной ошибки в дисперсия воспроизводимости определяющая ост Значение вычисляют по формуле [7]: ост где число степеней свободы определяемое как разность количества опытных точек и числа параметров а а оцененных по этим же точкам Значение дисперсии воспроизводимости находят на стадии предварительного анализа экспериментальных данных [5] Для этого используют зависимость в 3 где число степеней свободы знаменателя Определив расчетное значение критерия Фишера по формуле сравнивают его с табличным F т Если F т больше F для выбранных уровня значимости и чисел степеней свободы и то уравнение регрессии адекватно Математическая модель в виде уравнения регрессии может быть использована для практических целей для расчета решения задач оптимизации управления и т п Если F т меньше F то уравнение неадекватно В этом случае нужно выбрать другой вид зависимости между величинами х и у и построить новую модель В случае отсутствия данных для определения воспроизводимости процесса при определении адекватности модели на практике используют оценки адекватности корреляционное отношение и среднюю относительную ошибку : э э ; 4 Mth Desge 5

6 где у э экспериментальное расчетное и среднее значения выходного параметра соответственно 337 Построение статистической модели многомерного технологического объекта Для построения модели многомерного технологического объекта рис в настоящее время существуют несколько методов Можно использовать метод множественной корреляции метод группового учета аргументов [] метод главных компонент [] метод Брандона и др Однозначно отдать предпочтение одному из методов нельзя поскольку каждый из них связан с особенностями конкретного технологического объекта В работе для построения статистической модели использован метод Брандона Сущность метода заключается в следующем Предполагается что функция F е или в более удобной форме: э э в системе является произведением функций от входных параметров т где расчетное значение -o выходного параметра; средняя величина экспериментальных значений -го выходного параметра; количество опытов в исходной выборке При использовании метода Брандона большое значение имеет порядок следования функций в уравнении 5 Чем больше влияние оказывает фактор на выходной параметр тем меньшим должен быть его порядковый номер в указанном уравнении Поэтому задача построения модели разбивается на несколько этапов Ранжирование влияющих факторов Оценить степень влияния k-го фактора на выходной параметр можно по величине частного коэффициента множественной корреляции [3]: k k / k k 5 6 D D k D kk j э 7 Mth Desge 6

7 где величина частного коэффициента корреляции учитывающая влияние k- го фактора на выходной параметр у при условии что влияние всех прочих факторов исключено; D определитель матрицы построенной из парных коэффициентов корреляции Матрица имеет вид D k определитель матрицы с вычеркнутыми первой строкой и k-м столбцом; D D kk определитель матрицы с вычеркнутыми первой и k-й строками и k-ми столбцами соответственно k / R 3 4 При переходе от парных коэффициентов корреляции к частным может существенно измениться не только величина коэффициента корреляции но и знак Порядок расположения влияющих факторов в уравнении 5 определяют в соответствии с убыванием величины частных коэффициентов корреляции Следует иметь в виду что коэффициент корреляции чисто статистический показатель и не содержит предположения что изучаемые величины находятся в причинно-следственной связи Подобные предположения должны проверяться экспериментально Выбор вида зависимости и построение статистической модели 8 3 В уравнении 5 каждая из функций принимается либо линейной либо нелинейной степенной показательной экспоненциальной и т д Прежде чем определять вид первой зависимости следует представить исходные экспериментальные значения выходного параметра в каждом опыте э в безразмерной форме у эj : э j эj / где средняя величина выходного параметра Таким образом исходными данными для поиска первой зависимости будут нормированные значения вектора выходных параметров и опытные значения первого влияющего фактора Поиск зависимости где расчетные значения осуществляется по той же методике что и при построении модели одномерного технологического объекта 4 6 Mth Desge 7

8 Выбрав зависимость определяют остаточный показатель для каждого наблюдения: / э э Предполагая что э не зависит от х а зависит от х х выбирают зависимость от второго фактора Исходные данные для поиска остаточный показатель э и опытные значения второго фактора Получив расчетную зависимость находят остаточный показатель э для каждого-наблюдения: / э э Выполнив аналогичные действия для каждого k-го влияющего фактора получают регрессионную зависимость для рассмотренного выходного параметра Порядок расположения факторов для этой зависимости определен на этапе ранжирования и отличается от порядка в общем уравнении 5 Совокупность зависимостей по каждому выходному параметру представляет собой статистическую модель многомерного технологического объекта Порядок синтеза статистической модели объекта с использованием ЭВМ Использование ЭВМ в диалоговом режиме значительно ускоряет процесс синтеза модели по методу Брандона Построение модели происходит в несколько этапов Ранжирование влияющих факторов: а определение коэффициентов парной корреляции; б построение исходной матрицы D для определения частных коэффициентов корреляции; в вычисление значений частных коэффициентов; г анализ результатов проверка причинно-следственных связей; ранжирование факторов Выбор зависимостей выходных параметров от влияющих факторов: а получение одной или нескольких гипотез о виде расчетной зависимости; б идентификация параметров каждой расчетной зависимости методом МНК и определение оценок адекватности; в анализ результатов дискриминация гипотез окончательный выбор зависимости; г проверка адекватности модели Компьютерная реализация изложенного алгоритма синтеза статистической модели объекта методом Брандона выполнена в среде Mtlb 7 4 релиз Интерфейс программы «Bdo_Alze» в порядке выполнения расчета изображен на рис 3 8 Листинг программы приведен в Приложении э Mth Desge 8

9 Программа дает возможность осуществлять контроль над ходом расчета на всех его стадиях Результаты автоматического ранжирования факторов по результатам компьютерного расчета могут быть приняты либо изменены по желанию пользователя Предусмотрена возможность исключения из рассмотрения факторов оказывающих незначимое влияние на функцию отклика решение принимается исследователем В стандартном пакете зависимостей содержится наиболее распространенных функций коэффициенты которых рассчитываются по аналитическим выражениям полученным при дифференцировании исходного выражения Пользователь имеет возможность дополнить пакет собственными функциями чем удобно пользоваться в тех случаях когда тип зависимости известен заранее а задача состоит только в определении коэффициентов уравнения регрессии В этом случае расчет выполняется с использованием оптимизационного модуля системы Mtlb предоставляющего расширенные возможности поиска решения Затраты времени на составление модели не превышают мин Рис 3 Загрузка экспериментальных данных из файла Mth Desge 9

10 Рис 4 Составление матрицы корреляционных отношений Рис 5 Расчет коэффициентов частной корреляции параметров Mth Desge

11 Рис 6 Выбор вида зависимости и расчет коэффициентов частных регрессий Рис 7 Демонстрация точности совпадения экспериментальных и расчетных значений функции Mth Desge

12 Рис 8 Вывод результатов расчета во фрейм Mth Desge

13 БИБЛИОГРАФИЧЕСКИЙ СПИСОК Ахназарова СЛ Кафаров ВВ Методы оптимизации эксперимента в химической технологии М: Высш шк с Дубров АМ Обработка статистических данных методом главных компонент М: Статистика с 3 Закгрейм АЮ Введение в моделирование химико-технологических процессов М: Химия с 4 Кафаров ВВ Методы кибернетики в химии и химической технологии М: Химия с 5 Львовский ГН Статистические методы построения эмпирических формул М: Высш шк 98 4 с 6 Пантелеев АВ Летова ТА Методы оптимизации в примерах и задачах учебное пособие М: Высшая школа 544 с 7 Стьюпер Э Брюггер У Джурс П Машинный анализ связи химической структуры и биологической активности М: Мир 98 3 с Mth Desge 3

Видео:Множественная регрессия в ExcelСкачать

Множественная регрессия в EXCEL

history 26 января 2019 г.

Статистический анализ

Рассмотрим использование MS EXCEL для прогнозирования переменной Y на основании нескольких переменных Х, т.е. множественную регрессию.

Перед прочтением этой статьи рекомендуется освежить в памяти простую линейную регрессию – прогнозирование на основе значений только одного фактора.

Disclaimer : Данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Эта статья – о применении MS EXCEL для целей Множественного регрессионного анализа. Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения Регрессии – плохая идея.

Статья про Множественный регрессионный анализ получилась большая, поэтому ниже для удобства приведены ее разделы:

Прогнозирование единственной переменной Y на основании значений 2-х или более переменных Х называется множественной регрессией .

Множественная линейная регрессионная модель (Multiple Linear Regression Model) имеет вид Y=β ₀ +β ₁ *X ₁ +β ₂ *X ₂ +…+β _k *X _k +ε. В этом случае переменная Y зависит от k поясняющих переменных Х, т.е. регрессоров . ε — случайная ошибка . Модель является линейной относительно неизвестных параметров β.

Видео:Множественная регрессияСкачать

Оценка неизвестных параметров

В этой статье рассмотрим модель с 2-мя регрессорами. Сначала введем необходимые обозначения и понятия множественной регрессии.

Для описания зависимости Y от 2-х переменных линейная модель имеет вид:

Параметры этой модели β _i нам неизвестны, но их можно оценить, используя случайную выборку (измеренные значения переменной Y от заданных Х). Оценки параметров модели (β ₀ , β ₁ , β ₂ ) обычно вычисляются методом наименьших квадратов (МНК) , который минимизирует сумму квадратов ошибок прогнозирования (критерий минимизации в англоязычной литературе обозначают как SSE – Sum of Squared Errors).

Ошибка ε имеет случайную природу и имеет свою функцию распределения со средним значением =0 и дисперсией σ 2 .

Оценки b ₁ и b ₂ называются коэффициентами регрессии , они определяют влияние соответствующей переменной X, когда все остальные независимые переменные остаются неизменными .

Сдвиг (intercept) или постоянный член b ₀ , определяет прогнозируемое значение Y, когда все поясняющие переменные Х равны 0 (часто сдвиг не имеет физического смысла в рамках модели и обусловлен лишь математическими вычислениями МНК ).

Вычислив оценки, полученные методом МНК, позволяют прогнозировать значения переменной Y:

Примечание : Для случая 2-х регрессоров, все спрогнозированные значения переменной Y будут лежать в плоскости (в плоскости регрессии ).

В качестве примера рассмотрим технологический процесс изготовления нити:

Инженер, на основе имеющегося опыта, предположил, что прочность нити Y зависит от концентрации исходного раствора (Х ₁ ) и температуры реакции (Х ₂ ), и соответствует модели линейной регрессии. Для нахождения комбинации переменных Х, при которых Y принимает максимальное значение, необходимо определить коэффициенты регрессии, сделав выборку.

В MS EXCEL коэффициенты множественной регрессии удобнее всего вычислить с помощью функции ЛИНЕЙН() . Это сделано в файле примера на листе Коэффициенты . Чтобы вычислить оценки:

выделите 3 ячейки в одной строке (т.к. мы рассматриваем случай 2-х регрессоров, то будут вычислены 2 коэффициента регрессии + величина сдвига = 3 значения, для вывода которых понадобится 3 ячейки). Пусть это будет диапазон С8:Е8 ;
в Строке формул введите = ЛИНЕЙН(D20:D50;B20:C50) . Предполагается, что в столбце В содержатся прогнозируемые значения Y (в нашей модели это Прочность нити), в столбцах С и D содержатся значения контролируемых параметров Х (Х1 – Концентрация в столбце С и Х2 – Температура в столбце D).
нажмите CTRL+SHIFT+ENTER (т.к. это формула массива ).

В левой ячейке будет рассчитано значение коэффициента регрессии b 2 для переменной Х2, в средней ячейке — значение коэффициента регрессии b 1 для переменной Х1, в правой – сдвиг . Обратите внимание, что порядок вывода коэффициентов регрессии обратный по отношению к расположению столбцов с данными соответствующих переменных Х (вычисленный коэффициент b 2 располагается левее по отношению к b 1 , тогда как значения переменной Х2 располагаются правее значений переменной Х1). Это может привести к путанице, поэтому лучше разместить коэффициенты над соответствующими столбцами с данными, как это сделано в строке 17 файла примера .

Примечание : В принципе без функции ЛИНЕЙН() можно обойтись, записав альтернативные формулы. Для этого в файле примера на листе Коэффициенты в столбцах I : K вычислены отклонения значений переменных Х _1i , Х _2i , Y _i от их средних значений , т.е.:

Далее коэффициенты регрессии рассчитываются по следующим формулам (эти формулы справедливы только при прогнозировании по 2-м независимым переменным Х):

При прогнозировании по 3-м и более независимым переменным Х формулы для вычисления коэффициентов регрессии значительно усложняются, поэтому следует использовать матричный подход.

В файле примера на листе Матричная форма выполнены расчеты коэффициентов регрессии с помощью матричного подхода.

Расчет можно произвести как пошагово, так и одной формулой массива :

Коэффициенты регрессии (вектор b ) в этом случае вычисляются по формуле b =(X T X) -1 (X T Y) или в другом виде записи b =(X ’ X) -1 (X ’ Y)

Под Х подразумевается матрица, состоящая из столбцов значений переменной Х с дополнительным столбцом единиц, а под Y – вектор-столбец значений Y.

Видео:Уравнение множественной регрессии в ExcelСкачать

Диаграмма рассеяния

В случае простой линейной регрессии (один регрессор, т.е. одна переменная Х) для визуализации связи между прогнозируемым значением Y и переменной Х строят диаграмму рассеяния (двумерную).

В случае множественной линейной регрессии двумерную диаграмму рассеяния можно построить только для анализа влияния каждого отдельного регрессора на Y (при этом остальные Х не меняются), т.е. так называемую Матричную диаграмму рассеивания (См. файл примера лист Диагр расс (матричная) ).

К сожалению, такую диаграмму трудно интерпретировать.

Более того, матричная диаграмма может вводить в заблуждение (см. Introduction to linear regression analysis / D . C . Montgomery , E . A . Peck , G . G . Vining , раздел 3.2.5 ), демонстрируя наличие или отсутствие линейной взаимосвязи между отдельным регрессором X _i и Y.

Для случая с 2-мя регрессорами можно предложить альтернативный вид матричной диаграммы рассеяния . В стандартной диаграмме рассеяния строятся проекции на координатные плоскости Х1;Х2, Y;X1 и Y;X2. Однако, если взглянуть на точки относительно плоскости регрессии , то картину, на мой взгляд, будет проще интерпретировать.

Сравним две матричные диаграммы рассеяния (см. файл примера на листе «Диагр расс (в плоск регрессии)» , построенные для одних и тех же наблюдений. Первая – стандартная,

вторая представляет собой вид сверху на плоскость регрессии и 2 вида вдоль плоскости.

На второй диаграмме становится очевидно, что разброс точек относительно плоскости регрессии совсем не большой и поэтому, скорее всего, построенная модель является полезной, а выбранные 2 переменные Х позволяют прогнозировать Y (конечно, для подтверждения этой гипотезы нужно провести процедуру F-теста ).

Несколько слов о построении альтернативной матричной диаграммы рассеяния:

Перед построением необходимо нормировать значения наблюдений (для каждой переменной вычесть среднее и разделить на стандартное отклонение ). В этом случае практически все точки на диаграммах будут находится в диапазоне +/-3 (по аналогии со стандартным нормальным распределением , 99% значений которого лежат в пределах +/-3 сигма). В этом случае, на диаграмме можно фиксировать мин/макс значений осей, чтобы EXCEL автоматически не модифицировал масштаб осей при изменении данных (это не всегда удобно);
Теперь координаты точек необходимо рассчитать в системе отсчета относительно плоскости регрессии (в которой плоскость Оху’ совпадает с плоскостью регрессии). Для этого необходимо найти матрицу вращения , например, через вращение приводящее к совмещению нормали к плоскости регрессии и вектора оси Z (0;0;1);
Новые координаты позволяют построить альтернативную матричную диаграмму. Кроме того, для удобства можно вращать систему координат вокруг новой оси Z, чтобы нагляднее представить себе распределение точек относительно плоскости регрессии (для этого использована Полоса прокрутки в ячейках Q31:S31 ).

Видео:Эконометрика 08 Множественная регрессияСкачать

Вычисление прогнозных значений Y (отдельное наблюдение и среднее значение) и построение доверительных интервалов

После того, как нами были найдены тем или иным способом коэффициенты регрессии можно приступать к вычислению прогнозных значений Y на основе заданных значений переменных Х.

Уравнение прогнозирования или уравнение регрессии в случае 2-х независимых переменных (регрессоров) записывается в виде:

Примечание: В MS EXCEL прогнозное значение Y для заданных Х ₁ и Х ₂ можно также предсказать с помощью функции ТЕНДЕНЦИЯ() . При этом 2-й аргумент будет ссылкой на столбцы, содержащие все значения переменных Х ₁ и Х ₂ , а 3-й аргумент функции должен быть ссылкой на диапазон ячеек, содержащий 2 значения Х (Х _1i и Х _2i ) для выбранного наблюдения i (см. файл примера, лист Коэффициенты, столбец G ). Функция ПРЕДСКАЗ() , использованная нами в простой регрессии, не работает в случае множественной регрессии .

Найдя прогнозное значение Y, мы, таким образом, вычислим его точечную оценку. Понятно, что фактическое значение Y, полученное при наблюдении, будет, скорее всего, отличаться от этой оценки. Чтобы ответить на вопрос о том, на сколько хорошо мы можем предсказывать новые значения Y, нам потребуется построить доверительный интервал этой оценки, т.е. диапазон в котором с определенной заданной вероятностью, скажем 95%, мы ожидаем новое значение Y.

Доверительные интервалы построим при фиксированном Х для:

нового наблюдения Y;
среднего значения Y (интервал будет уже, чем для отдельного нового наблюдения)

Как и в случае простой линейной регрессии , для построения доверительных интервалов нам потребуется сначала вычислить стандартную ошибку модели (standard error of the model) , которая приблизительно показывает насколько велика ошибка предсказания значений переменной Y на основании значений переменных Х.

Для вычисления стандартной ошибки оценивают дисперсию ошибки ε, т.е. сигма^2 (ее часто обозначают как MS Е либо MSres ) . Затем, вычислив из полученной оценки квадратный корень, получим Стандартную ошибку регрессии (часто обозначают как SEy или sey ).

где SSE – сумма квадратов значений ошибок модели ei=yi — ŷi ( Sum of Squared Errors ). MSE означает Mean Square of Errors (среднее квадратов ошибок, точнее остатков).

Величина n-p – это количество степеней свободы ( df – degrees of freedom ), т.е. число параметров системы, которые могут изменяться независимо (вспомним, что у нас в этом примере есть n независимых наблюдений переменной Y, р – количество оцениваемых параметров модели). В случае простой множественной регрессии с 2-мя регрессорами число степеней свободы равно n-3, т.к. при построении плоскости регрессии было оценено 3 параметра модели b (т.е. на это было «потрачено» 3 степени свободы ).

В MS EXCEL стандартную ошибку SEy можно вычислить формулы (см. файл примера, лист Статистика ):

Стандартная ошибка нового наблюдения Y при заданных значениях Х (вектор Хi) вычисляется по формуле:

x _i — вектор-столбец со значениями переменных Х (с дополнительной 1) для заданного наблюдения i.

Соответствующий доверительный интервал вычисляется по формуле:

где α (альфа) – уровень значимости (обычно принимают равным 0,05=5%)

р – количество оцениваемых параметров модели (в нашем случае = 3)

n-p – число степеней свободы

– квантиль распределения Стьюдента (задает количество стандартных ошибок , в +/- диапазоне которых вероятность обнаружить новое наблюдение равно 1-альфа). Т.е. если квантиль равен 2, то диапазон шириной +/- 2 стандартных ошибок относительно прогнозного значения Y будет с вероятностью 95% содержать новое наблюдение Y (для каждого заданного Хi). В MS EXCEL вычисления квантиля производят по формуле = СТЬЮДЕНТ.ОБР.2Х(0,05;n-p) , подробнее см. в статье про распределение Стьюдента .

– прогнозное значение Yi вычисляемое по формуле Yi= b 0+ b 1* Х1i+ b 2* Х2i (точечная оценка).

Стандартная ошибка среднего значения Y при заданных значениях Х (вектор Хi) будет меньше, чем стандартная ошибка отдельного наблюдения. Вычисления производятся по формуле:

x _i — вектор-столбец со значениями переменных Х (с дополнительной 1) для заданного наблюдения i.

Соответствующий доверительный интервал вычисляется по формуле:

Прогнозное значение Yi (точечная оценка) используется тоже, что и для отдельного наблюдения.

Видео:Эконометрика. Построение модели множественной регрессии в Excel. Часть 1.Скачать

Стандартные ошибки и доверительные интервалы для коэффициентов регрессии

В разделе Оценка неизвестных параметров мы получили точечные оценки коэффициентов регрессии . Так как эти оценки получены на основе случайных величин (значений переменных Х и Y), то эти оценки сами являются случайными величинами и соответственно имеют функцию распределения со средним значением и дисперсией . Но, чтобы перейти от точечных оценок к интервальным , необходимо вычислить соответствующие стандартные ошибки (т.е. стандартные отклонения ) коэффициентов регрессии .

Стандартная ошибка коэффициента регрессии b _j (обозначается se ( b _j ) ) вычисляется на основании стандартной ошибки по следующей формуле:

где C _jj является диагональным элементом матрицы (X ’ X) -1 . Для коэффициента сдвига b ₀ индекс j=1 (верхний левый элемент), для b ₁ индекс j=2, b ₂ индекс j=3 (нижний правый элемент).

SEy – стандартная ошибка регрессии (см. выше ).

В MS EXCEL стандартные ошибки коэффициентов регрессии можно вычислить с помощью функции ЛИНЕЙН() :

Примечание : Подробнее о функции ЛИНЕЙН() см. статью Функция MS EXCEL ЛИНЕЙН() .

Применяя матричный подход стандартные ошибки можно вычислить и через обычные формулы (точнее через формулу массива , см. файл примера лист Статистика ):

= КОРЕНЬ(СУММКВРАЗН(E13:E43;F13:F43) /(n-p)) *КОРЕНЬ (ИНДЕКС (МОБР (МУМНОЖ(ТРАНСП(B13:D43);(B13:D43)));j;j))

При построении двухстороннего доверительного интервала для коэффициента регрессии его границы определяются следующим образом:

где t – это t-значение , которое можно вычислить с помощью формулы = СТЬЮДЕНТ.ОБР.2Х(0,05;n-p) для уровня значимости 0,05.

В результате получим, что найденный доверительный интервал с вероятностью 95% (1-0,05) накроет истинное значение коэффициента регрессии b _j . Здесь мы считаем, что коэффициент регрессии b _j имеет распределение Стьюдента с n-p степенями свободы (n – количество наблюдений, т.е. пар Х и Y).

Видео:Множественная регрессия в Excel и мультиколлинеарностьСкачать

Проверка гипотез

Когда мы строим модель, мы предполагаем, что между Y и переменными X существует линейная взаимосвязь. Однако, как это иногда бывает в статистике, можно вычислять параметры связи даже тогда, когда в действительности она не существует, и обусловлена лишь случайностью.

Единственный вариант, когда Y не зависит X, возможен, когда все коэффициенты регрессии β равны 0.

Чтобы убедиться, что вычисленная нами оценка коэффициентов регрессии не обусловлена лишь случайностью (они не случайно отличны от 0), используют проверку гипотез . В качестве нулевой гипотезы Н ₀ принимают, что линейной связи нет, т.е. ВСЕ β=0. В качестве альтернативной гипотезы Н ₁ принимают, что ХОТЯ БЫ ОДИН коэффициент β 0.

Процедура проверки значимости множественной регрессии, приведенная ниже, является обобщением дисперсионного анализа , использованного нами в случае простой линейной регрессии (F-тест) .

Если нулевая гипотеза справедлива, то тестовая F -статистика имеет F-распределение со степенями свободы k и n — k -1 , т.е. F _{k, n-k-1} :

Проверку значимости регрессии можно также осуществить через вычисление p -значения . В этом случае вычисляют вероятность того, что случайная величина F примет значение F ₀ (это и есть p-значение ), затем сравнивают p-значение с заданным уровнем значимости α (альфа) . Если p-значение больше уровня значимости , то нулевую гипотезу нет оснований отклонить, и регрессия незначима.

В MS EXCEL значение F ₀ можно вычислить на основании значений выборки по вышеуказанной формуле или с помощью функции ЛИНЕЙН() :

В MS EXCEL для проверки гипотезы через p -значение используйте формулу =F.РАСП.ПХ(F ₀ ;k;n-k-1) файл примера лист Статистика , где показано эквивалентность обоих подходов проверки значимости регрессии).

В MS EXCEL критическое значение для заданного уровня значимости F _{1-альфа, k, n-k-1} можно вычислить по формуле = F.ОБР(1- альфа;k;n-k-1) или = F.ОБР.ПХ(альфа;k; n-k-1) . Другими словами требуется вычислить верхний альфа- квантиль F -распределения с соответствующими степенями свободы .

Таким образом, при значении статистики F ₀ > F _{1-альфа, k, n-k-1} мы имеем основание для отклонения нулевой гипотезы.

В программах статистики результаты процедуры F -теста выводят с помощью стандартной таблицы дисперсионного анализа . В файле примера такая таблица приведена на листе Надстройка , которая построена на основе результатов, возвращаемых инструментом Регрессия надстройки Пакета анализа MS EXCEL .

Видео:Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать

Генерация данных для множественной регрессии с помощью заданного тренда

Иногда, бывает удобно сгенерировать значения наблюдений, имея заданный тренд.

Для решения этой задачи нам потребуется:

задать значения регрессоров в нужном диапазоне (значения переменных Х);
задать коэффициенты регрессии ( b );
задать тренд (вычислить значения Y= b₀ +b₁ * Х ₁ + b₂ * Х ₂ );
задать величину разброса Y вокруг тренда (варианты: случайный разброс в заданных границах или заданная фигура, например, круг)

Все вычисления выполнены в файле примера, лист Тренд для случая 2-х регрессоров. Там же построены диаграммы рассеяния .

Видео:Множественная Линейная Регрессия || Машинное ОбучениеСкачать

Коэффициент детерминации

Коэффициент детерминации R 2 показывает насколько полезна построенная нами линейная регрессионная модель .

По определению коэффициент детерминации R 2 равен:

R 2 = Изменчивость объясненная моделью ( SSR ) / Общая изменчивость ( SST ).

Этот показатель можно вычислить с помощью функции ЛИНЕЙН() :

При добавлении в модель новой объясняющей переменной Х, коэффициент детерминации будет всегда расти. Поэтому, рост коэффициента детерминации не может служить основанием для вывода о том, что новая модель (с дополнительным регрессором) лучше прежней.

Более подходящей статистикой, которая лишена указанного недостатка, является нормированный коэффициент детерминации (Adjusted R-squared):