Уравнение парной корреляции в общем виде

Парная регрессия и корреляция

Уравнение парной корреляции в общем виде

1. Парная регрессия и корреляция

1.1. Понятие регрессии

Парной регрессией называется уравнение связи двух переменных у и х

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением: y = a + b × x +e .

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но ли-

нейных по оцениваемым параметрам:

· полиномы разных степеней Уравнение парной корреляции в общем виде

· равносторонняя гипербола: Уравнение парной корреляции в общем виде

Примеры регрессий, нелинейных по оцениваемым параметрам:

· степенная Уравнение парной корреляции в общем виде

· показательная Уравнение парной корреляции в общем виде

· экспоненциальная Уравнение парной корреляции в общем виде

Наиболее часто применяются следующие модели регрессий:

– прямой Уравнение парной корреляции в общем виде

– гиперболы Уравнение парной корреляции в общем виде

– параболы Уравнение парной корреляции в общем виде

– показательной функции Уравнение парной корреляции в общем виде

– степенная функция Уравнение парной корреляции в общем виде

1.2. Построение уравнения регрессии

Постановка задачи. По имеющимся данным n наблюдений за совместным

изменением двух параметров x и y <(xi,yi), i=1,2. n> необходимо определить

аналитическую зависимость ŷ=f(x), наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости

– оценка параметров выбранной модели.

1.2.1. Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии Dост или средней ошибки аппроксимации , рассчитанных для различных

моделей регрессии (метод перебора).

1.2.2. Оценка параметров модели

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

Уравнение парной корреляции в общем виде

В случае линейной регрессии параметры а и b находятся из следующей

системы нормальных уравнений метода МНК:

Уравнение парной корреляции в общем виде(1.1)

Можно воспользоваться готовыми формулами, которые вытекают из этой

Уравнение парной корреляции в общем виде(1.2)

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x, y) → (x’, y’), система нормальных уравнений имеет

вид (1.1) в преобразованных переменных x’, y’.

Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения.

Линеаризующее преобразование: x’ = 1/x; y’ = y.

Уравнения (1.1) и формулы (1.2) принимают вид

Уравнение парной корреляции в общем виде

Уравнение парной корреляции в общем виде

Линеаризующее преобразование: x’ = x; y’ = lny.

Уравнение парной корреляции в общем виде

Модифицированная экспонента: Уравнение парной корреляции в общем виде, (0 K и со знаком «–» в противном случае.

Степенная функция: Уравнение парной корреляции в общем виде

Линеаризующее преобразование: x’ = ln x; y’ = ln y.

Уравнение парной корреляции в общем виде

Показательная функция: Уравнение парной корреляции в общем виде

Линеаризующее преобразование: x’ = x; y’ = lny.

Уравнение парной корреляции в общем видеЛогарифмическая функция:

Линеаризующее преобразование: x’ = ln x; y’ = y.

Уравнение парной корреляции в общем виде

Парабола второго порядка: Уравнение парной корреляции в общем виде

Парабола второго порядка имеет 3 параметра a0, a1, a2, которые определяются из системы трех уравнений

Уравнение парной корреляции в общем виде

1.3. Оценка тесноты связи

Тесноту связи изучаемых явлений оценивает линейный коэффициент

парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)

и индекс корреляции ρxy для нелинейной регрессии Уравнение парной корреляции в общем виде

Уравнение парной корреляции в общем видеИмеет место соотношение

Уравнение парной корреляции в общем виде

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Для оценки качества построенной модели регрессии можно использовать

показатель (коэффициент, индекс) детерминации R2 либо среднюю ошибку аппроксимации.

Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение

расчетных значений от фактических

Уравнение парной корреляции в общем виде

Построенное уравнение регрессии считается удовлетворительным, если

значение не превышает 10–12 %.

1.4. Оценка значимости уравнения регрессии, его коэффициентов,

Оценка значимости всего уравнения регрессии в целом осуществляется с

помощью F-критерия Фишера.

F-критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение

фактического Fфакт и критического (табличного) Fтабл значений F-критерия

Fфакт определяется из соотношения значений факторной и остаточной

дисперсий, рассчитанных на одну степень свободы

Уравнение парной корреляции в общем виде

где n – число единиц совокупности; m – число параметров при переменных.

Для линейной регрессии m = 1 .

Для нелинейной регрессии вместо r 2 xy используется R2.

Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α вероятность отвергнуть правильную гипотезу

при условии, что она верна. Обычно величина α принимается равной 0,05 или

Если Fтабл Fфакт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется

t-критерий Стьюдента и рассчитываются доверительные интервалы каждого

Согласно t-критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия tфакт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки

Уравнение парной корреляции в общем виде

Стандартные ошибки параметров линейной регрессии и коэффициента

корреляции определяются по формулам

Уравнение парной корреляции в общем видеСравнивая фактическое и критическое (табличное) значения t-статистики

tтабл и tфакт принимают или отвергают гипотезу Но.

tтабл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n–2 и уровне значимости α.

Связь между F-критерием Фишера (при k1 = 1; m =1) и t-критерием Стьюдента выражается равенством

Если tтабл tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или Уравнение парной корреляции в общем виде.

Значимость коэффициента детерминации R2 (индекса корреляции) определяется с помощью F-критерия Фишера. Фактическое значение критерия Fфакт определяется по формуле

Уравнение парной корреляции в общем виде

Fтабл определяется из таблицы при степенях свободы k1 = 1, k2 = n–2 и при

заданном уровне значимости α. Если Fтабл

Видео:Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Основы корреляционного анализа. Примеры анализа прямолинейной связи при парной корреляции

Исследование объективно существующих связей между явлениями — важнейшая задача статистики. В процессе статистического исследования зависимостей выявляются причинно-следственные отношения между явлениями. Причинно-следственные отношения — это такая связь явлений и процессов, когда изменение одного из них — причины ведет к изменению другого — следствия.

Признаки явлений и процессов по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называют факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.

В статистике различают функциональные и стохастические (вероятностные) связи явлений и процессов:

  • Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно значение результативного.
  • Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической (вероятностной). Частным случаем стохастической связи является корреляционная связь.

Кроме того, связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

По направлению выделяют связь прямую и обратную:

  • Прямая связь — это такая связь, при которой с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства.
  • В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные:

  • Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: у=а+bх.
  • Если же связь может быть выражена уравнением какой-либо кривой линии (параболы, гиперболы и др.), то такую связь называют нелинейной (криволинейной) связью.

Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака. Классификация связи по степени тесноты представлена в таблице 1.

Таблица 1 — Количественные критерии оценки тесноты связи

Величина коэффициента корреляцииХарактер связи
До ±3Практически отсутствует
От ±3 до ±0,5Слабая
От ±0,5 до ±0,7Умеренная
От ±0,7 до ±1,0Сильная

Для выявления наличия связи, ее характера и направления в статистике используются следующие методы: приведения параллельных данных, аналитических группировок, графический, корреляции. Основным методом изучения статистической взаимосвязи является статистическое моделирование связи на основе корреляционного и регрессионного анализа.

Корреляция — это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. В статистике принято различать следующие виды корреляции:

  • парная корреляция — связь между двумя признаками (результативным и факторным, или двумя факторными);
  • частная корреляция — зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
  • множественная корреляция — зависимость результативного и двух или более факторных признаков, включенных в исследование.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии.

Корреляция взаимосвязана с регрессией, поскольку первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.

Регрессионный анализ заключается в определении аналитического выражения связи в виде уравнения регрессии.

Регрессией называется зависимость среднего значения случайной величины результативного признака от величины факторного, а уравнением регрессии – уравнение описывающее корреляционную зависимость между результативным признаком и одним или несколькими факторными.

Формулы корреляционно-регрессионного анализа для прямолинейной связи при парной корреляции представлены в таблице 2.

Таблица 2 — Формулы корреляционно-регрессионного анализа для прямолинейной связи при парной корреляции

📹 Видео

Уравнение парной линейной регрессии с помощью Анализа ДанныхСкачать

Уравнение парной линейной регрессии с помощью Анализа Данных

Парная нелинейная регрессияСкачать

Парная нелинейная регрессия

Коэффициент корреляции. Статистическая значимостьСкачать

Коэффициент корреляции.  Статистическая значимость

Расчет коэффициента корреляции в ExcelСкачать

Расчет коэффициента корреляции в Excel

Как вычислить линейный коэффициент корреляции в MS Excel и построить уравнение регрессии?Скачать

Как вычислить линейный коэффициент корреляции в MS Excel  и построить уравнение регрессии?

Эконометрика. Множественная регрессия и корреляция.Скачать

Эконометрика. Множественная регрессия и корреляция.

Метод наименьших квадратов. Парная регрессия расчет без Excel @economc #МНК #регрессия #корреляцияСкачать

Метод наименьших квадратов. Парная регрессия расчет без Excel @economc #МНК #регрессия #корреляция

Корреляция и регрессияСкачать

Корреляция и регрессия

Корреляция: расчет коэффициента корреляции. Детерминация, средняя ошибка аппроксимации без ExcelСкачать

Корреляция: расчет коэффициента корреляции. Детерминация, средняя ошибка аппроксимации без Excel

Коэффициент корреляции Пирсона в ExcelСкачать

Коэффициент корреляции Пирсона в Excel

Коэффициент корреляции ПирсонаСкачать

Коэффициент корреляции Пирсона

Множественный и частные коэффициенты корреляцииСкачать

Множественный и частные коэффициенты корреляции

Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Модель парной линейной регрессии. ЭКОНОМЕТРИКА. Лаб. работа 1 (таймкоды и условие в описании)Скачать

Модель парной линейной регрессии. ЭКОНОМЕТРИКА. Лаб. работа 1 (таймкоды и условие в описании)

Эконометрика. Нелинейная регрессия. Гипербола.Скачать

Эконометрика. Нелинейная регрессия. Гипербола.
Поделиться или сохранить к себе:
ПоказательОбозначение и формула
Уравнение прямой при парной корреляцииyx = a +bx, где b — коэффициент регрессии
Система нормальных уравнений способом наименьших квадратов для определения коэффициентов a и bУравнение парной корреляции в общем виде
Линейный коэффициент корреляции для определения тесноты связи,
его интерпретация:
r = 0 – связь отсутствует;
0

2012 © Лана Забродская. При копировании материалов сайта ссылка на источник обязательна

Видео:Эконометрика Линейная регрессия и корреляцияСкачать

Эконометрика  Линейная регрессия и корреляция

Методические основы корреляционно-регрессионного анализа

Видео:Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Понятие о корреляционно-регрессионном анализе

Убедившись при помощи аналитической группировки и расчета показателя эмпирического корреляционного отношения, что теснота связи между исследуемыми явлениями достаточно высока, можно и перейти к корреляционно-регрессионному анализу.

Экономические явления и процессы хозяйственной деятельности предприятий зависят от большого количества взаимодействующих и взаимообусловленных факторов.

В наиболее общем виде задача изучения взаимосвязей факторов состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – методы регрессионного анализа, объединенные в методы корреляционно-регрессионного анализа, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнение при интерпретации результатов и др.

Задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками и оценке факторов, оказывающих наибольшее влияние на результативный признак. К показателям, используемым для оценки тесноты связи, относятся эмпирическое корреляционное отношения, теоретическое корреляционное отношение, линейный коэффициент корреляции и т.п.

Задачи регрессионного анализа состоят в установлении формы зависимости между исследуемыми признаками (показателями), определении функции регрессии, использования уравнения регрессии для оценки неизвестных значений зависимой переменной. Найти уравнение регрессии –

значит по эмпирическим (фактическим) данным описать изменения взаимно коррелируемых величин.

Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х не учитывать, т.е. абстрагироваться от них. Уравнение регрессии называют теоретической линией регрессии, а рассчитанные по нему значения результативного признака – теоретическими. Теоретические значения результативного признака обычно обозначаются y x (читается: «игрек, выровненный по икс») и рассматриваются как функция от х, т.е. y x = f (x). Иногда для простоты записи вместо y x пишут y’ или y.

Для аналитической связи между х и у используются следующие простые виды уравнений: y x = a0 + a1x (прямая); y x = a0 + a1x + a2x 2 (парабола второго порядка); y x = a0 + a1/x (гипербола); y x = a0 × a1 x (показательная или экспоненциальная функция); y x = a0 + b × lg x (логарифмическая функция) и др.

Обычно зависимость, выраженную уравнением прямой, называют линейной (или прямолинейной), а все остальные – криволинейными (см. табл. 7.1). Кроме того, различают парную и множественную (многофакторную) корреляцию (см. там же), а, следовательно, и, парную и множественную регрессии.

Корреляционно-регрессионный анализ, в частности многофакторный корреляционный анализ, состоит из нескольких этапов.

На первом этапе определяются факторы, оказывающие воздействие на изучаемый показатель, и отбираются наиболее существенные. От того, насколько правильно сделан отбор факторов, зависит точность выводов по итогам анализа. При отборе факторов придерживаются требований, представленных на рис. 8.1.

Требования к отбору факторов при корреляционнорегрессионном анализе:

  • учитываются причинно-следственные связи между показателями
  • отбираются самые значимые факторы, оказывающие решающее воздействие на результативный показатель (факторы, которые имеют критерий надежности по Стьюденту меньше табличного, не рекомендуется принимать в расчет)
  • все факторы должны быть количественно измеримы
  • не рекомендуется включать в корреляционную модель взаимосвязанные факторы (если парный коэффициент корреляции между двумя факторами больше 0,85, то по правилам корреляционного анализа один из них необходимо исключить, иначе это приведет к искажению результатов анализа)
  • нельзя включать в корреляционную модель факторы, связь которых с результативным показателем носит функциональный характер
  • в корреляционную модель линейного типа не рекомендуется включать факторы, связь которых с результативным показателем имеет криволинейный характер

Рисунок 8.1 – Перечень основных требований, учитываемых при отборе факторов, при корреляционно-регрессионном анализе

На втором этапе собирается и оценивается исходная информация, необходимая для корреляционного анализа. Собранная исходная информация должна быть проверена на точность (достоверность), однородность и соответствие закону нормального распределения. Критерием однородности информации служит среднеквадратическое отклонение и коэффициент вариации. Если вариация выше 33%, то это говорит о неоднородности информации и ее необходимо исключить или отбросить нетипичные наблюдения.

На третьем этапе изучается характер и моделируется связь между факторами и результативным показателем, т.е. подбирается и обосновывается математическое уравнение, которое наиболее точно выражает сущность исследуемой зависимости. Для обоснования функции используются те же приемы, что и для установления наличия связи: аналитические группировки, линейные графики и др. Если связь всех факторных показателей с результативным носит прямолинейный характер, то для записи этих зависимостей можно использовать линейную функцию: y x = a0 + a1x1 + a2x2 +. + anxn. Если связь между функцией и исследуемыми показателями носит криволинейный характер, то может быть использована степенная функция: y x = b0 × x1 b1 × x2 b2 × . × xn bn .

На четвертом этапе проводится расчет основных показателей связи корреляционного анализа. Рассчитываются матрицы парных и частных коэффициентов корреляции уравнения множественной регрессии, а также показатели, с помощью которых оценивается надежность коэффициентов корреляции и уравнения связи: критерий Стьюдента, критерий Фишера, множественные коэффициенты корреляции и др.

На пятом этапе дается статистическая оценка результатов корреляционного анализа и практическое их применение. Для этого дается оценка коэффициентов регрессии, коэффициентов эластичности и бета-коэффициентов.

Одним из основных условий применения и ограничения корреляционно-регрессионного метода является наличие данных по достаточно большой совокупности явлений. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше – не менее чем в 10 раз больше числа факторов.

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Парная линейная регрессия

Парная линейная зависимость – наиболее часто используемая форма связи между двумя коррелируемыми признаками, выражаемая при парной корреляции уравнением прямой:

Уравнение парной корреляции в общем виде

где y x – выровненное среднее значение результативного признака;
х – значение факторного признака;
а0 и а1 – параметры уравнения;
а0 – значение у при х = 0;
а1 – коэффициент регрессии.

Коэффициент регрессии а1 показывает, на сколько (в абсолютном выражении) изменится результативный признак у при изменении факторного признака х на единицу.

Если а1 имеет положительный знак, то связь прямая, если отрицательный – связь обратная.

Параметры уравнения связи определяются способом (методом) наименьших квадратов (МНК) с помощью составленной и решенной системы двух уравнений с двумя неизвестными:

Уравнение парной корреляции в общем виде

где n – число членов в каждом из двух сравниваемых рядов (число единиц совокупности);
Σx – сумма значений факторного признака;
Σx 2 – сумма квадратов значений факторного признака;
Σy – сумма значений результативного признака;
Σyx – сумма произведений значений факторного признака на значения результативного признака.

Для справки: суть метода наименьших квадратов заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений.

Решив систему уравнений, получаем значения параметров уравнения связи, определяемые по формулам:

Уравнение парной корреляции в общем виде

Если параметры уравнения определены правильно, то Σу = Σ y x.

Пример построения уравнения парной линейной регрессии

По данным таблицы 8.1 необходимо построить линейное уравнение регрессии, характеризующее зависимость выпуска продукции десяти предприятий одной отрасли от стоимости их основных производственных фондов.

Данные, характеризующие десять предприятий одной отрасли

Номер предприятия12345678910
Стоимость ОПФ, млрд. руб.12810691511131410
Выпуск продукции, млрд. руб.5,64,04,02,43,65,04,66,57,04,5

Для расчета параметров уравнения регрессии и выровненных по х значений у построим вспомогательную таблицу 8.2.

Данные, используемые для расчета параметров линейного уравнения связи стоимости основных производственных фондов и выпуска продукции десяти предприятий отрасли

№ завода (n)Стоимость ОПФ (х), млрд. руб.Выпуск продукции (у), млрд. руб.x 2y 2y x = 0,167 + 0,421x
1125,614467,231,365,2
2846432163,5
310410040164,4
462,43614,45,762,7
593,68132,412,964
615522575256,5
7114,612150,621,164,8
8136,516984,542,255,6
914719698496,1
10104,51004520,254,4
Всего10847,21236539,1239,7447,2
В среднем на 1 завод10,84,72123,653,9123,974х

По формуле 8.3 параметр уравнения прямой: a0 = 0,167.

По формуле 8.4 коэффициент регрессии: a1 = 0,421.

По формуле 8.1 линейное уравнение связи между стоимостью основных производственных фондов и выпуском продукции имеет вид: y x = 0,167 + 0,421x

Коэффициент регрессии а1 = 0,421 показывает, что при увеличении стоимости основных производственных фондов на 1 млрд. руб. выпуск продукции в среднем увеличится на 0,421 млрд. руб.

Последовательно подставляя в полученное уравнение значения факторного признака х, находим выровненные значения результативного признака y x, показывающие, каким теоретически должен быть средний размер выпущенной продукции при данном размере основных производственных фондов (при прочих равных условиях). Выровненные (теоретические) значения выпуска продукции приведены в последней графе таблицы 8.2.

Правильность расчета параметров уравнения подтверждает равенство Σу = Σ y x (47,2 = 47,2).

На рис. 8.2 представлены эмпирические, теоретические и средние уровни выпуска продукции предприятий отрасли, отличающихся по стоимости основных производственных фондов.

Для экономической интерпретации линейных и нелинейных связей между двумя исследуемыми явлениями часто используют рассчитанные на основе уравнений регрессии коэффициенты эластичности.

Уравнение парной корреляции в общем виде

Коэффициент эластичности показывает, на сколько процентов изменится в среднем результативный признак у при изменении факторного признака х на 1%.

Для линейной зависимости коэффициент эластичности (ε) определяется:

– для отдельной единицы совокупности по формуле:

Уравнение парной корреляции в общем виде

– в целом для совокупности по формуле:

Уравнение парной корреляции в общем виде

Пример расчета коэффициентов эластичности

По данным таблицы 8.2 необходимо найти коэффициенты эластичности для отдельных предприятий и в среднем по отрасли.

По формуле 8.5 коэффициент эластичности на первом предприятии равен: ε1 = 0,97, т.е. 1% прироста стоимости основных производственных фондов обеспечивает прирост выпуска продукции на этом предприятии на 0,97%; …; на пятом предприятии – на 0,95%; …; на десятом предприятии – на 0,96%.

По формуле 8.6 коэффициент эластичности равен:

ε = 0,963. Это означает, что при увеличении стоимости основных производственных фондов в целом по предприятиям отрасли на 1%, выпуск продукции увеличится в среднем на 0,963%. Определение тесноты связи в корреляционно-регрессионном анализе основывается на правиле сложения дисперсий, как и в методе аналитической группировки. Но в отличие от него, где для оценки линии регрессии используют групповые средние результативного признака, в корреляционно-регрессионном анализе для этой цели используют теоретические значения результативного признака.

Наглядно представить и обосновать корреляционно-регрессионный анализ позволяет график.

На графике на рис. 8.2 проведены три линии: у – ломанная линия фактических данных; y x – прямая наклонная линия теоретических значений у при абстрагировании от влияния всех факторов, кроме фактора х (переменная средняя); y – прямая горизонтальная линия, из среднего значения которой исключено влияние на у всех без исключения факторов (постоянная средняя).

Несовпадение линии переменной средней y x с линией постоянной средней y поясняется влиянием факторного признака х, что, в свою очередь, свидетельствует о наличии между признаками у и х неполной, нефункциональной связи. Для определения тесноты этой связи необходимо рассчитать дисперсию отклонений у и y x, то есть остаточную дисперсию, которая обусловлена влиянием всех факторов, кроме фактора х. Разница между общей и остаточной дисперсиями дает теоретическую (факторную) дисперсию, которая измеряет вариацию, обусловленную фактором х.

На сопоставлении этой разницы с общей дисперсией построен индекс корреляции или теоретическое корреляционное отношение (R), которое определяется по формулам:

Уравнение парной корреляции в общем виде

Уравнение парной корреляции в общем виде

где σ 2 общ – общая дисперсия;
σ 2 ост – остаточная дисперсия;
σ 2 y x – факторная (теоретическая) дисперсия.

Факторную дисперсию по теоретическим значениям исчисляют по формуле:

Уравнение парной корреляции в общем виде

Остаточную дисперсию определяют по формулам:

Уравнение парной корреляции в общем виде

Уравнение парной корреляции в общем виде

Коэффициент детерминации (R 2 ) характеризует ту часть вариации результативного признака у, которая соответствует линейному уравнению регрессии (т.е. обусловлена вариацией факторного признака) и исчисляется по формуле:

Уравнение парной корреляции в общем виде

Индекс корреляции принимает значения от 0 до 1. Когда R = 0, то связи между вариацией признаков х и у нет. Остаточная дисперсия равняется общей, а теоретическая дисперсия равняется нулю. Все теоретические значения y x совпадают со средними значениями y , линия y x на графике совпадает с линией y , то есть принимает горизонтальное положение. При R = 1 теоретическая дисперсия равна общей, а остаточная равна нулю, фактические значения у совпадают с теоретическими y x, следовательно, связь между исследуемыми признаками линейно-функциональная.

Индекс корреляции пригоден для измерения тесноты связи при любой ее форме. Он, как и эмпирическое корреляционное отношение, измеряет только тесноту связи и не показывает ее направление.

Для измерения тесноты связи и определения ее направления при линейной зависимости используется линейный коэффициент корреляции (r), определяемый по формулам:

Уравнение парной корреляции в общем виде

Уравнение парной корреляции в общем виде

Значение r колеблется в пределах от -1 до +1. Положительное значение r означает прямую связь между признаками, а отрицательное – обратную.

Оценка тесноты связи между признаками проводится по данным таблицы 8.3.

Качественная оценка связи между признаками

Сила связиЗначение r при наличии
прямой связиобратной связи
Слабая0,1-0,3(-0,1)-(-0,3)
Средняя0,3-0,7(-0,3)-(-0,7)
Тесная0,7-0,99(-0,7)-(-0,99)

Проверка надежности (существенности) связи в корреляционно-регрессионном анализе осуществляют при помощи тех же самых критериев и процедур, что и в аналитической группировке.

Фактическое значение F-критерия определяют по формуле:

Уравнение парной корреляции в общем виде

Степени свободы k1 и k2 зависят от числа параметров уравнения регрессии (m) и количества единиц исследуемой совокупности (n) и рассчитываются по формулам:

Надежность связи между признаками, т.е. надежность коэффициента детерминации R 2 проверяют при помощи таблицы по F-критерию для 5%-ного уровня значимости (см. табл. 7.10).

Для установления достоверности рассчитанного линейного коэффициента корреляции используют критерий Стьюдента, рассчитываемый по формуле

Уравнение парной корреляции в общем виде

где μr – средняя ошибка коэффициента корреляции, рассчитываемая по формуле:

Уравнение парной корреляции в общем виде

При достаточно большом числе наблюдений (n > 50) коэффициент корреляции можно считать достоверным, если он превышает свою ошибку в 3 и больше раз, а если он меньше 3, то связь между исследуемыми признаками у и х не доказана.

Пример расчета индекса корреляции (теоретического корреляционного отношения), коэффициента детерминации, линейного коэффициента корреляции и критериев Фишера и Стьюдента

По данным таблицы 8.2 необходимо оценить силу и направление связи между стоимостью основных производственных фондов предприятий и выпуском продукции, а также проверить надежность рассчитанного коэффициента детерминации и достоверность линейного коэффициента корреляции.

Для расчета индекса корреляции, используемого для оценки тесноты связи между результативным (выпуском продукции) и факторным (стоимостью ОПФ) признаками рассчитаем ряд вспомогательных показателей.

По формуле 8.9 по данным таблицы 7.15 факторная дисперсия равна: 1,238.

Общую дисперсию исчислим по данным таблицы 8.2, используя способ разности (формула 5.12): = 1,696 – 1,238 = 0,458.

Таким образом, по формулам 8.7 и 8.8 индекс корреляции равен: R = 0,854, что свидетельствует о тесной связи между выпуском продукции и стоимостью основных производственных фондов предприятий (см. табл. 5.10).

По формуле 8.12 коэффициент детерминации равен: 0,730. Это говорит о том, что в обследуемой совокупности предприятий 73,0% вариации выпуска продукции объясняется разным уровнем их оснащенности основными производственными фондами, т.е. вариация выпуска продукции на 73,0% обусловлена вариацией стоимости основных производственных фондов.

Для расчета линейного коэффициента корреляции, позволяющего оценить не только силу, но и направление связи между исследуемыми признаками, найдем ряд промежуточных показателей.

Преобразовав формулу 5.12 и используя данные таблицы 8.2, получим среднее квадратическое отклонение факторного признака: 2,638и среднее квадратическое отклонение результативного признака 1,302.

Таким образом, по формуле 8.13 (8.14) и данным таблицы 8.2 линейный коэффициент корреляции равен: 0,854, что подтверждает наличие тесной (сильной) прямой связи между стоимостью основных производственных фондов и выпуском продукции предприятий. Абсолютная величина линейного коэффициента корреляции практически совпадает с индексом корреляции (отклонение составляет 0,01).

Для оценки надежности связи между выпуском продукции и стоимостью основных производственных фондов предприятий найдем фактическое значение F-критерия.

Так как линейное уравнение имеет только два параметра, то по формуле 8.16 степень свободы k1 = 2 – 1 = 1, а потому, что обследованием было охвачено 10 предприятий по формуле 8.17 степень свободы k2 = 10 – 2 = 8.

По формуле 8.15 фактическое значение F-критерия равно: 19,68.

По данным таблицы 7.10 с вероятностью 0,95 критическое значение Fт = 5,32, что значительно меньше полученного фактического значения F-критерия. Это подтверждает надежность корреляционной связи между исследуемыми признаками.

Для установления достоверности рассчитанного линейного коэффициента корреляции найдем значение критерия Стьюдента. Для этого по формуле 8.19 исчислим среднюю ошибку коэффициента корреляции: 0,092.

По формуле 8.18 критерий Стьюдента равен: 9,27. Так как 9,27 > 3, то это дает основание считать, что рассчитанный линейный коэффициент корреляции достаточно точно характеризует тесноту связи между исследуемыми признаками.

Видео:Метод наименьших квадратов Построение уравнения парной регрессии #мнк #регрессия #корреляцияСкачать

Метод наименьших квадратов Построение уравнения парной регрессии #мнк #регрессия #корреляция

Множественная регрессия

На практике на результативный признак, как правило, влияет не один, а несколько факторов.

Между факторами существуют сложные взаимосвязи, поэтому их влияние на результативный признак комплексное и его нельзя рассматривать как простую сумму изолированных влияний.

Многофакторный корреляционно-регрессионный анализ позволяет оценить степень влияния на исследуемый результативный показатель каждого из введенных в модель факторов при фиксированных на среднем уровне других факторах. При этом важным условием является отсутствие функциональной связи между факторами.

Математически задача корреляционно-регрессионного анализа сводится к поиску аналитического выражения, которое как можно лучше отражало бы связь факторных признаков с результативным признаком, т.е. к нахождению функции: y x = f(x1,x2,x3. xn).

Множественная регрессия – это уравнение статистической связи результативного признака (зависимой переменной) с несколькими факторами (независимыми переменными).

Наиболее сложной проблемой является выбор формы связи, выражающейся аналитическим уравнением, на основе которого по существующим факторам определяются значения результативного признака – функции. Эта функция должна лучше других отражать реально существующие связи между исследуемым показателем и факторами. Эмпирическое обоснование типа функции при помощи графического анализа связей для многофакторных моделей практически непригодно.

Форму связи можно определить путем перебора функций разных типов, но это связано с большим количеством лишних расчетов. Принимая во внимание, что любую функцию нескольких переменных можно путем логарифмирования или замены переменных привести к линейному виду, уравнение множественной регрессии можно выразить в линейной форме:

Параметры уравнения находят методом наименьших квадратов.

Так, для расчета параметров уравнения линейной двухфакторной регрессии, представленного формулой:

где y x – расчетные значения результативного признака-функции;
х1 и х2 – факторные признаки;
а0, а1 и а2 — параметры уравнения, методом наименьших квадратов необходимо решить систему нормальных уравнений:

Уравнение парной корреляции в общем виде

Каждый коэффициент уравнения (а1, а2, …, аn) показывает степень влияния соответствующего фактора на результативный показатель при фиксированном положении остальных факторов, т.е., как изменится результативный показатель при изменении отдельного факторного показателя на единицу. Свободный член уравнения множественной регрессии экономического содержания не имеет.

Если, подставляя в уравнение регрессии значения х1 и х2, получаем соответствующие значения переменной средней, достаточно близко воссоздающие значения фактических уровней результативного признака, то выбор формы математического выражения корреляционной связи между тремя исследуемыми факторами сделан правильно.

Однако на основе коэффициентов регрессии нельзя судить, какой из факторных признаков больше влияет на результативный признак, поскольку коэффициенты регрессии между собой не сравнимы, ибо не сопоставимы по сути отражаемые ими явления, и они выражены разными единицами измерения.

С целью выявления сравнимой силы влияния отдельных факторов и резервов, заложенных в них, статистика рассчитывает частные коэффициенты эластичности, а также бета-коэффициенты.

Частные коэффициенты эластичности (εi) рассчитываются по формуле:

Уравнение парной корреляции в общем виде

где аi – коэффициент регрессии при i-ом факторе;

x i – среднее значение i-го фактора;

y – среднее значение результативного фактора.

Бета-коэффициенты (βi) рассчитываются по формуле:

Уравнение парной корреляции в общем виде

где σxi – среднее квадратическое отклонение i-го фактора;
σy – среднее квадратическое отклонение результативного признака.

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменится результативный признак при изменении на 1% каждого фактора и при фиксированном положении других факторов.

Для определения факторов, имеющих наибольшие резервы улучшения исследуемого признака, с учетом степени вариации факторов, положенных в уравнение множественной регрессии, рассчитывают частные β-коэффициенты, показывающие на какую часть среднего квадратического отклонения изменяется результативный признак при изменении соответствующего факторного признака на величину его среднего квадратического отклонения.

Для характеристики тесноты связи при множественной линейной корреляции используют множественный коэффициент корреляции (R), рассчитываемый по формуле:

Уравнение парной корреляции в общем виде

где ryx1, ryx2, rx1x2 – парные коэффициенты линейной корреляции, позволяющие оценить влияние каждого фактора отдельно на результативный показатель, и определяемые по формулам:

Уравнение парной корреляции в общем виде

Множественный коэффициент корреляции колеблется в пределах от 0 до + 1 и интерпретируется так же, как и теоретическое корреляционное отношение.

Совокупный коэффициент множественной детерминации показывает, какую часть общей корреляции составляют колебания под влиянием факторов х1, х2, …, хn, положенных в многофакторную модель для исследования.

На основе парных коэффициентов корреляции находятся частные коэффициенты корреляции первого порядка, показывающие связь каждого фактора с исследуемым показателем в условиях комплексного взаимодействия факторов, рассчитываемые по формулам

Уравнение парной корреляции в общем виде

С целью более глубокого анализа взаимосвязи общественных явлений и их признаков увеличивают количество существенных факторов, включаемых в модель исследуемого показателя, и строят многофакторные уравнения регрессии. Их рассчитывают при помощи персональных компьютеров. Современнон программное обеспечение позволяет за относительно короткое время получить достаточно много вариантов уравнений. В ЭВМ вводятся значения зависимой переменной у и матрица независимых переменных х, принимается форма уравнения, например линейная. Ставится задача включить в уравнение k наиболее значимых х. В результате получим уравнение регрессии с k наиболее значимыми факторами. Аналогично можно выбрать наилучшую форму связи. Этот традиционный прием, называемый пошаговой регрессией, позволяет быстро и достаточно точно определиться с уравнением множественной регрессии.

Пример расчета параметров уравнения множественной регрессии, частных коэффициентов эластичности и бета-коэффициентов, множественного коэффициента корреляции и частных коэффициентов корреляции первого порядка

В таблице 8.4 представлены данные о производительности труда (выработке продукции на одного работающего), доле бракованной продукции в общем объеме ее производства и средней себестоимости 1 т продукции по двадцати пяти предприятиям, специализирующимся на выпуске кондитерских изделий (печенья в ассортименте).

Необходимо установить зависимость средней себестоимости 1 т продукции от двух факторов: выработки продукции на одного работающего и доли бракованной продукции в общем объеме ее производства. С целью выявления сравнимой силы влияния этих факторов, а также резервов повышения средней себестоимости 1 т продукции, заложенных в производительности труда и удельном весе брака, нужно рассчитать частные коэффициенты эластичности и бетакоэффициенты. Кроме того, следует оценить силу влияния обозначенных факторов, как по отдельности, так и вместе на заданный результативный признак, определить какую долю вариации средней себестоимости 1 т продукции обусловливают только выработка и только процент брака; охарактеризовать связь каждого фактора с исследуемым показателем в условиях комплексного взаимодействия факторов.

Данные, характеризующие работу предприятий одной отрасли хозяйственной деятельности кондитерских предприятий

№ предприятияВыработка продукции на одного работающего, тУдельный вес брака, %Средняя себестоимость 1 т продукции, руб.
nх1х2у
1234
114,64,22398
213,56,72546
321,65,52620
417,47,72514
544,81,21589
6111,92,21011
720,18,42598
828,11,41864
922,34,22041
1025,30,91986
1156,01,31701
1240,21,81736
1340,63,31974
1475,83,41721
1527,61,12018
1688,40,11300
1716,64,12513
1833,42,31952
1917,09,32820
2033,13,31964
2130,13,51865
2265,21,01752
2322,65,22386
2433,42,32043
2519,72,72050

Для расчета параметров уравнения линейной двухфакторной регрессии и теоретических значений результативного признака (средней себестоимости 1 т продукции) составим вспомогательную таблицу 8.5.

Данные для расчета параметров уравнения линейной двухфакторной регрессии и теоретические значения результативного признака – функции y x

nх1х2уу×х1у×х2х1 2х2 2y 2х1×х2y x
1234567891011
114,64,2239835010,810071,6213,1617,6575040461,322330
213,56,7254634371,017058,2182,2544,9648211690,452559
321,65,5262056592,014410,0466,5630,36864400118,802371
417,47,7251443743,619357,8302,7659,36320196133,982607
544,81,2158971187,21906,82007,041,4252492153,761756
6111,92,21011113130,92224,212521,614,81022121246,181152
720,18,4259852219,821823,2404,0170,66749604168,842640
828,11,4186452378,42609,6789,612,0347449639,341946
922,34,2204145514,38572,2497,2917,6416568193,662250
1025,30,9198650245,81787,4640,090,8394419622,771931
1156,01,3170195256,02211,33136,001,7289340172,801649
1240,21,8173669787,23124,81616,043,2301369672,361856
1340,63,3197480144,46514,21648,3610,93896676133,981983
1475,83,41721130451,85851,45745,6411,62961841257,721629
1527,61,1201855696,82219,8761,761,2407232430,361925
1688,40,11300114920,0130,07814,560,016900008,841211
1716,64,1251341715,810303,3275,5616,8631516968,062300
1833,42,3195265196,84489,61115,565,3381030476,821970
1917,09,3282047940,026226,0289,0086,57952400158,102751
2033,13,3196465008,46481,21095,6110,93857296109,232060
2130,13,5186556136,56527,5906,0112,33478225105,352109
2265,21,01752114230,41752,04251,041,0306950465,201528
2322,65,2238653923,612407,2510,7627,05692996117,522335
2433,42,3204368236,24698,91115,565,3417384976,821970
2519,72,7205040385,05535,0388,097,3420250053,192146
Всего919,387,1509621653422,7198293,248693,93450,31083783162435,4550962

В среднем на 1 предприятие х 36,8 3,5 2038 66136,9 7931,7 1947,76 18,01 4335133 97,42 2038

Подставим данные таблицы 8.5 в систему нормальных уравнений 8.22 и получим систему уравнений:

⌈ 50962 = 25 a0 + 919,3 a1 + 87,1 a2 ;
〈 165322,7 = 919.3 a0 + 48693.93 a1 + 2435,45 a2 ;
⌊ 198293,2 = 87,1 a0 + 2435,45 a1 + 450,3 a2 .

Таким образом, уравнение связи, определяющее зависимость средней себестоимости 1 т продукции предприятий (результативного признака) от производительности труда их работников и удельного веса брака (двух факторных признаков), имеет вид (формула 8.21):

Подставляя в полученное уравнение значения х1 и х2, получаем соответствующие значения переменной средней (последняя графа таблицы 7.18), которые достаточно близко воссоздают значения фактических уровней себестоимости продукции. Это свидетельствует про правильный выбор формы математического выражения корреляционной связи между тремя исследуемыми факторами.

Значения параметров уравнения линейной двухфакторной регрессии показывают, что с увеличением выработки одного работника на 1 т, средняя себестоимость 1 т продукции снижается на 10,31 руб., а при увеличении процента брака на 1, средняя себестоимость 1 т продукции возрастает на 87,40 руб.

Вместе с тем полученные значения коэффициентов регрессии не позволяют сделать вывод о том, какой из двух факторных признаков оказывает большее влияние на результативный признак, поскольку между собой эти факторные признаки несравнимы.

По формуле 8.23 на основании данных таблицы 8.5 и полученных значений коэффициентов регрессии рассчитаем частные коэффициенты эластичности:

Анализ частных коэффициентов эластичности показывает, что в абсолютном выражении наибольшее влияние на среднюю себестоимость 1 т продукции оказывает выработка работников предприятий – фактор х1, с увеличением которой на 1% средняя себестоимость 1 т продукции снижается на 0,19%. При увеличении удельного веса бракованной продукции на 1% средняя себестоимость 1 т продукции повышается на 0,15%.

Для расчета β–коэффициентов необходимо рассчитать соответствующие средние квадратические отклонения.

Преобразовав формулу 5.12 и используя данные таблицы 8.5, получим средние квадратические отклонения факторных признаков, а также среднее квадратическое отклонение результативного признака:

Тогда по формуле 8.24 значения β–коэффициентов равны:

Анализ β-коэффициентов показывает, что на среднюю себестоимость продукции наибольшее влияние (а значит и наибольшие резервы ее снижения) из двух исследуемых факторов с учетом их вариации имеет фактор х1 – выработка работников, ибо ему соответствует большее по модулю значение β-коэффициента.

Для характеристики тесноты связи между себестоимостью 1 т продукции, выработкой работников и удельным весом бракованной продукции используется множественный коэффициент корреляции, для расчета которого предварительно нужно получить парные коэффициенты корреляции.

По формулам 8.26-8.28 на основе данных таблицы 8.5 и значений средних квадратических отклонений факторных и результативного признаков парные коэффициенты корреляции соответственно равны:

Высокие значения парных коэффициентов корреляции свидетельствуют о сильном влиянии (отдельно) выработки работников и уровня брака на среднюю себестоимость 1 т продукции.

Отметим, что отрицательное значение парного коэффициента корреляции между факторными признаками свидетельствует об обратной зависимости между выработкой и количеством бракованной продукции. Тот факт, что парный коэффициент корреляции между выработкой работников и уровнем бракованной продукции равный -0,519, по модулю меньше 0,85 (см. рис. 8.1), говорит о правильном включении этих факторов в одну корреляционную модель.

По формуле 8.25 множественный коэффициент корреляции равен: Ryx1x2 = 0,822. Он показывает, что между двумя факторными и результативным признаками существует тесная связь.

Совокупный коэффициент множественной детерминации (0,676) свидетельствует про то, что вариация средней себестоимости 1 т продукции на 67,6% обусловлена двумя факторами, введенными в корреляционную модель: изменением выработки работников и уровня брака. Это означает, что выбранные факторы существенно влияют на исследуемый показатель.

На основе парных коэффициентов корреляции по формулам 8.29 и 8.30 рассчитаем частные коэффициенты корреляции первого порядка, отражающие связь каждого фактора с исследуемым показателем (средней себестоимостью 1 т продукции) в условиях комплексного взаимодействия факторов: