Как составить уравнение корреляционной зависимости

Содержание
  1. Корреляция — определение и вычисление с примерами решения
  2. Результативный и факториальный признаки
  3. Графическое изображение связи
  4. Функциональные и статистические связи
  5. Уравнение связи
  6. Линейная зависимость
  7. Параболическая зависимость
  8. Уравнение гиперболы
  9. Корреляционная таблица
  10. Множественная связь
  11. Эмпирические меры тесноты связи
  12. Корреляционный анализ в Excel. Пример выполнения корреляционного анализа
  13. Суть корреляционного анализа
  14. Назначение корреляционного анализа
  15. Расчет коэффициента корреляции
  16. Способ 1: определение корреляции через Мастер функций
  17. Способ 2: вычисление корреляции с помощью Пакета анализа
  18. Определение и вычисление множественного коэффициента корреляции в MS Excel
  19. Коэффициент парной корреляции в Excel
  20. Расчет коэффициента парной корреляции в Excel
  21. Матрица парных коэффициентов корреляции в Excel
  22. Функция КОРРЕЛ для определения взаимосвязи и корреляции в Excel
  23. Примеры использования функции КОРРЕЛ в Excel
  24. Определение коэффициента корреляции влияния действий на результат
  25. Анализ популярности контента по корреляции просмотров и репостов видео
  26. Особенности использования функции КОРРЕЛ в Excel
  27. Оценка статистической значимости коэффициента корреляции
  28. Заключение
  29. Корреляции для начинающих
  30. Введение
  31. Исходные данные
  32. Обозначения
  33. Как оценить качество модели?
  34. Простая линейная регрессия
  35. Матлаб
  36. Графичек
  37. Расчет в матричном виде
  38. Мультилинейная регрессия
  39. Попытка номер два
  40. Валидация модели
  41. Применимость
  42. 🎥 Видео

Видео:Математика #1 | Корреляция и регрессияСкачать

Математика #1 | Корреляция и регрессия

Корреляция — определение и вычисление с примерами решения

Содержание:

Понятие о корреляции:

Марксистская философия учит, что каждое явление природы и общества не возникает само по себе, отдельно от других, а находится в связи с другими явлениями, причем каждое из них представляет собой единство составляющих его частей и свойств. Для того чтобы познать какое-либо явление, необходимо изучить его не только во всех сложных взаимоотношениях с окружающими явлениями-факторами, но также во взаимосвязи всех его сторон.

Если всеобщая связь и взаимозависимость явлений составляют один из наиболее общих законов, то основной задачей науки является изучение этой взаимосвязи.

В математической статистике взаимосвязь явлений изучается методом корреляции. Термин корреляция происходит от английского слова correlation — соотношение, соответствие. Особенность изучения связи явлений методом корреляции состоит в том, что нельзя изолировать влияние посторонних факторов либо потому, что эти факторы неизвестны, либо потому, что их изоляция невозможна. Поэтому метод корреляции применяется для того, чтобы при сложном взаимодействии посторонних влияний выяснить, какова была бы зависимость между результатом фактором, если бы посторонние факторы не изменялись и своим изменением не искажали основную зависимость. При этом небольшое число наблюдений не дает возможности обнаружить закономерность связи.

Первая задача корреляции заключается в выявлении на основе наблюдения над большим количеством фактов того, как изменяется в среднем результативный признак в связи с изменением данного фактора. Это изменение предполагает условие неизменности ряда других факторов, хотя искажающее влияние этих других факторов на самом деле имеет место. Вторая задача заключается в определении степени влияния искажающих факторов.

Первая задача решается нахождением уравнения связи.

Вторая задача решается при помощи различных показателей тесноты связи.

Такими показателями являются меры тесноты связи, найденные разными исследователями, а также коэффициент корреляции и корреляционное отношение.

Видео:Как вычислить линейный коэффициент корреляции по таблице? Корреляционное поле и прямая регрессииСкачать

Как вычислить линейный коэффициент корреляции по таблице? Корреляционное поле и прямая регрессии

Результативный и факториальный признаки

При изучении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются два признака — факториальный и результативный. Необходимо установить, какой из признаков является факториальным и какой результативным. В этом помогает прежде всего логический анализ.

Пример. Себестоимость промышленной продукции отдельного предприятия зависит от многих факторов, в том числе от объема продукции на данном предприятии. Себестоимость продукции выступает в этом случае как результативный признак, а объем продукции — как факториальный.

Другой пример. Чтобы судить о преимуществах крупных предприятий перед мелкими, рассмотрим, как увеличивается производительность труда рабочих крупных предприятий, и выявим зависимость производительности труда от увеличения размеров предприятия.

Таблица!

Группировка магазинов Министерства торговли по числу рабочих мест на 1 января 1960 г.1

Группы магазинов по числу рабочих мест Число магазинов Товарооборот в расчете на одного работника за квартал (в тыс. руб.)

Всего 68 375 117

Из них

с числом рабочих мест:

  • с 1 19 893 109
  • с 2 18 030 108
  • с 3—4 16 508 108
  • с 5—7 8 321 111
  • с 8—10 2 868 118
  • с 11 — 15 1 559 122
  • с 16 и более 1 196 139
  • J

Группировка показывает прямую зависимость производительности труда торговых работников, выражающуюся в товарообороте, приходящегося на одного работника, от размера магазина. Признак группировки — число рабочих мест — является факториальным, товарооборот — результативным признаком.

От размеров производства зависит также производительность оборудования, о чем свидетельствует следующая таблица:
Как составить уравнение корреляционной зависимости

Из таблицы ясно видна связь между размерами печей и их производительностью. Эта связь прямая: чем крупнее печь, тем она производительнее.

Однако зависимость результативного признака (суточного съема стали) от факториального носит не обязательный характер. Если в общей массе мы наблюдаем эту связь, то в отдельных группах бывают и отступления от общей закономерности. Такие отступления—характерная особенность статистической связи вообще, о которой будет рассказано ниже.

Группировки позволяют выявить и зависимость нескольких результативных признаков от одного факториального. Рассмотрим табл. 3.

В этой таблице мы видим зависимость двух результативных признаков: товарооборота на одного работника и товарных запасов—от размеров магазинов. Зависимость товарооборота от размеров магазина прямая, а зависимость товарных остатков от размеров магазина — обратная. В первом случае она растет с ростом размеров магазина, во втором уменьшается. Однако то и другое благоприятно.

Графическое изображение связи

Графическое изображение изучаемых явлений позволяет не только установить наличие или отсутствие связи между ними, но и изучить характер этой связи, иначе говоря изучить форму связи и ее тесноту.
Как составить уравнение корреляционной зависимости

Имея перед собой числовые характеристики факториального и результативного признаков одного и того же явления, можно каждую пару чисел изобразить в виде точки на плоскости. Для этого на плоскости берем две взаимно перпендикулярные линии и образуем систему координат. В этой системе по оси абсцисс откладываем значения факториального признака, а по оси ординат— значения результативного признака. Каждая пара чисел дает при этом точку на плоскости координатного поля.

Как составить уравнение корреляционной зависимости

Возьмем, например, группировку магазинов по числу рабочих мест, данную на стр. 239, и будем откладывать число рабочих мест по горизонтальной оси (оси Ох), а товарооборот в расчете на одного работника — по вертикальной оси (оси Оу). Будем иметь ряд точек, соединив которые получим ломаную линию, которая называется ломаной регрессии (см. график 1).

Как видно из графика, с ростом числа рабочих мест в магазине растет и товарооборот, приходящийся на одного работника, что говорит о связи между этими признаками, причем связи прямой. График подчеркивает эту зависимость ходом ломаной линии из нижнего угла в верхний правый угол.

Такого же рода зависимость будем наблюдать на графике 2, изучая связь между величиной мартеновских печей по площади пода и среднесуточным съемом стали с 1 Как составить уравнение корреляционной зависимостипода. Как и в предыдущем примере, факториальный признак — величину площади пода — будем откладывать на оси абсцисс, а результативный — среднесуточный съем стали с 1 Как составить уравнение корреляционной зависимостипода — на оси ординат.

Здесь также ясно выраженная прямая зависимость между результативным и факториальным признаками.
Как составить уравнение корреляционной зависимости
По-другому будет выглядеть график зависимости товарных запасов от размера товарооборота магазина.

Здесь мы наблюдаем ярко выраженную обратную связь между признаками: падение товарных запасов сопровождается ростом размера магазина по товарообороту.
Как составить уравнение корреляционной зависимости

Графический метод наглядно иллюстрирует зависимость, выявленную группировкой. Недостаток графического метода изучения связи заключается в том, что он позволяет выявить связь лишь между двумя признаками.

Функциональные и статистические связи

До сих пор говорилось о связях между явлениями и их признаками без объяснения формы и степени этих связей. В приведенных примерах связи носят логически обоснованный характер, но числовое выражение этих связей говорит о том, что они проявляются не всегда одинаково. В определенных случаях имеются отступления от наблюдаемых общих закономерностей. В приведенной на стр. 240 таблице о среднесуточном съеме стали с 1 Как составить уравнение корреляционной зависимостипода печи наблюдается зависимость съема стали от размера печи по площади пода, но эта зависимость за 1955 г. искажена показателями 5-й группы, где съем стали значительно ниже, чем в 4-й группе. Если бы рассматривалась при этом каждая печь в отдельности, то это несоответствие установленному правилу зависимости проявлялось бы неоднократно. Но средние величины съема стали, вычисленные на основании данных довольно большого числа печей в группе, говорят о явно выраженной зависимости. Связи между явлениями, или их признаками. проявляющиеся в изменении в зависимости от одного признака характеристик распределения (из которых главная — средняя) другого признака, называются связями статистическими.

Статистические связи характеризуются тем, что в них результативный признак не полностью определяется влиянием признака факториального. Это влияние проявляется лишь в среднем, а в отдельных случаях получаются результаты, даже противоречащие установленной связи.

В отличие от статистических связей связи функциональные характеризуются тем, что при таких связях факториальный признак полностью определяет величину результативного признака.

Функциональные связи почти не встречаются в явлениях общественной жизни, отличающихся сложностью и многообразием существующих и проявляющихся взаимосвязей. Но во многих явлениях в основе статистических связей лежат функциональные связи. Связь функциональная может показывать зависимость между результативным признаком и несколькими аргументами. Так, площадь прямоугольника зависит от длины его двух сторон, путь, проходимый телом, зависит от скорости его движения и времени движения и т. д.

Уравнение связи

Наблюдая статистическую связь между двумя признаками, математическая статистика стремится придать этой связи форму функциональной, т. е. связи, выражаемой при помощи математической функции.

На помощь приходит ее графическое изображение при отыскании нужной функции связи. При этом необходимо стремиться найти такую функцию, которая давала бы наименьшее отклонение от полученных при наблюдении значений их признаков, которая выражала бы основную зависимость, проявляющуюся в эмпирическом материале. Уравнение этой функции будет уравнением связи между результативным и факториальным признаками.

Уравнение связи находится с помощью способа наименьших квадратов, который требует, чтобы сумма квадратов отклонений эмпирических значений от значений, получаемых на основании уравнения связи, была минимальной.

Применение способа наименьших квадратов позволяет находить параметры уравнения связи при помощи решения системы так называемых нормальных уравнений, различных для связи каждого вида.

Чтобы отметить, что зависимость между двумя признаками выражается в среднем, значения результативного признака, найденные по уравнению связи, обозначаются Как составить уравнение корреляционной зависимости

Зная уравнение связи, можно вычислить заранее среднее значение результативного признака, когда значение факториального признака известно. Таким образом, уравнение связи является методом обобщения наблюдаемых статистических связей, методом их изучения.

Применение той или иной функции в качестве уравнения связи разграничивает связи по их форме: линейную связь и криволинейную связь (параболическую, гиперболическую и др.).

Рассмотрим уравнения связи для зависимостей от одного признака при разных формах связи (линейной, криволинейной параболической, гиперболической) и для множественной связи.

Линейная зависимость

Уравнение связи как уравнение прямой Как составить уравнение корреляционной зависимостиприменяется в случае равномерного нарастания результативного признака с увеличением признака факториального. Такая зависимость будет зависимостью линейной (прямолинейной).

Параметры уравнения прямой линии Как составить уравнение корреляционной зависимостинаходятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов:

Как составить уравнение корреляционной зависимости

где n — число полученных при наблюдении пар взаимосвязанных величин; Как составить уравнение корреляционной зависимости— сумма значений факториального признака;

Как составить уравнение корреляционной зависимости— сумма квадратов значений факториального признака;

Как составить уравнение корреляционной зависимости— сумма значений результативного признака; Как составить уравнение корреляционной зависимости— сумма произведений значений факториального признака на значения результативного признака.

Примером расчета параметров уравнения и средних значений результативного признака Как составить уравнение корреляционной зависимостиможет служить следующая таблица, являющаяся результатом группировки по факториальному признаку и подсчета средних по результативному признаку.

Группировка предприятий по стоимости основных средств и подсчет сумм необходимы для уравнения связи.

Как составить уравнение корреляционной зависимости

Из таблицы находим: Как составить уравнение корреляционной зависимости132,0. Строим систему двух уравнений с двумя неизвестными:

Как составить уравнение корреляционной зависимости

Поделив каждый член в обоих уравнениях на коэффициенты при Как составить уравнение корреляционной зависимостиполучим:

Как составить уравнение корреляционной зависимости

Вычтем из второго уравнения первое: Как составить уравнение корреляционной зависимостиПодставив значения Как составить уравнение корреляционной зависимостив первое уравнение Как составить уравнение корреляционной зависимостинайдем Как составить уравнение корреляционной зависимости

Уравнение связи примет вид: Как составить уравнение корреляционной зависимостиПодставив в это уравнение соответствующие х, получим значения результативного признака, отражающие среднюю зависимость у от х в виде корреляционной зависимости.
Как составить уравнение корреляционной зависимости

Заметим, что суммы, исчисленные по уравнению и фактические, равны между собой. Изображение фактических и вычисленных значений на графике 4 показывает, что уравнение связи отображает наблюденную зависимость в среднем.

Параболическая зависимость

Параболическая зависимость, выражаемая уравнением параболы 2-го порядка Как составить уравнение корреляционной зависимостиКак составить уравнение корреляционной зависимостиимеет место при ускоренном возрастании или убывании результативного признака в сочетании с равномерным возрастанием факториального признака.

Параметры уравнения параболы Как составить уравнение корреляционной зависимостивычисляются путем решения системы 3 нормальных уравнений:

Как составить уравнение корреляционной зависимости

Возьмем для примера зависимость месячного выпуска продукции (у) от величины стоимости основных средств (х). Оба показателя округлены до миллионов рублей. Расчеты необходимых сумм приведем в таблице 5.

Как составить уравнение корреляционной зависимости

По данным таблицы, составляем систему уравнений:

Как составить уравнение корреляционной зависимости

После деления всех уравнений на коэффициенты при Как составить уравнение корреляционной зависимостиполучим:

Как составить уравнение корреляционной зависимости

Вычтя из второго уравнения первое и из третьего второе, получим два новых уравнения с двумя неизвестными:

Как составить уравнение корреляционной зависимости

Полученные уравнения снова разделим на коэффициенты при Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Следовательно, Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Запишем уравнение параболы, выражающей связь между х и у.

Как составить уравнение корреляционной зависимости

Графическое сопоставление опытных данных и данных расчета (см. график 5) показывает почти полное совпадение хода обеих линий, что говорит о хорошем воспроизведении опытных данных расчетными средними значениями результативного признака.
Как составить уравнение корреляционной зависимости

В практике изучения связи между признаками, кроме параболы 2-го порядка, применяются параболы и более высоких порядков. Чем выше порядок параболы, тем точнее он воспроизводит опытные данные.

Если уравнение связи представляет собой параболу 3-го порядка Как составить уравнение корреляционной зависимостито система нормальных уравнений примет вид:

Как составить уравнение корреляционной зависимости

Имея соответствующие хну, можем составить Дополнительную расчетную таблицу по следующей схеме:
Как составить уравнение корреляционной зависимости

которая используется для нахождения нужных сумм. Решив систему 4 уравнений, найдем параметры Как составить уравнение корреляционной зависимостии, следовательно, уравнение связи.

Уравнение гиперболы

Обратная связь указывает на убывание результативного признака при возрастании факториального. Такова линейная связь при отрицательном значении Как составить уравнение корреляционной зависимостиВ ряде других случаев обратная связь может быть выражена уравнением гиперболы Как составить уравнение корреляционной зависимости

Параметры уравнения гиперболы Как составить уравнение корреляционной зависимостинаходятся из системы нормальных уравнений:

Как составить уравнение корреляционной зависимости

где Как составить уравнение корреляционной зависимости— сумма величин, обратных значениям факториального признака, а Как составить уравнение корреляционной зависимости— сумма их квадратов.

Примером расчета обратной связи по гиперболе может служить следующая таблица:

Как составить уравнение корреляционной зависимости

Составив по данным таблицы систему уравнений и разделив каждый член обоих уравнений на коэффициенты при а, получим:

Как составить уравнение корреляционной зависимости

Находим вычитанием из второго уравнения первого величину Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Подставив вместо Как составить уравнение корреляционной зависимостиего значение, получим Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Запишем уравнение связи в общем виде Как составить уравнение корреляционной зависимостизатем, подставив каждое значение х в уравнение, находим Как составить уравнение корреляционной зависимостипо любой строке таблицы. Строим ломаную по парам х и у и кривую по х и Как составить уравнение корреляционной зависимости. Ломаная и кривая очень близки друг к другу.
Как составить уравнение корреляционной зависимости

Корреляционная таблица

При большом объеме наблюдений, когда число взаимосвязанных пар велико, парные данные легко могут быть расположены в корреляционной таблице, являющейся наиболее удобной формой представления значительного количества пар чисел.

В корреляционной таблице один признак располагается в строках, а другой — в колонка таблицы. Число, расположенное в клетке на пересечении графы и колонки, показывает, как часто встречается данное значение результативного признака в сочетании с данным значением факториального признака.

Для простоты расчета возьмем небольшое число наблюдений на 20 предприятиях за средней месячной выработкой продукции на одного рабочего (тыс. руб. — у) и за стоимостью основных производственных средств (млн. руб. — х).

В обычной парной таблице эти сведения располагаются так:Как составить уравнение корреляционной зависимости

Сведем эти данные в корреляционную таблицу.Как составить уравнение корреляционной зависимости

Итоги строк у показывают частоту признака Как составить уравнение корреляционной зависимостиитоги граф х — частоту признака Как составить уравнение корреляционной зависимостиЧисла, стоящие в клетках корреляционной таблицы, являются частотами, относящимися к обоим признакам и обозначаются Как составить уравнение корреляционной зависимости

Корреляционная таблица даже при поверхностном знакомстве дает общее представление о прямой и обратной связи. Если частоты расположены по диагонали вниз направо, то связь между признаками прямая (при увеличивающихся значениях признака в строках и графах). Если же частоты расположены по диагонали вверх направо, то связь обратная.

Для предварительного суждения о связи по корреляционной таблице можно для каждого столбца рассчитать средние значения Как составить уравнение корреляционной зависимостиТак, в первом столбце х = 9,9, а Как составить уравнение корреляционной зависимостиимеет лишь одно значение, равное 0,8. Найдем среднее значение для второго столбца. Оно будет равно:

Как составить уравнение корреляционной зависимости
Следовательно, при Как составить уравнение корреляционной зависимостиВыпишем все значения х и соответствующие им Как составить уравнение корреляционной зависимостиКак составить уравнение корреляционной зависимости

Зависимость, выраженная в таблице, более ярко и убедительно выступит в «ломаной регрессии», когда каждую пару чисел нанесем на график (см. график 7).

По корреляционной таблице можно вести расчеты параметров уравнения связи, как уравнения прямой, так и уравнений параболы и гиперболы. При этом необходимо учитывать, что сочетание каждой пары значений может встречаться не один, а несколько раз. Сами значения хну необходимо взвешивать, т. е. умножать на соответствующие частоты. Для самого признака х частота будет обозначаться Как составить уравнение корреляционной зависимостидля признака Как составить уравнение корреляционной зависимостиЧастоту сочетаний обозначим Как составить уравнение корреляционной зависимости

Ввиду сказанного мы можем систему нормальных уравнений написать так, чтобы были учтены веса. Тогда для линейной зависимости система нормальных уравнений примет вид:

Как составить уравнение корреляционной зависимости

где N — число произведенных наблюдений (число пар). В приведенной корреляционной таблице N = 20. Как составить уравнение корреляционной зависимостибудет суммой произведений соответствующих х на их частоты. В данной таблице эта сумма составит:

9,9 +10,0 • 4 +10,1 • 4 + 10,2 • 4 +10,3 • 1 +10,4 • 3 +10,5 • 3 = 204.

Как составить уравнение корреляционной зависимости—сумма произведений у на соответствующие частоты. В нашем примере она равна:

Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимостивключает сумму произведений всех х на у и на Как составить уравнение корреляционной зависимостидля тех клеток корреляционной таблицы, в которых записаны частоты. Рассчитаем суммы произведений для 1-й и 2-й строки

  • Для 1 -и строки: Как составить уравнение корреляционной зависимости
  • Для 2-й строки: Как составить уравнение корреляционной зависимости

Нетрудно заметить, что в каждой строке у повторяется столько раз, сколько раз мы его суммируем, а, следовательно, у можно вынести за скобку.

  • Для 1-й строки: 0,8 (9,9 • 1 +10,0 • 2) =23,92.
  • Для 2-й строки: Как составить уравнение корреляционной зависимости

Следовательно, сумма произведений Как составить уравнение корреляционной зависимостиможет быть записана при постоянном у, как Как составить уравнение корреляционной зависимостиЗаметим, что сумма произведений может быть записана и рассчитана как произведение Как составить уравнение корреляционной зависимости

Продолжим расчет для последующих строк.

  • Для 3-й строки Как составить уравнение корреляционной зависимости
  • Для 4-й строки Как составить уравнение корреляционной зависимости
  • Для 5-й строки Как составить уравнение корреляционной зависимости
  • Для 6-й строки Как составить уравнение корреляционной зависимости

Общая сумма по всем строкам Как составить уравнение корреляционной зависимости

Система нормальных уравнений может быть записана по результатам подсчета в таком виде:

Как составить уравнение корреляционной зависимости

Для расчета параметров уравнения линейной связи делим каждое из уравнений на коэффициенты при Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Уравнение связи Как составить уравнение корреляционной зависимостиопределяет среднюю зависимость выработки рабочего от стоимости основных средств. Вычислительная работа облегчается, если в самой корреляционной таблице путем записи дополнительных граф и строк производить нужные подсчеты для решения системы уравнений.

Число наблюдений N может быть подсчитано и по столбцу Как составить уравнение корреляционной зависимостикак его сумма. Она равна итогу по строке Как составить уравнение корреляционной зависимостиДля определения Как составить уравнение корреляционной зависимостинеобходимо ввести новую строку Как составить уравнение корреляционной зависимостиИтог этой строки и дает искомую сумму.

Следующая дополнительная строка Как составить уравнение корреляционной зависимостипредставляет возможность определить Как составить уравнение корреляционной зависимостиДалее, Как составить уравнение корреляционной зависимостии может быть определена на основе расчета двух дополнительных граф:

Как составить уравнение корреляционной зависимости

В корреляционной таблице (см. табл. 8) в последних строках дается расчет Как составить уравнение корреляционной зависимостидля построения ломаной регрессии Как составить уравнение корреляционной зависимости— для построения прямой (см. график 7).
Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Корреляционная таблица позволяет вычислять уравнение связи для любой формы: прямой, параболы, гиперболы и др. Однако в подобной таблице видна зависимость результативного признака лишь от одного факториального.

Зависимость результативного признака от двух или более факториальных признаков носит название множественной связи.

Множественная связь

Исследование зависимости результативного признака от двух или нескольких факториальных признаков возможно при помощи уравнения множественной связи.

В простейшем уравнении множественной связи предполагается, что зависимость между признаками линейная. Сначала рассмотрим линейную зависимость результативного признака (у) от двух факториальных (х, z). Уравнение связи в этом случае выразится формулой Как составить уравнение корреляционной зависимостиПараметры этого уравнения находятся при решении системы нормальных уравнений, получаемых для способа наименьших квадратов

Как составить уравнение корреляционной зависимости

где п — число одновременных наблюдений по трем признакам;

Как составить уравнение корреляционной зависимости—суммы соответствующих значений по этим признакам.

Все расчеты удобно сосредоточить в специальной таблице, как это делается в приводимом ниже примере.

Рассмотрим зависимость средней урожайности ячменя (у) на равных участках от количества внесенных минеральных удобрений (х) и количества выпавших в период цветения осадков (z).Как составить уравнение корреляционной зависимости

Средняя урожайность исчислялась по участкам с равным количеством внесенных удобрений и с равным количеством выпавших осадков.

Пользуясь данными таблицы, составляем систему трех уравнений:

Как составить уравнение корреляционной зависимости

Поделив все члены уравнений на коэффициенты при Как составить уравнение корреляционной зависимостиполучим:

Как составить уравнение корреляционной зависимости

Вычитая из второго уравнения сначала первое, а затем третье, получим 2 уравнения с двумя неизвестными:

Как составить уравнение корреляционной зависимости

Делим каждый член обоих уравнений на коэффициенты при Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Как составить уравнение корреляционной зависимости

Уравнение связи, определяющее зависимость результативного признака (у) от двух факториальных

Как составить уравнение корреляционной зависимости

Вычислив по этому уравнению при соответствующих х и z величины Как составить уравнение корреляционной зависимостизамечаем, что суммы опытных данных (y) и расчетных данных Как составить уравнение корреляционной зависимостисовпадают, а отдельные значения их мало отличаются друг от друга.

Найдем уравнение связи между урожайностью пшеницы на Безенчукской опытной станции и тремя факторами (х, z, v).

Статистические данные, полученные в результате наблюдения, и расчеты представлены в табл. 10, откуда возьмем необходимые данные для составления системы нормальных уравнений:

Как составить уравнение корреляционной зависимости

Следовательно,, корреляционное уравнение будет:

Как составить уравнение корреляционной зависимости

Расширив число факториальных признаков, можно найти уравнение множественной связи для 4, 5, 6 и т. д. признаков. При этом необходимо брать только такие признаки, которые оказывают существенное влияние на величину результативного признака, ибо учет несущественных, второстепенных признаков лишь увеличивает расчетную работу при нахождении уравнения связи, а не приближает к более полному изучению связи.

Если число факториальных признаков возрастает, возрастает и число членов уравнения связи. Так, для трех факториальных признаков линейное уравнение связи будет записано формулой:

Как составить уравнение корреляционной зависимости

где параметры уравнения Как составить уравнение корреляционной зависимостинаходятся путем решения системы четырех нормальных уравнений:

Как составить уравнение корреляционной зависимости
Построив соответствующую таблицу, получим в ней необходимые суммарные данные для приведенной системы уравнений (см. табл. 10).

Мерой существенности влияния того или иного факториального признака на результативный являются показатели тесноты связи.

В настоящем издании мы рассмотрим эмпирические меры тесноты связи, полученные разными исследователями, и меры тесноты связи, основанные на измерении вариации.

Эмпирические меры тесноты связи

Эмпирические меры тесноты связи позволяют оценить степень связи между явлениями или факторами, находящимися в зависимости один от другого. Эмпирические меры получены различными исследователями, занимавшимися статистической обработкой фактического материала. Они получены ранее, чем был открыт метод корреляции. Практическое пользование эмпирическими показателями довольно удобно.

К эмпирическим мерам тесноты относятся:

  • а) коэффициент ассоциации:
  • б) коэффициенты взаимной напряженности;
  • в) коэффициент Фехнера;
  • Г) коэффициент корреляции рангов;

Рассмотрим каждый из них.

а) Коэффициент ассоциации. Коэффициент ассоциации как мера тесноты связи применяется для изучения связи двух качественных признаков, состоящих только из двух групп. Для его вычисления строится четырехклеточная таблица корреляции, которая выражает связь между двумя явлениями, каждое из которых, в свою очередь, должно быть альтернативным, т. е. состоящим только из двух видов, качественно отличных друг от друга. Например, при изучении зависимости урожая от количества внесенных в почву удобрений выделяем по урожайности и по количеству внесенных удобрений лишь по две группы. При этом условии можно построить следующую четырехклеточную таблицу.

Как составить уравнение корреляционной зависимости

Числа, стоящие на пересечении строк и граф — a,b,c,d, показывают, сколько участков встречается с тем и другим количеством удобрений, внесенным в почву, с той и другой урожайностью.

Мера тесноты связи — коэффициент ассоциации — исчисляется по формуле:

Как составить уравнение корреляционной зависимости

Заполнив клетки конкретными числовыми данными, получим следующую четырехклеточную таблицу, где числа, стоящие в клетках, — гектары посевов.

Как составить уравнение корреляционной зависимости

Коэффициент ассоциации равен: Как составить уравнение корреляционной зависимости
что говорит о достаточно тесной прямой связи между урожайностью и степенью удобрения почв.

Коэффициент ассоциации может иметь и отрицательные значения, когда ad

При копировании любых материалов с сайта evkova.org обязательна активная ссылка на сайт www.evkova.org

Сайт создан коллективом преподавателей на некоммерческой основе для дополнительного образования молодежи

Сайт пишется, поддерживается и управляется коллективом преподавателей

Whatsapp и логотип whatsapp являются товарными знаками корпорации WhatsApp LLC.

Cайт носит информационный характер и ни при каких условиях не является публичной офертой, которая определяется положениями статьи 437 Гражданского кодекса РФ. Анна Евкова не оказывает никаких услуг.

Видео:Расчет коэффициента корреляции в ExcelСкачать

Расчет коэффициента корреляции в Excel

Корреляционный анализ в Excel. Пример выполнения корреляционного анализа

Корреляционный анализ – это распространённый метод исследования, применяемый для определения уровня зависимости 1-й величины от 2-й. В табличном процессоре есть особый инструмент, который позволяет реализовать данный тип исследования.

Видео:Коэффициент корреляции Пирсона в ExcelСкачать

Коэффициент корреляции Пирсона в Excel

Суть корреляционного анализа

Он необходим для определения зависимости между двумя разными величинами. Иными словами, происходит выявление того, в какую сторону (меньшую/большую) меняется величина в зависимости от изменений второй.

Видео:ПР Корреляционные зависимости 11 классСкачать

ПР Корреляционные зависимости 11 класс

Назначение корреляционного анализа

Зависимость устанавливается тогда, когда начинается выявление коэффициента корреляции. Этот метод отличается от анализа регрессии, так как здесь только один показатель, рассчитываемый при помощи корреляции. Интервал изменяется от +1 до -1. Если она плюсовая, то повышение первой величины способствует повышению 2-й. Если минусовая, то повышение 1-й величины способствует понижению 2-й. Чем выше коэффициент, тем сильнее одна величина влияет на 2-ю.

Важно! При 0-м коэффициенте зависимости между величинами нет.

Видео:Парная регрессия: линейная зависимостьСкачать

Парная регрессия: линейная зависимость

Расчет коэффициента корреляции

Разберем расчёт на нескольких образцах. К примеру, есть табличные данные, где по месяцам описаны в отдельных столбцах траты на рекламное продвижение и объём продаж. Исходя из таблицы, будем выяснять уровень зависимости объема продаж от денег, затраченных на рекламное продвижение.

Способ 1: определение корреляции через Мастер функций

КОРРЕЛ – функция, позволяющая реализовать корреляционный анализ. Общий вид — КОРРЕЛ(массив1;массив2). Подробная инструкция:

  1. Необходимо произвести выделение ячейки, в которой планируется выводить итог расчета. Нажать «Вставить функцию», находящуюся слева от текстового поля для ввода формулы.

1

  1. Открывается «Мастер функций». Здесь необходимо найти КОРРЕЛ, кликнуть на нее, затем на «ОК».

Как составить уравнение корреляционной зависимости2

  1. Открылось окошко аргументов. В строку «Массив1» необходимо ввести координаты интервалы 1-го из значений. В рассматриваемом примере — это столбец «Величина продаж». Нужно просто произвести выделение всех ячеек, которые находятся в этой колонке. В строку «Массив2» аналогично необходимо добавить координаты второй колонки. В рассматриваемом примере — это столбец «Затраты на рекламу».

Как составить уравнение корреляционной зависимости3

  1. После введения всех диапазонов кликаем на кнопку «ОК».

Коэффициент отобразился в той ячейке, которая была указана в начале наших действий. Полученный результат 0,97. Этот показатель отображает высокую зависимость первой величины от второй.

Как составить уравнение корреляционной зависимости4

Способ 2: вычисление корреляции с помощью Пакета анализа

Существует еще один метод определения корреляции. Здесь используется одна из функций, находящаяся в пакете анализа. Перед ее использованием нужно провести активацию инструмента. Подробная инструкция:

  1. Переходим в раздел «Файл».

Как составить уравнение корреляционной зависимости5

  1. Открылось новое окошко, в котором нужно кликнуть на раздел «Параметры».
  2. Жмём на «Надстройки».
  3. Находим в нижней части элемент «Управление». Здесь необходимо выбрать из контекстного меню «Надстройки Excel» и кликнуть «ОК».

Как составить уравнение корреляционной зависимости6

  1. Открылось специальное окно надстроек. Ставим галочку рядом с элементом «Пакет анализа». Кликаем «ОК».
  2. Активация прошла успешно. Теперь переходим в «Данные». Появился блок «Анализ», в котором необходимо кликнуть «Анализ данных».
  3. В новом появившемся окошке выбираем элемент «Корреляция» и жмем на «ОК».

Как составить уравнение корреляционной зависимости7

  1. На экране появилось окошко настроек анализа. В строчку «Входной интервал» необходимо ввести диапазон абсолютно всех колонок, принимающих участие в анализе. В рассматриваемом примере — это столбики «Величина продаж» и «Затраты на рекламу». В настройках отображения вывода изначально выставлен параметр «Новый рабочий лист», что означает показ результатов на другом листе. По желанию можно поменять локацию вывода результата. После проведения всех настроек нажимаем на «ОК».

Как составить уравнение корреляционной зависимости8

Вывелись итоговые показатели. Результат такой же, как и в первом методе – 0,97.

Видео:Теория вероятностей #19: ковариация, корреляция, зависимость двух случайных величинСкачать

Теория вероятностей #19: ковариация, корреляция, зависимость двух случайных величин

Определение и вычисление множественного коэффициента корреляции в MS Excel

Для выявления уровня зависимости нескольких величин применяются множественные коэффициенты. В дальнейшем итоги сводятся в отдельную табличку, именуемую корреляционной матрицей.

  1. В разделе «Данные» находим уже известный блок «Анализ» и жмем «Анализ данных».

Как составить уравнение корреляционной зависимости9

  1. В отобразившемся окошке жмем на элемент «Корреляция» и кликаем на «ОК».
  2. В строку «Входной интервал» вбиваем интервал по трём или более столбцам исходной таблицы. Диапазон можно ввести вручную или же просто выделить его ЛКМ, и он автоматически отобразится в нужной строчке. В «Группирование» выбираем подходящий способ группировки. В «Параметр вывода» указывает место, в которое будут выведены результаты корреляции. Кликаем «ОК».

Как составить уравнение корреляционной зависимости10

  1. Готово! Построилась матрица корреляции.

Как составить уравнение корреляционной зависимости11

Видео:Расчет корреляционных зависимостей в Microsoft ExcelСкачать

Расчет корреляционных зависимостей в Microsoft Excel

Коэффициент парной корреляции в Excel

Разберем, как правильно проводить коэффициент парной корреляции в табличном процессоре Excel.

Расчет коэффициента парной корреляции в Excel

К примеру, у вас есть значения величин х и у.

Как составить уравнение корреляционной зависимости12

Х – это зависимая переменна, а у – независимая. Необходимо найти направление и силу связи между этими показателями. Пошаговая инструкция:

  1. Выявим средние показатели величин при помощи функции СРЗНАЧ.

Как составить уравнение корреляционной зависимости13

  1. Произведем расчет каждого х и хсредн, у и усредн при помощи оператора «-».

Как составить уравнение корреляционной зависимости14

  1. Производим перемножение вычисленных разностей.

Как составить уравнение корреляционной зависимости15

  1. Вычисляем сумму показателей в этом столбце. Числитель – найденный результат.

Как составить уравнение корреляционной зависимости16

  1. Посчитаем знаменатели разницы х и х-средн, у и у-средн. Для этого произведем возведение в квадрат.

Как составить уравнение корреляционной зависимости17

  1. Используя функцию АВТОСУММА, найдем показатели в полученных столбиках. Производим перемножение. При помощи функции КОРЕНЬ возводим результат в квадрат.

Как составить уравнение корреляционной зависимости18

  1. Производим подсчет частного, используя значения знаменателя и числителя.

Как составить уравнение корреляционной зависимости19 Как составить уравнение корреляционной зависимости20

  1. КОРРЕЛ – интегрированная функция, которая позволяет предотвратить проведение сложнейших расчетов. Заходим в «Мастер функций», выбираем КОРРЕЛ и указываем массивы показателей х и у. Строим график, отображающий полученные значения.

Как составить уравнение корреляционной зависимости21

Матрица парных коэффициентов корреляции в Excel

Разберем, как проводить подсчет коэффициентов парных матриц. К примеру, есть матрица из четырех переменных.

Как составить уравнение корреляционной зависимости22

  1. Заходим в «Анализ данных», находящийся в блоке «Анализ» вкладки «Данные». В отобразившемся списке выбираем «Корелляция».
  2. Выставляем все необходимые настройки. «Входной интервал» – интервал всех четырех колонок. «Выходной интервал» – место, в котором желаем отобразить итоги. Кликаем на кнопку «ОК».
  3. В выбранном месте построилась матрица корреляции. Каждое пересечение строки и столбца – коэффициенты корреляции. Цифра 1 отображается при совпадающих координатах.

Как составить уравнение корреляционной зависимости23

Видео:Корреляционно-регрессионный анализ многомерных данных в ExcelСкачать

Корреляционно-регрессионный анализ многомерных данных в Excel

Функция КОРРЕЛ для определения взаимосвязи и корреляции в Excel

КОРРЕЛ – функция, применяемая для подсчета коэффициента корреляции между 2-мя массивами. Разберем на четырех примерах все способности этой функции.

Примеры использования функции КОРРЕЛ в Excel

Первый пример. Есть табличка, в которой расписана информация об усредненных показателях заработной платы работников компании на протяжении одиннадцати лет и курсе $. Необходимо выявить связь между этими 2-умя величинами. Табличка выглядит следующим образом:

Как составить уравнение корреляционной зависимости24

Алгоритм расчёта выглядит следующим образом:

Как составить уравнение корреляционной зависимости25

Отображенный показатель близок к 1. Результат:

Как составить уравнение корреляционной зависимости26

Определение коэффициента корреляции влияния действий на результат

Второй пример. Два претендента обратились за помощью к двум разным агентствам для реализации рекламного продвижения длительностью в пятнадцать суток. Каждые сутки проводился социальный опрос, определяющий степень поддержки каждого претендента. Любой опрошенный мог выбрать одного из двух претендентов или же выступить против всех. Необходимо определить, как сильно повлияло каждое рекламное продвижение на степень поддержки претендентов, какая компания эффективней.

Как составить уравнение корреляционной зависимости27

Используя нижеприведенные формулы, рассчитаем коэффициент корреляции:

Как составить уравнение корреляционной зависимости28

Из полученных результатов становится понятно, что степень поддержки 1-го претендента повышалась с каждыми сутками проведения рекламного продвижения, следовательно, коэффициент корреляции приближается к 1. При запуске рекламы другой претендент обладал большим числом доверия, и на протяжении 5 дней была положительная динамика. Потом степень доверия понизилась и к пятнадцатым суткам опустилась ниже изначальных показателей. Низкие показатели говорят о том, что рекламное продвижение отрицательно повлияло на поддержку. Не стоит забывать, что на показатели могли повлиять и остальные сопутствующие факторы, не рассматриваемые в табличной форме.

Анализ популярности контента по корреляции просмотров и репостов видео

Третий пример. Человек для продвижения собственных роликов на видеохостинге Ютуб применяет соцсети для рекламирования канала. Он замечает, что существует некая взаимосвязь между числом репостов в соцсетях и количеством просмотров на канале. Можно ли про помощи инструментов табличного процессора произвести прогноз будущих показателей? Необходимо выявить резонность применения уравнения линейной регрессии для прогнозирования числа просмотров видеозаписей в зависимости от количества репостов. Табличка со значениями:

Как составить уравнение корреляционной зависимости29

Теперь необходимо провести определение наличия связи между 2-мя показателями по нижеприведенной формуле:

0,7;ЕСЛИ(КОРРЕЛ(A3:A8;B3:B8)>0,7;»Сильная прямая зависимость»;»Сильная обратная зависимость»);»Слабая зависимость или ее отсутствие»)’ >

Если полученный коэффициент выше 0,7, то целесообразней применять функцию линейной регрессии. В рассматриваемом примере делаем:

Как составить уравнение корреляционной зависимости30

Теперь производим построение графика:

Как составить уравнение корреляционной зависимости31

Применяем это уравнение, чтобы определить число просматриваний при 200, 500 и 1000 репостов: =9,2937*D4-206,12. Получаем следующие результаты:

Как составить уравнение корреляционной зависимости32

Функция ПРЕДСКАЗ позволяет определить число просмотров в моменте, если было проведено, к примеру, двести пятьдесят репостов. Применяем: 0,7;ПРЕДСКАЗ(D7;B3:B8;A3:A8);»Величины не взаимосвязаны»)’ >. Получаем следующие результаты:

Как составить уравнение корреляционной зависимости33

Особенности использования функции КОРРЕЛ в Excel

Данная функция имеет нижеприведенные особенности:

  1. Не учитываются ячейки пустого типа.
  2. Не учитываются ячейки, в которых находится информация типа Boolean и Text.
  3. Двойное отрицание «—» применяется для учёта логических величин в виде чисел.
  4. Количество ячеек в исследуемых массивах обязаны совпадать, иначе будет выведено сообщение #Н/Д.

Видео:КОРРЕЛЯЦИЯ Спирмена Пирсона Кенделла | АНАЛИЗ ДАННЫХ #12Скачать

КОРРЕЛЯЦИЯ Спирмена Пирсона Кенделла | АНАЛИЗ ДАННЫХ #12

Оценка статистической значимости коэффициента корреляции

При проверке значимости корреляционного коэффициента нулевая гипотеза состоит в том, что показатель имеет значение 0, а альтернативная не имеет. Для проверки применяется нижеприведенная формула:

Как составить уравнение корреляционной зависимости34

Видео:Как вычислить линейный коэффициент корреляции в MS Excel и построить уравнение регрессии?Скачать

Как вычислить линейный коэффициент корреляции в MS Excel  и построить уравнение регрессии?

Заключение

Корреляционный анализ в табличном процессоре – это простой и автоматизированный процесс. Для его выполнения необходимо знать всего лишь, где находятся нужные инструменты и как их активировать через настройки программы.

Видео:Расчет корреляционных зависимостей в Microsoft ExcelСкачать

Расчет корреляционных зависимостей в Microsoft Excel

Корреляции для начинающих

Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!

Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо, впрочем как и автор. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности
Как составить уравнение корреляционной зависимости

Введение

Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.

Исходные данные

В качестве объекта исследования возьму данные о параметрах фигуры девушек месяца Плейбоя.
special_multimedia/2009/st_infoporn_1702, слегка облагородил и перевел из дюймов в сантиметры. Вспоминается анекдот про то, что 34 дюйма — это как два семнадцатидюймовых монитора. Также отделил записи с неполной информацией. При работе с реальными объектами их можно использовать, но сейчас они нам только мешают. Зато их можно использовать для проверки адекватности полученных результатов. Все данные у нас непрерывные, то есть грубо говоря типа float. Они приведены к целым числам только чтобы не загромождать экран. Есть способы работы и с дискретными данными — в нашем примере это например может быть цвет кожи или национальность, которые принимают одно из фиксированного набора значений. Это больше имеет отношение к методам классификации и принятия решений, что тянет еще на один мануал. Data.xls В файле два листа. На первом собственно данные, на втором — отсеянные неполные данные и набор для проверки нашей модели.

Обозначения

W — вес реальный
W_p — вес, предсказанный нашей моделью
S — бюст
T — талия
B — бедра
L — рост
E — ошибка модели

Как оценить качество модели?

Задача нашего упражнения — получить некую модель, которая описывает какой-либо объект. Способ получения и принцип работы конкретной модели нас пока не волнует. Это просто функция f(S, T, B, L), которая выдает вес девушки. Как понять, какая функция хорошая и качественная, а какая не очень? Для этого используется так называемая fitness function. Самая классическая и часто используемая — это сумма квадратов разницы предсказанного и реального значения. В нашем случае это будет сумма (W_p — W)^2 для всех точек. Собственно, отсюда и пошло название «метод наименьших квадратов». Критерий не лучший и не единственный, но вполне приемлемый как метод по умолчанию. Его особенность в том, что он чувствителен по отношению к выбросам и тем самым, считает такие модели менее качественными. Есть еще всякие методы наименьших модулей итд, но сейчас нам это пока не надо.

Простая линейная регрессия

Самый простой случай. У нас одна переменная-предиктор и одна зависимая переменная. В нашем случае это может быть например рост и вес. Нам надо построить уравнение W_p = a*L+b, т.е. найти коэффициенты a и b. Если мы проведем этот расчет для каждого образца, то W_p будет максимально совпадать с W для того же образца. То есть у нас для каждой девушки будет такое уравнение:
W_p_i = a*L_i+b
E_i = (W_p-W)^2

Общая ошибка в таком случае составит sum(E_i). В результате, для оптимальных значений a и b sum(E_i) будет минимальным. Как же найти уравнение?

Матлаб

Для упрощения очень рекомендую поставить плагин для Excel под названием Exlink. Он в папке matlab/toolbox/exlink. Очень облегчает пересылку данных между программами. После установки плагина появляется еще одно меню с очевидным названием, и автоматически запускается Матлаб. Переброс информации из Экселя в Матлаб запускается командой «Send data to MATLAB», обратно, соответственно, — «Get data from MATLAB». Пересылаем в Матлаб числа из столбца L и отдельно из W, без заголовков. Переменные назовем так же. Функция расчета линейной регрессии — polyfit(x,y,1). Единица показывает степень аппроксимационного полинома. У нас он линейный, поэтому единица. Получаем наконец-то коэффициенты регрессии: regr=polyfit(L,W,1) . a мы можем получить как regr(1), b — как regr(2). То есть мы можем получить наши значения W_p: W_p=L*repr(1)+repr(2) . Вернем их назад в Эксель.

Графичек

Как составить уравнение корреляционной зависимости
Мда, негусто. Это график W_p(W). Формула на графике показывает связь W_p и W. В идеале там будет W_p = W*1 + 0. Вылезла дискретизация исходных данных — облако точек клетчатое. Коэффициент корреляции ни в дугу — данные слабо коррелированы между собой, т.е. наша модель плохо описывает связь веса и роста. По графику это видно как точки, расположенные в форме слабо вытянутого вдоль прямой облака. Хорошая модель даст облако растянутое в узкую полосу, еще более плохая — просто хаотичный набор точек или круглое облако. Модель необходимо дополнить. Про коэффициент корреляции стоит рассказать отдельно, потому что его часто используют абсолютно неправильно.

Расчет в матричном виде

Можно и без всяких полифитов справиться с построением регрессии, если слегка дополнить столбец с величинами роста еще одним столбцом, заполненным единицами: L(:,2)=1 . Двойка показывает номер столбца, в который пишутся единицы. Тогда коэффициенты регрессии можно будет найти по такой формуле: repr=inv(L’*L)*L’*W . И обратно, найти W_p: W_p=L*repr . Когда осознаешь магию матриц, пользоваться функциями становится неприкольно. Единичный столбец нужен для расчета свободного члена регрессии, то есть просто слагаемого без умножения на параметр. Если его не добавлять, то в регрессии будет всего один член: W_p=a*L. Достаточно очевидно, что она будет хуже по качеству, чем регрессия с двумя слагаемыми. В целом, избавляться от свободного члена надо только в том случае, если он точно не нужен. По умолчанию он все-таки присутствует.

Мультилинейная регрессия

В русскоязычной литературе прошлых лет упоминается как ММНК — метод множественных наименьших квадратов. Это расширение метода наименьших квадратов для нескольких предикторов. То есть у нас в дело идет не только рост, но и все остальные, так сказать, горизонтальные размеры. Подготовка данных точно такая же: обе матрицы в матлаб, добавление столбца единиц, расчет по той же самой формуле. Для любителей функций есть b = regress(y,X) . Эта функция также требует добавления столбца единиц. Повторяем расчет по формуле из раздела про матрицы, пересылаем в Эксель, смотрим.

Попытка номер два

Как составить уравнение корреляционной зависимости
А так получше, но все равно не очень. Как видим, клетчатость осталась только по горизонтали. Никуда не денешься, исходные веса были целыми числами в фунтах. То есть после конверсии в килограммы они ложатся на сетку с шагом около 0.5. Итого финальный вид нашей модели:

W_p = 0.2271*S + 0.1851*T + 0.3125*B + 0.3949*L — 72.9132

Объемы в сантиметрах, вес в кг. Поскольку у нас все величины кроме роста в одних единицах измерения и примерно одного порядка по величине (кроме талии), то мы можем оценить их вклады в общий вес. Рассуждения примерно в таком духе: коэффициент при талии самый маленький, равно как и сами величины в сантиметрах. Значит, вклад этого параметра в вес минимален. У бюста и особенно у бедер он больше, т.е. сантиметр на талии дает меньшую прибавку к массе, чем на груди. А больше всего на вес влияет объем задницы. Впрочем, это знает любой интересующийся вопросом мужчина. То есть как минимум, наша модель реальной жизни не противоречит.

Валидация модели

Название громкое, но попробуем получить хотя бы ориентировочные веса тех девушек, для которых есть полный набор размеров, но нет веса. Их 7: с мая по июнь 1956 года, июль 1957, март 1987, август 1988. Находим предсказанные по модели веса: W_p=X*repr
Как составить уравнение корреляционной зависимости
Что ж, по крайней мере в текстовом виде выглядит правдоподобно. А насколько это соответствует реальности — решать вам

Применимость

Если вкратце — полученная модель годится для объектов, подобных нашему набору данных. То есть по полученным корреляциям не стоит считать параметры фигур женщин с весом 80+, возрастом, сильно отличающимся от среднего по больнице итд. В реальных применениях можно считать, что модель пригодна, если параметры изучаемого объекта не слишком отличаются от средних значений этих же параметров для исходного набора данных. Могут возникнуть (и возникнут) проблемы, если у нас предикторы сильно коррелированы между собой. То есть, например это рост и длина ног. Тогда коэффициенты для соответствующих величин в уравнении регрессии будут определены с малой точностью. В таком случае надо выбросить один из параметров, или воспользоваться методом главных компонент для снижения количества предикторов. Если у нас малая выборка и/или много предикторов, то мы рискуем попасть в переопределенность модели. То есть если мы возьмем 604 параметра для нашей выборки (а в таблице всего 604 девушки), то сможем аналитически получить уравнение с 604+1 слагаемым, которое абсолютно точно опишет то, что мы в него забросили. Но предсказательная сила у него будет весьма невелика. Наконец, далеко не все объекты можно описать мультилинейной зависимостью. Бывают и логарифмические, и степенные, и всякие сложные. Их поиск — это уже совсем другой вопрос.

🎥 Видео

Как быстро построить многофакторную корреляционную зависимость в ExcelСкачать

Как быстро построить многофакторную корреляционную зависимость в Excel

Множественная регрессия в ExcelСкачать

Множественная регрессия в Excel

Корреляция в ExcelСкачать

Корреляция в Excel

Корреляция: коэффициенты Пирсона и Спирмена, линейная регрессияСкачать

Корреляция: коэффициенты Пирсона и Спирмена, линейная регрессия

Корреляционно-регрессионный анализ. Функциональная и корреляционная связиСкачать

Корреляционно-регрессионный анализ. Функциональная и корреляционная связи

Корреляционная зависимостьСкачать

Корреляционная зависимость

Коэффициент корреляции ПирсонаСкачать

Коэффициент корреляции Пирсона

02-03 Корреляции в pythonСкачать

02-03 Корреляции в python
Поделиться или сохранить к себе: