Число степеней свободы уравнения регрессии

Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать

Эконометрика. Оценка значимости уравнения регрессии. Критерий Фишера

Степени свободы (Degrees of Freedom)

Число степеней свободы уравнения регрессии

Степени свободы (Df, C) – это количество параметров (точек контроля) Модели (Model). Они указывают количество независимых значений, которые могут изменяться в ходе анализа без нарушения каких-либо ограничений.

  • Рассмотрим Выборку (Sample) данных, состоящую для простоты из пяти положительных целых чисел. Значения могут быть любыми числами без известной связи между ними. Эта выборка данных теоретически должна иметь пять степеней свободы.
  • Четыре числа в выборке — это , а среднее значение всей выборки данных равно 6.
  • Это должно означать, что пятое число равно 10. Иначе быть не может. У пятого значения нет свободы варьироваться.
  • Таким образом, степень свободы для этой выборки данных равна 4.

Формула степени свободы выглядит следующим образом:

D_f – степень свободы

N – количество значений

Математически степени свободы часто представляют, используя греческую букву «ню», которая выглядит так: ν. Вы наверняка встретите и такие сокращения: ‘d.o.f.’, ‘dof’, ‘d.f.’ или просто ‘df’.

Видео:число степеней свободыСкачать

число степеней свободы

Степени свободы в статистике

Степени свободы в статистике – это количество значений, используемых при вычислении переменной.

Степени свободы = Количество независимых значений — Количество статистик

Пример. У нас есть 50 независимых значений, и мы хотим вычислить одну-единственную статистику «среднее». Согласно формуле, степеней свободы будет 50 — 1 = 49.

Видео:Как расчитать степени свободыСкачать

Как расчитать степени свободы

Степени свободы в Машинном обучении

В прогностическом моделировании, степени свободы часто относятся к количеству параметров, включая данные, используемые при вычислении ошибки модели. Наилучший способ понять это – рассмотреть модель линейной регрессии.

Рассмотрим модель линейной регрессии для Датасета (Dataset) с двумя входными переменными. Нам потребуется один коэффициент в модели для каждой входной переменной, то есть модель будет иметь еще и два параметра.

$$hat = x_1 * β_1 + x_2 * β_2$$

y – целевая переменная
x_1, x_2 – входные переменные
β_1, β_2 – параметры модели

Эта модель линейной регрессии имеет две степени свободы, потому что есть два параметра модели, которые должны быть оценены на основе обучающего датасета. Добавление еще одного столбца к данным (еще одной входной переменной) добавит модели еще одну степень свободы. Сложность обучения модели линейной регрессии описывается степенью свободы, например, «модель четвертой степени сложности» означает наличие четырех входных переменных, а также степень свободы, равную четырем.

Видео:Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать

Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.

Степени свободы для ошибки линейной регрессии

Количество обучающих примеров имеет значение и влияет на количество степеней свободы регрессионной модели. Представьте, что мы создаем модель линейной регрессии на базе датасета, состоящего из ста строк.

Сравнивая предсказания модели с реальными выходными значениями, мы минимизируем ошибку. Итоговая ошибка модели имеет одну степень свободы для каждого ряда за вычетом количества параметров. В нашем случае ошибка модели 98 степеней свободы (100 рядов — 2 параметра).

Видео:Эконометрика. Линейная парная регрессияСкачать

Эконометрика. Линейная парная регрессия

Итоговые степени свободы для линейной регрессии

Конечные степени свободы для модели линейной регрессии рассчитываются как сумма степеней свободы модели плюс степени свободы ошибки модели. В нашем примере это 100 (2 степени свободы модели + 98 степеней свободы ошибки). Как вы уже заметили, степеней свободы столько, сколько рядов в датасете.

Теперь рассмотрим набор данных из 100 строк, но теперь у нас есть 70 входных переменных. Это означает, что модель имеет еще и 70 коэффициентов, что дает нам d.o.f. ошибки, равной 30 (100 строк — 70 коэффициентов). d.o.f. самой модели по-прежнему равен ста.

Видео:Система с двумя степенями свободыСкачать

Система с двумя  степенями свободы

Отрицательные степени свободы

Что происходит, когда у нас больше столбцов, чем строк данных? Отрицательные значения вполне допустимы здесь. Например, у нас может быть 100 строк данных и 10 000 переменных, к примеру, маркеры генов для 100 пациентов. Следовательно, модель линейной регрессии будет иметь 10 000 параметров, то есть модель будет иметь 10 000 степеней свободы.

Тогда степени свободы рассчитываются следующим образом:

Степень свободы модели = Количество независимых значение — Количество параметров = 100 — 10 000 = -9 900

В свою очередь, степени свободы модели линейной регрессии будут следующими:

Степени свободы модели линейной регрессии = Степени свободы модели — Степени свободы ошибки модели = 10 000 — 9 900 = 100

Видео:Пример проверки гипотезы о незначимости регрессииСкачать

Пример проверки гипотезы о незначимости регрессии

F-тест качества спецификации множественной регрессионной модели

Цель этой статьи — рассказать о роли степеней свободы в статистическом анализе, вывести формулу F-теста для отбора модели при множественной регрессии.

Видео:Степени свободы в статистике для дурачковСкачать

Степени свободы в статистике для дурачков

1. Роль степеней свободы (degree of freedom) в статистике

Имея выборочную совокупность, мы можем лишь оценивать числовые характеристики совокупности, параметры выбранной модели. Так не имеет смысла говорить о среднеквадратическом отклонении при наличии лишь одного наблюдения. Представим линейную регрессионную модель в виде:

Число степеней свободы уравнения регрессии

Сколько нужно наблюдений, чтобы построить линейную регрессионную модель? В случае двух наблюдений можем получить идеальную модель (рис.1), однако есть в этом недостаток. Причина в том, что сумма квадратов ошибки (MSE) равна нулю и не можем оценить оценить неопределенность коэффициентов Число степеней свободы уравнения регрессии. Например не можем построить доверительный интервал для коэффициента наклона по формуле:

Число степеней свободы уравнения регрессии

А значит не можем сказать ничего о целесообразности использования коэффициента Число степеней свободы уравнения регрессиив данной регрессионной модели. Необходимо по крайней мере 3 точки. А что же, если все три точки могут поместиться на одну линию? Такое может быть. Но при большом количестве наблюдений маловероятна идеальная линейная зависимость между зависимой и независимыми переменными (рис. 1).

Число степеней свободы уравнения регрессииРисунок 1 — простая линейная регрессия

Количество степеней свободы — количество значений, используемых при расчете статистической характеристики, которые могут свободно изменяться. С помощью количества степеней свободы оцениваются коэффициенты модели и стандартные ошибки. Так, если имеется n наблюдений и нужно вычислить дисперсию выборки, то имеем n-1 степеней свободы.

Число степеней свободы уравнения регрессии

Мы не знаем среднее генеральной совокупности, поэтому оцениваем его средним значением по выборке. Это стоит нам одну степень свободы.

Представим теперь что имеется 4 выборочных совокупностей (рис.3).

Число степеней свободы уравнения регрессииРисунок 3

Каждая выборочная совокупность имеет свое среднее значение, определяемое по формуле Число степеней свободы уравнения регрессии. И каждое выборочное среднее может быть оценено Число степеней свободы уравнения регрессии. Для оценки мы используем 2 параметра Число степеней свободы уравнения регрессии, а значит теряем 2 степени свободы (нужно знать 2 точки). То есть количество степеней свобод Число степеней свободы уравнения регрессииЗаметим, что при 2 наблюдениях получаем 0 степеней свободы, а значит не можем оценить коэффициенты модели и стандартные ошибки.

Таким образом сумма квадратов ошибок имеет (SSE, SSE — standard error of estimate) вид:

Число степеней свободы уравнения регрессии

Стоит упомянуть, что в знаменателе стоит n-2, а не n-1 в связи с тем, что среднее значение оценивается по формуле Число степеней свободы уравнения регрессии. Квадратные корень формулы (4) — ошибка стандартного отклонения.

В общем случае количество степеней свободы для линейной регрессии рассчитывается по формуле:

Число степеней свободы уравнения регрессии

где n — число наблюдений, k — число независимых переменных.

Видео:Кинематический анализ. Степень статической неопределимости. Метод силСкачать

Кинематический анализ. Степень статической неопределимости. Метод сил

2. Анализ дисперсии, F-тест

При выполнении основных предположений линейной регрессии имеет место формула:

Число степеней свободы уравнения регрессии

где Число степеней свободы уравнения регрессии,

Число степеней свободы уравнения регрессии,

Число степеней свободы уравнения регрессии

В случае, если имеем модель по формуле (1), то из предыдущего раздела знаем, что количество степеней свободы у SSTO равно n-1. Количество степеней свободы у SSE равно n-2. Таким образом количество степеней свободы у SSR равно 1. Только в таком случае получаем равенство Число степеней свободы уравнения регрессии.

Масштабируем SSE и SSR с учетом их степеней свободы:

Число степеней свободы уравнения регрессииЧисло степеней свободы уравнения регрессии

Получены хи-квадрат распределения. F-статистика вычисляется по формуле:

Число степеней свободы уравнения регрессии

Формула (9) используется при проверке нулевой гипотезы Число степеней свободы уравнения регрессиипри альтернативной гипотезе Число степеней свободы уравнения регрессиив случае линейной регрессионной модели вида (1).

Видео:2.7. Распределение Хи квадрат, Стьюдента, Фишера .Скачать

2.7. Распределение Хи квадрат, Стьюдента, Фишера .

3. Выбор линейной регрессионной модели

Известно, что с увеличением количества предикторов (независимых переменных в регрессионной модели) исправленный коэффициент детерминации увеличивается. Однако с ростом количества используемых предикторов растет стоимость модели (под стоимостью подразумевается количество данных которые нужно собрать). Однако возникает вопрос: “Какие предикторы разумно использовать в регрессионной модели?”. Критерий Фишера или по-другому F-тест позволяет ответить на данный вопрос.

Определим “полную” модель: Число степеней свободы уравнения регрессии(10)

Определим “укороченную” модель: Число степеней свободы уравнения регрессии(11)

Вычисляем сумму квадратов ошибок для каждой модели:

Число степеней свободы уравнения регрессии(12)

Число степеней свободы уравнения регрессии(13)

Определяем количество степеней свобод Число степеней свободы уравнения регрессии

Число степеней свободы уравнения регрессии(14)

Нулевая гипотеза — “укороченная” модель мало отличается от “полной (удлиненной) модели”. Поэтому выбираем “укороченную” модель. Альтернативная гипотеза — “полная (удлиненная)” модель объясняет значимо большую долю дисперсии в данных по сравнению с “укороченной” моделью.

Коэффициент детерминации из формулы (6):

Число степеней свободы уравнения регрессии

Из формулы (15) выразим SSE(F):

Число степеней свободы уравнения регрессии

SSTO одинаково как для “укороченной”, так и для “длинной” модели. Тогда (14) примет вид:

Число степеней свободы уравнения регрессии

Поделим числитель и знаменатель (14a) на SSTO, после чего прибавим и вычтем единицу в числителе.

Число степеней свободы уравнения регрессии

Используя формулу (15) в конечном счете получим F-статистику, выраженную через коэффициенты детерминации.

Число степеней свободы уравнения регрессии

Видео:Степени свободы #степенисвободы #проСвет #Весталия #школаСорадениеСкачать

Степени свободы #степенисвободы #проСвет #Весталия #школаСорадение

3 Проверка значимости линейной регрессии

Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. Рассмотрим ситуацию. У линейной регрессионной модели всего k параметров (Сейчас среди этих k параметров также учитываем Число степеней свободы уравнения регрессии).Рассмотрим нулевую гипотеза — об одновременном равенстве нулю всех коэффициентов при предикторах регрессионной модели (то есть всего ограничений k-1). Тогда “короткая модель” имеет вид Число степеней свободы уравнения регрессии. СледовательноЧисло степеней свободы уравнения регрессии. Используя формулу (14.в), получим

Число степеней свободы уравнения регрессии

Видео:Эконометрика. Нелинейная регрессия. Гипербола.Скачать

Эконометрика. Нелинейная регрессия. Гипербола.

Заключение

Показан смысл числа степеней свободы в статистическом анализе. Выведена формула F-теста в простом случае(9). Представлены шаги выбора лучшей модели. Выведена формула F-критерия Фишера и его запись через коэффициенты детерминации.

Можно посчитать F-статистику самому, а можно передать две обученные модели функции aov, реализующей ANOVA в RStudio. Для автоматического отбора лучшего набора предикторов удобна функция step.

Надеюсь вам было интересно, спасибо за внимание.

При выводе формул очень помогли некоторые главы из курса по статистике STAT 501

Видео:Теория вероятностей #17: критерий хи квадрат (Пирсона)Скачать

Теория вероятностей #17: критерий хи квадрат (Пирсона)

7.1 Дисперсионный анализ

Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Сущность дисперсионного анализа заключается в расчлене­нии общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и про­верке гипотез о значимости влияния этих факторов на исследуе­мый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловле­на действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых фак­торов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты экспери­мента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. (Суходольский Г.В., 1972; Шеффе Г., 1980).

Видео:Эконометрика. Множественная регрессия и корреляция.Скачать

Эконометрика. Множественная регрессия и корреляция.

7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок

Изучается действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности. [1]

В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех.

Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью — 1 слово в 2 секунды, и третьей группе с большой скоростью — 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в табл. 1.

Таблица 1. Количество воспроизведенных слов (по J . Greene , M D ‘ Olivera , 1989, p . 99)

Группа 1 низкая скорость

Группа 2 средняя скорость

Группа 3 высокая скорость

Дисперсионный однофакторный анализ позволяет проверить гипотезы:

H 0 : различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы

H 1 : Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок:

1. подсчитаем SS факт — вариативность признака, обусловленную действи­ем исследуемого фактора. Часто встречающееся обозначе­ние SS — сокращение от «суммы квадратов» ( sum of squares ). Это со­кращение чаще всего используется в переводных источниках (см., на­пример: Гласс Дж., Стенли Дж., 1976).

Число степеней свободы уравнения регрессии, (1)

где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1);

с – количество условий (градаций) фактора (=3);

n – количество испытуемых в каждой группе (=6);

N – общее количество индивидуальных значений (=18);

Число степеней свободы уравнения регрессии— квадрат общей суммы индивидуальных значений (=104 2 =10816)

Отметим разницу между Число степеней свободы уравнения регрессии, в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и Число степеней свободы уравнения регрессии, где индивидуальные значения сначала суммируются для получения об­щей суммы, а потом уже эта сумма возводится в квадрат.

По формуле (1) рассчитав фактическую вариативность признака, получаем:

Число степеней свободы уравнения регрессии

2. подсчитаем SS общ – общую вариативность признака:

Число степеней свободы уравнения регрессии(2)

3. подсчитаем случайную (остаточную) величину SS сл , обусловленную неучтенными факторами:

Число степеней свободы уравнения регрессии(3)

4. число степеней свободы равно:

Число степеней свободы уравнения регрессии=3-1=2 (4)

Число степеней свободы уравнения регрессии Число степеней свободы уравнения регрессии

5. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна:

Число степеней свободы уравнения регрессии(5)

Число степеней свободы уравнения регрессии

6. значение статистики критерия F эмп рассчитаем по формуле:

Число степеней свободы уравнения регрессии(6)

Для нашего примера имеем: F эмп=15,72/2,11=7,45

7. определим F крит по статистическим таблицам Приложения 3 для df 1= k 1=2 и df 2= k 2=15 табличное значение статистики равно 3,68

8. если F эмп F крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера F эмп > F крит (7.45>3.68), следовательно п ринимается альтернативная гипотеза.

Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р

Видео:Урок 151. Средняя кинетическая энергия молекул многоатомного газаСкачать

Урок 151. Средняя кинетическая энергия молекул многоатомного газа

7.1.2 Дисперсионный анализ для связанных выборок

Метод дисперсионного анализа для связанных выборок применяет­ся в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех.

В данном случае различия между испытуемыми — возможный са­мостоятельный источник различий. Однофакторный дисперсионный анализ для связанных выборок позволит определить, что перевешивает — тенденция, выраженная кривой изменения фактора, или индивидуальные различия между испытуемыми. Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий.

Пример 2. Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной, настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому инди­видуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли счи­тать, что фактор длины анаграммы влияет на длительность попыток ее решения?

Таблица 2. Длительность решения анаграмм (сек)

Условие 1. четырехбуквенная анаграмма

Условие 2. Пятибуквенная анаграмма

Условие 3. шестибуквенная анаграмма

Суммы по испытуемым

Сформулируем гипотезы. Наборов гипотез в данном случае два.

Н0(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами.

Н1(А): Различия в длительности попыток решения анаграмм разной длины являются более выраженными, чем различия, обусловлен­ные случайными причинами.

Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.

Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причи­нами.

Последовательность операций в однофакторном дисперсионном анализе для связанных выборок:

1. подсчитаем SS факт — вариативность признака, обусловленную действи­ем исследуемого фактора по формуле (1).

Число степеней свободы уравнения регрессии,

где Тс – сумма индивидуальных значений по каждому из условий (столбцов). Для нашего примера 51, 1244, 47 (см. табл. 2); с – количество условий (градаций) фактора (=3); n – количество испытуемых в каждой группе (=5); N – общее количество индивидуальных значений (=15); Число степеней свободы уравнения регрессии— квадрат общей суммы индивидуальных значений (=1342 2 )

2. подсчитаем SS исп — вариативность признака, обусловленную индивидуальными значения испытуемых.

Число степеней свободы уравнения регрессии

где Ти – сумма индивидуальных значений по каждому испытуемому. Для нашего примера 247, 631, 100, 181, 183 (см. табл. 2); с – количество условий (градаций) фактора (=3); N – общее количество индивидуальных значений (=15);

3. подсчитаем SS общ – общую вариативность признака по формуле (2):

Число степеней свободы уравнения регрессии

4. подсчитаем случайную (остаточную) величину SS сл , обусловленную неучтенными факторами по формуле (3):

Число степеней свободы уравнения регрессии

5. число степеней свободы равно (4):

Число степеней свободы уравнения регрессии; Число степеней свободы уравнения регрессии; Число степеней свободы уравнения регрессии; Число степеней свободы уравнения регрессии

6. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна (5):

Число степеней свободы уравнения регрессии; Число степеней свободы уравнения регрессии

Число степеней свободы уравнения регрессии

7. значение статистики критерия F эмп рассчитаем по формуле (6 ):

Число степеней свободы уравнения регрессии; Число степеней свободы уравнения регрессии

8. определим F крит по статистическим таблицам Приложения 3 для df 1= k 1=2 и df 2= k 2=8 табличное значение статистики F крит_факт=4,46, и для df 3= k 3=4 и df 2= k 2=8 F крит_исп=3,84

9. F эмп_факт > F крит_факт (6,872>4,46), следовательно п ринимается альтернативная гипотеза.

10. F эмп_исп F крит_исп (1,054 ринимается нулевая гипотеза.

Вывод: различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р Индивидуальные различия между испытуе­мыми являются не более выраженными, чем различия, обусловленные случайными причинами.

Видео:t-критерий Стьюдента для проверки гипотезы о средней в MS ExcelСкачать

t-критерий Стьюдента для проверки гипотезы о средней в MS Excel

7.2 Корреляционный анализ

Видео:Регрессия в ExcelСкачать

Регрессия в Excel

7.2.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академичес­кие достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь — это согласованное изме­нение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью дру­гого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем боль­ше рост, тем больше вес человека. Однако из этого правила име­ются исключения, когда относительно низкие люди имеют из­быточный вес, и, наоборот, астеники, при высоком росте име­ют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи — это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статисти­ки. «Оба термина, — пишет Е.В. Сидоренко, — корреляционная связь и корреляционная зависимость — часто используются как синони­мы. Зависимость подразумевает влияние, связь — любые согласован­ные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость — это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака (Е.В. Сидоренко, 2000).

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (ли­нейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимо­сти полученных коэффициентов корреляции.

Корреляционные связи различаются по форме, направлению и степени (силе).

Число степеней свободы уравнения регрессии По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решае­мых задач в контрольной сессии. Криволинейной может быть, напри­мер, связь между уровнем мотивации и эффективностью выполнения задачи (см. рис. 1). При повышении мотивации эффективность вы­полнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутст­вует уже снижение эффективности.

Рис.1. Связь между эффективностью решения задачи

и силой мотивационной тен­денции (по J. W. A t k in son, 1974, р 200)

По направлению корреляционная связь может быть положитель­ной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значе­ниям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные. При положительной корреляции коэффициент корреляции имеет положительный знак, например r =+0,207 , при отрицательной корреля­ции — отрицательный знак, например r =—0,207 .

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции.

Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

Максимальное воз­можное абсолютное значение коэффициента корреляции r =1,00 ; минимальное r =0,00 .

Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):

сильная , или тесная при коэффициенте корреляции r >0,70 ;

очень слабая при r Y могут быть измерены в разных шкалах, именно это определяет выбор соответствующего коэффициента корреляции (см. табл. 3):

Таблица 3. Использование коэффициента корреляции в зависимости от типа переменных

🔥 Видео

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать

Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в Excel

Т-критерий Стьюдента за 12 минут. Биостатистика.Скачать

Т-критерий Стьюдента за 12 минут. Биостатистика.
Поделиться или сохранить к себе: