Степени свободы (Df, C) – это количество параметров (точек контроля) Модели (Model). Они указывают количество независимых значений, которые могут изменяться в ходе анализа без нарушения каких-либо ограничений.
- Рассмотрим Выборку (Sample) данных, состоящую для простоты из пяти положительных целых чисел. Значения могут быть любыми числами без известной связи между ними. Эта выборка данных теоретически должна иметь пять степеней свободы.
- Четыре числа в выборке — это , а среднее значение всей выборки данных равно 6.
- Это должно означать, что пятое число равно 10. Иначе быть не может. У пятого значения нет свободы варьироваться.
- Таким образом, степень свободы для этой выборки данных равна 4.
Формула степени свободы выглядит следующим образом:
D_f – степень свободы
N – количество значений
Математически степени свободы часто представляют, используя греческую букву «ню», которая выглядит так: ν. Вы наверняка встретите и такие сокращения: ‘d.o.f.’, ‘dof’, ‘d.f.’ или просто ‘df’.
- Степени свободы в статистике
- Степени свободы в Машинном обучении
- Степени свободы для ошибки линейной регрессии
- Итоговые степени свободы для линейной регрессии
- Отрицательные степени свободы
- F-тест качества спецификации множественной регрессионной модели
- 1. Роль степеней свободы (degree of freedom) в статистике
- 2. Анализ дисперсии, F-тест
- 3. Выбор линейной регрессионной модели
- 3 Проверка значимости линейной регрессии
- Заключение
- 7.1 Дисперсионный анализ
- 7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок
- 7.1.2 Дисперсионный анализ для связанных выборок
- 7.2 Корреляционный анализ
- 7.2.1 Понятие корреляционной связи
- 📺 Видео
Видео:Эконометрика. Оценка значимости уравнения регрессии. Критерий ФишераСкачать
Степени свободы в статистике
Степени свободы в статистике – это количество значений, используемых при вычислении переменной.
Степени свободы = Количество независимых значений — Количество статистик
Пример. У нас есть 50 независимых значений, и мы хотим вычислить одну-единственную статистику «среднее». Согласно формуле, степеней свободы будет 50 — 1 = 49.
Видео:число степеней свободыСкачать
Степени свободы в Машинном обучении
В прогностическом моделировании, степени свободы часто относятся к количеству параметров, включая данные, используемые при вычислении ошибки модели. Наилучший способ понять это – рассмотреть модель линейной регрессии.
Рассмотрим модель линейной регрессии для Датасета (Dataset) с двумя входными переменными. Нам потребуется один коэффициент в модели для каждой входной переменной, то есть модель будет иметь еще и два параметра.
$$hat = x_1 * β_1 + x_2 * β_2$$
y – целевая переменная
x_1, x_2 – входные переменные
β_1, β_2 – параметры модели
Эта модель линейной регрессии имеет две степени свободы, потому что есть два параметра модели, которые должны быть оценены на основе обучающего датасета. Добавление еще одного столбца к данным (еще одной входной переменной) добавит модели еще одну степень свободы. Сложность обучения модели линейной регрессии описывается степенью свободы, например, «модель четвертой степени сложности» означает наличие четырех входных переменных, а также степень свободы, равную четырем.
Видео:Как расчитать степени свободыСкачать
Степени свободы для ошибки линейной регрессии
Количество обучающих примеров имеет значение и влияет на количество степеней свободы регрессионной модели. Представьте, что мы создаем модель линейной регрессии на базе датасета, состоящего из ста строк.
Сравнивая предсказания модели с реальными выходными значениями, мы минимизируем ошибку. Итоговая ошибка модели имеет одну степень свободы для каждого ряда за вычетом количества параметров. В нашем случае ошибка модели 98 степеней свободы (100 рядов — 2 параметра).
Видео:Эконометрика. Оценка значимости параметров уравнения регрессии. Критерий Стьюдента.Скачать
Итоговые степени свободы для линейной регрессии
Конечные степени свободы для модели линейной регрессии рассчитываются как сумма степеней свободы модели плюс степени свободы ошибки модели. В нашем примере это 100 (2 степени свободы модели + 98 степеней свободы ошибки). Как вы уже заметили, степеней свободы столько, сколько рядов в датасете.
Теперь рассмотрим набор данных из 100 строк, но теперь у нас есть 70 входных переменных. Это означает, что модель имеет еще и 70 коэффициентов, что дает нам d.o.f. ошибки, равной 30 (100 строк — 70 коэффициентов). d.o.f. самой модели по-прежнему равен ста.
Видео:Пример проверки гипотезы о незначимости регрессииСкачать
Отрицательные степени свободы
Что происходит, когда у нас больше столбцов, чем строк данных? Отрицательные значения вполне допустимы здесь. Например, у нас может быть 100 строк данных и 10 000 переменных, к примеру, маркеры генов для 100 пациентов. Следовательно, модель линейной регрессии будет иметь 10 000 параметров, то есть модель будет иметь 10 000 степеней свободы.
Тогда степени свободы рассчитываются следующим образом:
Степень свободы модели = Количество независимых значение — Количество параметров = 100 — 10 000 = -9 900
В свою очередь, степени свободы модели линейной регрессии будут следующими:
Степени свободы модели линейной регрессии = Степени свободы модели — Степени свободы ошибки модели = 10 000 — 9 900 = 100
Видео:Эконометрика. Линейная парная регрессияСкачать
F-тест качества спецификации множественной регрессионной модели
Цель этой статьи — рассказать о роли степеней свободы в статистическом анализе, вывести формулу F-теста для отбора модели при множественной регрессии.
Видео:Система с двумя степенями свободыСкачать
1. Роль степеней свободы (degree of freedom) в статистике
Имея выборочную совокупность, мы можем лишь оценивать числовые характеристики совокупности, параметры выбранной модели. Так не имеет смысла говорить о среднеквадратическом отклонении при наличии лишь одного наблюдения. Представим линейную регрессионную модель в виде:
Сколько нужно наблюдений, чтобы построить линейную регрессионную модель? В случае двух наблюдений можем получить идеальную модель (рис.1), однако есть в этом недостаток. Причина в том, что сумма квадратов ошибки (MSE) равна нулю и не можем оценить оценить неопределенность коэффициентов . Например не можем построить доверительный интервал для коэффициента наклона по формуле:
А значит не можем сказать ничего о целесообразности использования коэффициента в данной регрессионной модели. Необходимо по крайней мере 3 точки. А что же, если все три точки могут поместиться на одну линию? Такое может быть. Но при большом количестве наблюдений маловероятна идеальная линейная зависимость между зависимой и независимыми переменными (рис. 1).
Рисунок 1 — простая линейная регрессия
Количество степеней свободы — количество значений, используемых при расчете статистической характеристики, которые могут свободно изменяться. С помощью количества степеней свободы оцениваются коэффициенты модели и стандартные ошибки. Так, если имеется n наблюдений и нужно вычислить дисперсию выборки, то имеем n-1 степеней свободы.
Мы не знаем среднее генеральной совокупности, поэтому оцениваем его средним значением по выборке. Это стоит нам одну степень свободы.
Представим теперь что имеется 4 выборочных совокупностей (рис.3).
Рисунок 3
Каждая выборочная совокупность имеет свое среднее значение, определяемое по формуле . И каждое выборочное среднее может быть оценено . Для оценки мы используем 2 параметра , а значит теряем 2 степени свободы (нужно знать 2 точки). То есть количество степеней свобод Заметим, что при 2 наблюдениях получаем 0 степеней свободы, а значит не можем оценить коэффициенты модели и стандартные ошибки.
Таким образом сумма квадратов ошибок имеет (SSE, SSE — standard error of estimate) вид:
Стоит упомянуть, что в знаменателе стоит n-2, а не n-1 в связи с тем, что среднее значение оценивается по формуле . Квадратные корень формулы (4) — ошибка стандартного отклонения.
В общем случае количество степеней свободы для линейной регрессии рассчитывается по формуле:
где n — число наблюдений, k — число независимых переменных.
Видео:Степени свободы в статистике для дурачковСкачать
2. Анализ дисперсии, F-тест
При выполнении основных предположений линейной регрессии имеет место формула:
где ,
,
В случае, если имеем модель по формуле (1), то из предыдущего раздела знаем, что количество степеней свободы у SSTO равно n-1. Количество степеней свободы у SSE равно n-2. Таким образом количество степеней свободы у SSR равно 1. Только в таком случае получаем равенство .
Масштабируем SSE и SSR с учетом их степеней свободы:
Получены хи-квадрат распределения. F-статистика вычисляется по формуле:
Формула (9) используется при проверке нулевой гипотезы при альтернативной гипотезе в случае линейной регрессионной модели вида (1).
Видео:Кинематический анализ. Степень статической неопределимости. Метод силСкачать
3. Выбор линейной регрессионной модели
Известно, что с увеличением количества предикторов (независимых переменных в регрессионной модели) исправленный коэффициент детерминации увеличивается. Однако с ростом количества используемых предикторов растет стоимость модели (под стоимостью подразумевается количество данных которые нужно собрать). Однако возникает вопрос: “Какие предикторы разумно использовать в регрессионной модели?”. Критерий Фишера или по-другому F-тест позволяет ответить на данный вопрос.
Определим “полную” модель: (10)
Определим “укороченную” модель: (11)
Вычисляем сумму квадратов ошибок для каждой модели:
(12)
(13)
Определяем количество степеней свобод
(14)
Нулевая гипотеза — “укороченная” модель мало отличается от “полной (удлиненной) модели”. Поэтому выбираем “укороченную” модель. Альтернативная гипотеза — “полная (удлиненная)” модель объясняет значимо большую долю дисперсии в данных по сравнению с “укороченной” моделью.
Коэффициент детерминации из формулы (6):
Из формулы (15) выразим SSE(F):
SSTO одинаково как для “укороченной”, так и для “длинной” модели. Тогда (14) примет вид:
Поделим числитель и знаменатель (14a) на SSTO, после чего прибавим и вычтем единицу в числителе.
Используя формулу (15) в конечном счете получим F-статистику, выраженную через коэффициенты детерминации.
Видео:Степени свободы #степенисвободы #проСвет #Весталия #школаСорадениеСкачать
3 Проверка значимости линейной регрессии
Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. Рассмотрим ситуацию. У линейной регрессионной модели всего k параметров (Сейчас среди этих k параметров также учитываем ).Рассмотрим нулевую гипотеза — об одновременном равенстве нулю всех коэффициентов при предикторах регрессионной модели (то есть всего ограничений k-1). Тогда “короткая модель” имеет вид . Следовательно. Используя формулу (14.в), получим
Видео:2.7. Распределение Хи квадрат, Стьюдента, Фишера .Скачать
Заключение
Показан смысл числа степеней свободы в статистическом анализе. Выведена формула F-теста в простом случае(9). Представлены шаги выбора лучшей модели. Выведена формула F-критерия Фишера и его запись через коэффициенты детерминации.
Можно посчитать F-статистику самому, а можно передать две обученные модели функции aov, реализующей ANOVA в RStudio. Для автоматического отбора лучшего набора предикторов удобна функция step.
Надеюсь вам было интересно, спасибо за внимание.
При выводе формул очень помогли некоторые главы из курса по статистике STAT 501
Видео:Теория вероятностей #17: критерий хи квадрат (Пирсона)Скачать
7.1 Дисперсионный анализ
Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. (Суходольский Г.В., 1972; Шеффе Г., 1980).
Видео:Эконометрика. Нелинейная регрессия. Гипербола.Скачать
7.1.1 Однофакторный дисперсионный анализ для несвязанных выборок
Изучается действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности. [1]
В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех.
Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью — 1 слово в 2 секунды, и третьей группе с большой скоростью — 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в табл. 1.
Таблица 1. Количество воспроизведенных слов (по J . Greene , M D ‘ Olivera , 1989, p . 99)
Группа 1 низкая скорость
Группа 2 средняя скорость
Группа 3 высокая скорость
Дисперсионный однофакторный анализ позволяет проверить гипотезы:
H 0 : различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы
H 1 : Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.
Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок:
1. подсчитаем SS факт — вариативность признака, обусловленную действием исследуемого фактора. Часто встречающееся обозначение SS — сокращение от «суммы квадратов» ( sum of squares ). Это сокращение чаще всего используется в переводных источниках (см., например: Гласс Дж., Стенли Дж., 1976).
, (1)
где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1);
с – количество условий (градаций) фактора (=3);
n – количество испытуемых в каждой группе (=6);
N – общее количество индивидуальных значений (=18);
— квадрат общей суммы индивидуальных значений (=104 2 =10816)
Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.
По формуле (1) рассчитав фактическую вариативность признака, получаем:
2. подсчитаем SS общ – общую вариативность признака:
(2)
3. подсчитаем случайную (остаточную) величину SS сл , обусловленную неучтенными факторами:
(3)
4. число степеней свободы равно:
=3-1=2 (4)
5. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна:
(5)
6. значение статистики критерия F эмп рассчитаем по формуле:
(6)
Для нашего примера имеем: F эмп=15,72/2,11=7,45
7. определим F крит по статистическим таблицам Приложения 3 для df 1= k 1=2 и df 2= k 2=15 табличное значение статистики равно 3,68
8. если F эмп F крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера F эмп > F крит (7.45>3.68), следовательно п ринимается альтернативная гипотеза.
Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р
Видео:Критерий Стьюдента и Фишера в Excel, проверка уравнения множественной регрессии в ExcelСкачать
7.1.2 Дисперсионный анализ для связанных выборок
Метод дисперсионного анализа для связанных выборок применяется в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех.
В данном случае различия между испытуемыми — возможный самостоятельный источник различий. Однофакторный дисперсионный анализ для связанных выборок позволит определить, что перевешивает — тенденция, выраженная кривой изменения фактора, или индивидуальные различия между испытуемыми. Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий.
Пример 2. Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной, настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому индивидуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли считать, что фактор длины анаграммы влияет на длительность попыток ее решения?
Таблица 2. Длительность решения анаграмм (сек)
Условие 1. четырехбуквенная анаграмма
Условие 2. Пятибуквенная анаграмма
Условие 3. шестибуквенная анаграмма
Суммы по испытуемым
Сформулируем гипотезы. Наборов гипотез в данном случае два.
Н0(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами.
Н1(А): Различия в длительности попыток решения анаграмм разной длины являются более выраженными, чем различия, обусловленные случайными причинами.
Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.
Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причинами.
Последовательность операций в однофакторном дисперсионном анализе для связанных выборок:
1. подсчитаем SS факт — вариативность признака, обусловленную действием исследуемого фактора по формуле (1).
,
где Тс – сумма индивидуальных значений по каждому из условий (столбцов). Для нашего примера 51, 1244, 47 (см. табл. 2); с – количество условий (градаций) фактора (=3); n – количество испытуемых в каждой группе (=5); N – общее количество индивидуальных значений (=15); — квадрат общей суммы индивидуальных значений (=1342 2 )
2. подсчитаем SS исп — вариативность признака, обусловленную индивидуальными значения испытуемых.
где Ти – сумма индивидуальных значений по каждому испытуемому. Для нашего примера 247, 631, 100, 181, 183 (см. табл. 2); с – количество условий (градаций) фактора (=3); N – общее количество индивидуальных значений (=15);
3. подсчитаем SS общ – общую вариативность признака по формуле (2):
4. подсчитаем случайную (остаточную) величину SS сл , обусловленную неучтенными факторами по формуле (3):
5. число степеней свободы равно (4):
; ; ;
6. «средний квадрат» или математическое ожидание суммы квадратов, усредненная величина соответствующих сумм квадратов SS равна (5):
;
7. значение статистики критерия F эмп рассчитаем по формуле (6 ):
;
8. определим F крит по статистическим таблицам Приложения 3 для df 1= k 1=2 и df 2= k 2=8 табличное значение статистики F крит_факт=4,46, и для df 3= k 3=4 и df 2= k 2=8 F крит_исп=3,84
9. F эмп_факт > F крит_факт (6,872>4,46), следовательно п ринимается альтернативная гипотеза.
10. F эмп_исп F крит_исп (1,054 ринимается нулевая гипотеза.
Вывод: различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.
Видео:Эконометрика. Множественная регрессия и корреляция.Скачать
7.2 Корреляционный анализ
Видео:t-критерий Стьюдента для проверки гипотезы о средней в MS ExcelСкачать
7.2.1 Понятие корреляционной связи
Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академические достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.?
Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь — это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.
Корреляционные связи — это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. «Оба термина, — пишет Е.В. Сидоренко, — корреляционная связь и корреляционная зависимость — часто используются как синонимы. Зависимость подразумевает влияние, связь — любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.
Корреляционная зависимость — это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака (Е.В. Сидоренко, 2000).
Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.
Корреляционные связи различаются по форме, направлению и степени (силе).
По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (см. рис. 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.
Рис.1. Связь между эффективностью решения задачи
и силой мотивационной тенденции (по J. W. A t k in son, 1974, р 200)
По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные. При положительной корреляции коэффициент корреляции имеет положительный знак, например r =+0,207 , при отрицательной корреляции — отрицательный знак, например r =—0,207 .
Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции.
Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.
Максимальное возможное абсолютное значение коэффициента корреляции r =1,00 ; минимальное r =0,00 .
Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):
сильная , или тесная при коэффициенте корреляции r >0,70 ;
очень слабая при r Y могут быть измерены в разных шкалах, именно это определяет выбор соответствующего коэффициента корреляции (см. табл. 3):
Таблица 3. Использование коэффициента корреляции в зависимости от типа переменных
📺 Видео
Регрессия в ExcelСкачать
Урок 151. Средняя кинетическая энергия молекул многоатомного газаСкачать
Т-критерий Стьюдента за 12 минут. Биостатистика.Скачать