Раздел 6. Решение практических задач методами математической статистики
Лекция 16. Проверка значимости коэффициента корреляции, коэффициентов и уравнения линейной регрессии
На предыдущих уроках мы научились рассчитывать линейный коэффициент корреляции r и находить уравнение линейной регрессии y=ax+b. Но так как они получены на выборочных данных возникает вопрос: а насколько достоверно они отражают реальную картину?
Ведь существует генеральная совокупность с генеральным линейным коэффициентом корреляции и генеральным уравнением y=Ax+B, и может получиться так, что по выборке значение r и уравнение y=ax+b далеки от истины.
План лекции
1. Проверка значимости выборочного линейного коэффициента корреляции;
2. Нахождение доверительного интервал для генерального коэффициента корреляции;
3. Проверка значимости коэффициентов уравнения линейной регрессии.
Разберем на примерах решение этих вопросов. Ранее мы уже рассматривали эту задачу.
Задача 1. Дана выборка из n=8 студентов:
Таблица 1 – Выборка из студентов |
||||||||
Х |
12 |
9 |
8 |
14 |
15 |
11 |
10 |
15 |
У |
42 |
107 |
100 |
60 |
78 |
79 |
90 |
54 |
где X – количество прогулов студента (за некоторый период времени) и Y – его суммарная успеваемость за этот период
Мы получили выборочный коэффициент r≈0,72, что говорит о сильной обратной корреляционной зависимости успеваемости Y от количества прогулов X. Кроме того, было найдено уравнение регрессии
y=-6,0485x+147,32,
которое показывает, что с увеличением количества прогулов х на 1 единицу суммарная успеваемость падает в среднем на 6,0485 – примерно на 6 баллов.
Решение:
1) Проверим значимость выборочного коэффициента корреляции r≈0,72. Для этого рассмотрим нулевую гипотезу:
H0: ρ=0 – генеральный линейный коэффициент корреляции равен нулю. (т.е. успеваемость всех студентов не зависит от количества прогулов).
В качестве альтернативной гипотезы стандартно рассматривают противоположное утверждение H1: ρ≠0 – о том, что линейная корреляционная зависимость успеваемости от количества прогулов существует.
При этом направление зависимости (прямая или обратная) не принимается во внимание. Заметим, что это один из немногих случаев, когда нулевая гипотеза является менее правдоподобной, нежели альтернативная.
Алгоритм проверки гипотезы. Сначала нужно задать уровень значимости, так как в условии он не задан. Возьмём традиционное значение .
Для проверки гипотезы H0 на уровне значимости α используем статистический критерий
где n – объём выборки, а re – выборочный коэффициент корреляции.
Напоминаем, что статистический критерий – есть величина случайная.
Этот критерий имеет распределение Стьюдента с количеством степеней свободы k=n-m-1, где m – количество оцениваемых параметров. Здесь параметр один (коэффициент корреляции): m=1, а посему k=n-2.
Чтобы проверить нулевую гипотезу, нужно найти критическое значение tкр.=tдвуст.кр.(α,k) двусторонней критической области – для уровня значимости и количества степеней свободы k. В нашем случае
k=n-2=8-2=6
tкр.=tдвуст.кр.(α,k)= tдвуст.кр.(0,05; 6)≈2,4469
это значение можно определить по таблице критических точек распределения Стьюдента.
Вычислим наблюдаемое значение критерия
Если оно попадёт в область принятия гипотезы , то на уровне значимости α нет оснований отвергать гипотезу .
Если же ( либо ), то нулевая гипотеза отвергается:
Рисунок 1 - Область принятия гипотезы
Проводим вычисления:
таким образом, на уровне значимости гипотезу отвергаем в пользу гипотезы .
Иными словами, выборочное значение r≈-0,72 оказалось статически значимым и вряд ли объяснимо случайными факторами.
При этом с вероятностью 0,05 мы совершили ошибку первого рода, то есть отвергли правильную гипотезу.
2) Теперь определим доверительный интервал для генерального линейного коэффициента корреляции .
Очевидно, что генеральный коэффициент может быть как меньше, так и больше выборочного результата r≈-0,72. И задача состоит в том, чтобы найти интервал который с заранее заданной доверительной вероятностью (надёжностью) γ содержит истинное значение генерального коэффициента :
Выберем значение γ=0,95. И так как выборка мала (n<30), то целесообразно использовать то же распределение Стьюдента с количеством степеней свободы k=n-2. Точность оценки в нём рассчитывается по формуле:
Для уровня доверительной вероятности и количества степеней свободы k=8-2=6 находим коэффициент доверия: .
Таким образом:
Так как , получим следующий интервал:
Поскольку коэффициент корреляции не может превосходить по модулю единицу, то левое значение корректируем: -1<ρ<-0,3 – с вероятностью γ=0,95 данный интервал содержит генеральный коэффициент корреляции ρ.
Из формулы также нетрудно понять, что чем ближе выборочный коэффициент по модулю к единице, тем точнее будет оценка.
3) Проверим значимость коэффициентов выборочного уравнения линейной регрессии y=-6,0485x+147,32. Иными словами, можно ли доверять значениям a=-6,0485, b=147,32 или они далеки от соответствующих коэффициентов генерального уравнения y=Ax+B?
Наиболее важным является коэффициент a при переменной x По исходным данным хi (количество прогулов) и y(xi) (соответствующая суммарная успеваемость) заполним следующую расчётную таблицу:
Таблица 2 – Расчётная таблица |
||||
|
|
|
|
|
12 |
42 |
144 |
74,738 |
1071,8 |
9 |
107 |
81 |
92,883 |
199,28 |
8 |
100 |
64 |
98,932 |
1,1405 |
14 |
60 |
196 |
62,641 |
6,9737 |
15 |
78 |
225 |
56,592 |
458,29 |
11 |
79 |
121 |
80,786 |
3,1913 |
10 |
90 |
100 |
86,835 |
10,018 |
15 |
54 |
225 |
56,592 |
6,7197 |
|
1156 |
|
1757,4 |
В 4-м столбце с помощью выборочного уравнения регрессии рассчитываем среднеожидаемую успеваемость y=(xi) студентов для эмпирических значений xi. Так, при количестве прогулов x1=12 среднеожидаемая успеваемость составит
y=(xi)=-6,0485‧12+147,32=74,738.
И, наконец, в правом столбце находим квадраты отклонений ei2 эмпирических значений yi успеваемости от соответствующих среднеожидаемых значений y=(xi) вычисленных по уравнению регрессии.
Выберем тот же уровень значимости α=0,05.
Рассмотрим нулевую гипотезу H0: A=0 – о том, что соответствующий коэффициент генерального уравнения y=Ax+B равен нулю. По сути это означает отсутствие линейной корреляционной зависимости между показателями.
Альтернатива H1: A≠0 – гипотеза о том, что линейная корреляционная зависимость успеваемости от количества прогулов существует.
Для проверки гипотезы H0 на уровне значимости α используем статистический критерий
где – выборочное значение коэффициента, а – стандартная ошибка коэффициента «а».
Случайная величина T имеет распределение Стьюдента с количеством степеней свободы k=n-m-1, где m – количество оцениваемых параметров. Параметр у нас один (коэффициент а), поэтому k=n-2.
Для уровня значимости α=0,05 и количества степеней свободы k=n-2=8-2=6 по соответствующей таблице находим критическое значение двусторонней области
tкр.= tдвуст.кр.(α; k)=tдвуст.кр.(0,05; 6)≈2,4469.
Наблюдаемое значение критерия найдём по формуле:
Выборочный коэффициент известен a=-6,0485, найдем стандартную ошибку:
где – среднее квадратическое отклонение признака-фактора, а Sе – стандартная ошибка регрессии, которая отыскивается по формуле:
В результате:
и наблюдаемое значение критерия:
таким образом, на уровне значимости гипотезу отвергаем в пользу гипотезы .
Иными словами, выборочное значение a=-6,0485 оказалось статически значимым и вряд ли объяснимо случайными факторами, малой выборкой, например.
Проверка значимости коэффициента b=147,32 проводится аналогично.