Практическое занятие 12.2.
Линейный коэффициент корреляции
Рекомендуем использовать корреляционно-регрессионный анализ для ваших научных работ и практических исследований – наряду со статистическими гипотезами, это самая настоящая находка в плане новизны и творческих изысканий.
На этом практическом занятии рассмотрим следующие вопросы
– диаграмма рассеяния;
– уравнение линейной регрессии;
– линейный коэффициент корреляции;
– коэффициент детерминации
– коэффициент средней эластичности;
– бета-коэффициент.
Рассмотрим задачу
Задача 1.
Имеются выборочные данные по n=8 студентам: X – количество прогулов за некоторый период времени и Y – суммарная успеваемость за этот период:
X |
12 |
9 |
8 |
14 |
15 |
11 |
10 |
15 |
Y |
42 |
107 |
100 |
60 |
78 |
79 |
90 |
54 |
На прошлом практическом занятии выполнены задания:
1) Построена диаграмму рассеяния:
2)
2) По диаграмме рассеяния, сделан вывод о линейной форме зависимости;
3) Найдено уравнение линейной регрессии Y на X: у=-6,0485х+147,32 и выполнен чертёж:
Требуется:
1) вычислить линейный коэффициент корреляции, сделать вывод;
2) вычислить коэффициент детерминации, сделать вывод;
3) вычислить коэффициент эластичности;
4) вычислить бета-коэффициент, сделать вывод
и проверка значимости линейной модели.
Решение:
Воспользуемся расчётной таблицей:
|
|
|
|
|
12 |
42 |
504 |
144 |
1764 |
9 |
107 |
963 |
81 |
11449 |
8 |
100 |
800 |
64 |
10000 |
14 |
60 |
840 |
196 |
3600 |
15 |
78 |
1170 |
225 |
6084 |
11 |
79 |
869 |
121 |
6241 |
10 |
90 |
900 |
100 |
8100 |
15 |
54 |
810 |
225 |
2916 |
Σ = 94 |
610 |
6856 |
1156 |
50154 |
Полученное уравнение у=-6,0485х+147,32 показывает, что с увеличением количества прогулов х на 1 единицу суммарная успеваемость падает в среднем на 6,0485 – примерно на 6 баллов. Об этом нам рассказал коэффициент «а».
И, конечно, осуществимо прогнозирование, так при х=5 среднеожидаемая успеваемость составит баллов. Нежелательно брать х, которые расположены слишком далеко от эмпирических точек, поскольку прогноз, скорее всего, не будет соответствовать действительности. Например, при х=0 значение у=147,32 может вообще оказаться невозможным, ибо у успеваемости есть свой фиксированный «потолок». И, разумеется, х или у в нашей задаче не могут быть отрицательными.
Второй вопрос касается тесноты зависимости. Очевидно, что чем ближе эмпирические точки к прямой, тем теснее линейная корреляционная зависимость – тем уравнение регрессии достовернее отражает ситуацию, и тем качественнее полученная модель. И наоборот, если многие точки разбросаны вдали от прямой, то признак У зависит от Х вовсе не линейно (если вообще зависит) и линейная функция плохо отражает реальную картину.
Прояснить данный вопрос нам поможет:
1) линейный коэффициент корреляции
Этот коэффициент как раз и оценивает тесноту линейной корреляционной зависимости и более того, указывает её направление
Его полное название: выборочный линейный коэффициент парной корреляции Пирсона :
– «выборочный» – потому что мы рассматриваем выборочную совокупность;
– «линейный» – потому что он оценивает тесноту линейной корреляционной зависимости;
– «парной» – потому что у нас два признака;
– и «Пирсона» – в честь английского статистика Карла Пирсона, автор понятия «корреляция».
Линейный коэффициент корреляции вычислим по формуле:
, где - среднее значение произведения признаков, , - средние значения признаков и σх, σу – стандартные отклонения признаков.
Вычислим средние значения:
Стандартные отклонения найдём как корни из соответствующих дисперсий, вычисленных по формуле:
Таким образом, коэффициент корреляции:
Пояснения: коэффициент корреляции может изменяться в пределах и чем он ближе по модулю к единице, тем теснее линейная корреляционная зависимость – тем ближе расположены точки к прямой, тем качественнее и достовернее линейная модель.
Если r=-1 либо r=1, то речь идёт о строгой линейной зависимости, при которой все эмпирические точки окажутся на построенной прямой.
Наоборот, чем ближе r к нулю, тем точки рассеяны дальше, тем линейная зависимость выражена меньше. Однако в последнем случае зависимость всё равно может быть.
Для оценки тесноты связи используем шкалу Чеддока.
При этом если r<0, то корреляционная связь обратная, а если r>0, то прямая.
В нашем случае , таким образом, существует сильная обратная линейная корреляционная зависимость Y – суммарной успеваемости от X – количества прогулов.
Линейный коэффициент корреляции – это частный аналог эмпирического корреляционного отношения. Но в отличие от отношения, он показывает не только тесноту, но ещё и направление зависимости, ну и, конечно, здесь определена её форма (линейная).
2) Коэффициент детерминации
– это частный аналог эмпирического коэффициента детерминации – есть квадрат коэффициента корреляции: R2=r2 – коэффициент детерминации показывает долю вариации признака-результата Y, которая обусловлена воздействием признака-фактора X.
В нашей задаче: R2=r2≈(-0,7193)2≈0,5174 – таким образом, в рамках построенной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами.
Очевидно, что линейный коэффициент детерминации может изменяться в пределах , и чем он ближе к единице, тем удачнее линейная модель приближает эмпирические данные.
3) Вычислим коэффициент средней эластичности
Разберёмся, что такое эластичность. Это восприимчивость. Податливость. Представьте, что уровень тревожности в обществе увеличился на 1%. А Петя стал больше тревожиться всего на 0,3%. Таким образом, Петя неэластичен к тревожности. Маша в то же время стала тревожиться больше на 5%. Таким образом, Маша эластична к тревожности.
Иными словами, эластичность Э – это количество процентов, на которое изменяется признак-результат при увеличении признака-фактора на 1%. Если , то зависимый показатель неэластичен к воздействию признака-фактора. Если же – то эластичен.
Функция эластичности имеет вид: , где у(х) – функция регрессии, а – её производная. И в подавляющем большинстве случаев эластичность зависит от значения х, так, для линейной регрессии получаем: – и мы можем вычислить эластичность в той или иной точке х. Но чаще рассчитывают средний коэффициент эластичности, по формуле: .
В нашей задаче: – таким образом, при увеличении количества прогулов на 1% успеваемость уменьшается в среднем на 0,93%.
Можно сказать, что эластичность близка к нейтральной – количество прогулов растёт и успеваемость падает примерно такими же темпами.
4) Бета – коэффициент β
Это ещё один относительный показатель влияния фактора на результат. β – это количество средних квадратических отклонений, на которое меняется признак-результат при увеличении признака-фактора на одно среднее квадратическое отклонение.
В чём смысл показателя? Давайте посмотрим на уравнение регрессии у=-6,0485х+147,32 и конкретно на коэффициент a=-6,0485.
Вопрос: это много или мало? (с точки зрения влияния прогулов на успеваемость). Ответ не очевиден. Если «а» очень велико по модулю, то это ещё не значит, что влияние существенно. И наоборот, «а» может составлять какие-то маленькие значения, но влияние окажется значительным. Всё относительно и всё зависит от колеблемости показателей, а эта самая колеблемость измеряется стандартными отклонениями. Которые и нужно сопоставить:
–
таким образом, при увеличении количества прогулов на одно стандартное отклонение успеваемость уменьшается примерно на 0,72 своего стандартного отклонения.
Второй способ решения, в котором мы сначала находим коэффициент корреляции, а затем уравнение регрессии.
Линейный коэффициент корреляции вычислим по формуле: , где σх, σу – стандартные отклонения признаков Х, У.
Выражение в числителе называют корреляционным моментом или коэффициентом ковариации (совместной вариации) признаков, он рассчитывается следующим образом: , где n – объём статистической совокупности, а , - средние значения признаков. Данный коэффициент показывает, насколько согласованно отклоняются парные значения от своих средних в ту или иную сторону. Формулу можно упростить, в результате чего получится ранее использованная версия, без подробных выкладок: . Но сейчас мы пойдём другим путём.
Заполним расчётную таблицу:
Прогулы, |
Плюшки, |
|
|
|
|
|
12 |
42 |
0,25 |
-34,25 |
-8,5625 |
0,0625 |
1173,063 |
9 |
107 |
-2,75 |
30,75 |
-84,5625 |
7,5625 |
945,5625 |
8 |
100 |
-3,75 |
23,75 |
-89,0625 |
14,0625 |
564,0625 |
14 |
60 |
2,25 |
-16,25 |
-36,5625 |
5,0625 |
264,0625 |
15 |
78 |
3,25 |
1,75 |
5,6875 |
10,5625 |
3,0625 |
11 |
79 |
-0,75 |
2,75 |
-2,0625 |
0,5625 |
7,5625 |
10 |
90 |
-1,75 |
13,75 |
-24,0625 |
3,0625 |
189,0625 |
15 |
54 |
3,25 |
-22,25 |
-72,3125 |
10,5625 |
495,0625 |
94 |
610 |
: суммы: |
-311,5 |
51,5 |
3641,5 |
При этом сначала рассчитываем левые нижние суммы и средние значения признаков:
и только потом заполняем оставшиеся столбцы таблицы.
Вычислим коэффициент ковариации:
.
Стандартные отклонения вычислим как квадратные корни из дисперсий:
Таким образом, коэффициент корреляции:
.
И если нам известны значения r, σx, σy, то коэффициенты уравнения y=ax+b регрессии легко рассчитать по следующим формулам:
Таким образом, искомое уравнение: у=-6,0485х+147,32.
Контрольные вопросы
1. Диаграмма рассеяния
2. Уравнение линейной регрессии
3. Линейный коэффициент корреляции
4. Коэффициент детерминации
5. Коэффициент средней эластичности
6. Бета-коэффициент.