Практическое занятие 12.2.

 

Линейный коэффициент корреляции

 

Рекомендуем  использовать корреляционно-регрессионный анализ для ваших научных работ и практических исследований – наряду со статистическими гипотезами, это самая настоящая находка в плане новизны и творческих изысканий.

На этом практическом занятии рассмотрим следующие вопросы

– диаграмма рассеяния;

уравнение линейной регрессии;

– линейный коэффициент корреляции;

коэффициент детерминации

– коэффициент средней эластичности;

бета-коэффициент.

Рассмотрим задачу

Задача 1.

Имеются выборочные данные по n=8 студентам: X – количество прогулов за некоторый период времени и Y – суммарная успеваемость за этот период:

 

X

12

9

8

14

15

11

10

15

Y

42

107

100

60

78

79

90

54

 

На прошлом практическом занятии выполнены задания:

1)    Построена диаграмму рассеяния:

2)     

http://www.mathprofi.ru/v/linejnyj_koefficient_korrelyacii_clip_image016.jpg

 

2) По диаграмме рассеяния, сделан вывод о линейной форме зависимости;

3) Найдено уравнение линейной регрессии Y на X: у=-6,0485х+147,32 и выполнен чертёж:

 

http://www.mathprofi.ru/v/linejnyj_koefficient_korrelyacii_clip_image040.jpg

 

Требуется:

1) вычислить линейный коэффициент корреляции, сделать вывод;

2) вычислить коэффициент детерминации, сделать вывод;

3) вычислить коэффициент эластичности;

4) вычислить бета-коэффициент, сделать вывод

и проверка значимости линейной модели.

Решение:

Воспользуемся расчётной таблицей:

 

12

42

504

144

1764

9

107

963

81

11449

8

100

800

64

10000

14

60

840

196

3600

15

78

1170

225

6084

11

79

869

121

6241

10

90

900

100

8100

15

54

810

225

2916

Σ = 94

610

6856

1156

50154

 

Полученное уравнение у=-6,0485х+147,32 показывает, что с увеличением количества прогулов х на 1 единицу суммарная успеваемость падает в среднем на 6,0485 – примерно на 6 баллов. Об этом нам рассказал коэффициент «а».

И, конечно, осуществимо прогнозирование, так при х=5 среднеожидаемая успеваемость составит  баллов. Нежелательно брать х, которые расположены слишком далеко от эмпирических точек, поскольку прогноз, скорее всего, не будет соответствовать действительности. Например, при х=0 значение у=147,32 может вообще оказаться невозможным, ибо у успеваемости есть свой фиксированный «потолок». И, разумеется, х или у в нашей задаче не могут быть отрицательными.

Второй вопрос касается тесноты зависимости. Очевидно, что чем ближе эмпирические точки к прямой, тем теснее линейная корреляционная зависимость – тем уравнение регрессии достовернее отражает ситуацию, и тем качественнее полученная модель. И наоборот, если многие точки разбросаны вдали от прямой, то признак У зависит от Х вовсе не линейно (если вообще зависит) и линейная функция плохо отражает реальную картину.

Прояснить данный вопрос нам поможет:

1) линейный коэффициент корреляции

Этот коэффициент как раз и оценивает тесноту линейной корреляционной зависимости и более того, указывает её направление

Его полное название: выборочный линейный коэффициент парной корреляции Пирсона :

– «выборочный» – потому что мы рассматриваем выборочную совокупность;

– «линейный» – потому что он оценивает тесноту линейной корреляционной зависимости;

– «парной» – потому что у нас два признака;

– и «Пирсона» – в честь английского статистика Карла Пирсона, автор понятия «корреляция».

Линейный коэффициент корреляции вычислим по формуле:

 

, где - среднее значение произведения признаков, , - средние значения признаков и σх, σу – стандартные отклонения признаков.

 

Вычислим средние значения:

  

 

  

 

  

 

Стандартные отклонения найдём как корни из соответствующих дисперсий, вычисленных по формуле:

 

  


    

 

Таким образом, коэффициент корреляции:

 

Пояснения: коэффициент корреляции может изменяться в пределах  и чем он ближе по модулю к единице, тем теснее линейная корреляционная зависимость – тем ближе расположены точки к прямой, тем качественнее и достовернее линейная модель.

Если r=-1 либо r=1, то речь идёт о строгой линейной зависимости, при которой все эмпирические точки окажутся на построенной прямой.

Наоборот, чем ближе r к нулю, тем точки рассеяны дальше, тем линейная зависимость выражена меньше. Однако в последнем случае зависимость всё равно может быть.

Для оценки тесноты связи используем шкалу Чеддока.

При этом если r<0, то корреляционная связь обратная, а если r>0, то прямая.

В нашем случае , таким образом, существует сильная обратная линейная корреляционная зависимость Y – суммарной успеваемости от X – количества прогулов.

Линейный коэффициент корреляции – это частный аналог эмпирического корреляционного отношения. Но в отличие от отношения, он показывает не только тесноту, но ещё и направление зависимости, ну и, конечно, здесь определена её форма (линейная).

2) Коэффициент детерминации

– это частный аналог эмпирического коэффициента детерминации – есть квадрат коэффициента корреляции: R2=r2 – коэффициент детерминации показывает долю вариации признака-результата Y, которая обусловлена воздействием признака-фактора X.

В нашей задаче: R2=r2≈(-0,7193)2≈0,5174 таким образом, в рамках построенной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами.

Очевидно, что линейный коэффициент детерминации может изменяться в пределах , и чем он ближе к единице, тем удачнее линейная модель приближает эмпирические данные.

3) Вычислим коэффициент средней эластичности

 

Разберёмся, что такое эластичность. Это восприимчивость. Податливость. Представьте, что уровень тревожности в обществе увеличился на 1%. А Петя стал больше тревожиться всего на 0,3%. Таким образом, Петя неэластичен к тревожности. Маша в то же время стала тревожиться больше на 5%. Таким образом, Маша эластична к тревожности.

Иными словами, эластичность Э – это количество процентов, на которое изменяется признак-результат при увеличении признака-фактора на 1%. Если , то зависимый показатель неэластичен к воздействию признака-фактора. Если же  – то эластичен.

Функция эластичности имеет вид: , где у(х) – функция регрессии, а  – её производная. И в подавляющем большинстве случаев эластичность зависит от значения х, так, для линейной регрессии получаем:  – и  мы можем вычислить эластичность в той или иной точке х. Но чаще рассчитывают средний коэффициент эластичности, по формуле: .

В нашей задаче:  – таким образом, при увеличении количества прогулов на 1%  успеваемость уменьшается в среднем на 0,93%.

Можно сказать, что эластичность близка к нейтральной – количество прогулов растёт и успеваемость падает примерно такими же темпами.

4) Бета – коэффициент β

Это ещё один относительный показатель влияния фактора на результат. β – это количество средних квадратических отклонений, на которое меняется признак-результат при увеличении признака-фактора на одно среднее квадратическое отклонение.

В чём смысл показателя? Давайте посмотрим на уравнение регрессии у=-6,0485х+147,32 и конкретно на коэффициент a=-6,0485.

Вопрос: это много или мало? (с точки зрения влияния прогулов на успеваемость). Ответ не очевиден. Если «а» очень велико по модулю, то это ещё не значит, что влияние существенно. И наоборот, «а» может составлять какие-то маленькие значения, но влияние окажется значительным. Всё относительно и всё зависит от колеблемости показателей, а эта самая колеблемость измеряется стандартными отклонениями. Которые и нужно сопоставить:

 

 –

 

таким образом, при увеличении количества прогулов на одно стандартное отклонение успеваемость уменьшается примерно на 0,72 своего стандартного отклонения.

Второй способ решения, в котором мы сначала находим коэффициент корреляции, а затем уравнение регрессии.

Линейный коэффициент корреляции вычислим по формуле: , где σх, σу – стандартные отклонения признаков Х, У.

 

Выражение в числителе называют корреляционным моментом или коэффициентом ковариации (совместной вариации) признаков, он рассчитывается следующим образом:  , где n – объём статистической совокупности, а , - средние значения признаков. Данный коэффициент показывает, насколько согласованно отклоняются парные значения  от своих средних в ту или иную сторону. Формулу можно упростить, в результате чего получится ранее использованная версия, без подробных выкладок: . Но сейчас мы пойдём другим путём.

 

Заполним расчётную таблицу:

 

Прогулы,

Плюшки,

12

42

0,25

-34,25

-8,5625

0,0625

1173,063

9

107

-2,75

30,75

-84,5625

7,5625

945,5625

8

100

-3,75

23,75

-89,0625

14,0625

564,0625

14

60

2,25

-16,25

-36,5625

5,0625

264,0625

15

78

3,25

1,75

5,6875

10,5625

3,0625

11

79

-0,75

2,75

-2,0625

0,5625

7,5625

10

90

-1,75

13,75

-24,0625

3,0625

189,0625

15

54

3,25

-22,25

-72,3125

10,5625

495,0625

94

610

: суммы:

-311,5

51,5

3641,5

 

При этом сначала рассчитываем левые нижние суммы и средние значения признаков:

 

 

и только потом заполняем оставшиеся столбцы таблицы.

Вычислим коэффициент ковариации:

 

.

 

Стандартные отклонения вычислим как квадратные корни из дисперсий:

 

  

 

  

 

Таким образом, коэффициент корреляции:

 

.  

 

И если нам известны значения r, σx, σy, то коэффициенты уравнения y=ax+b регрессии легко рассчитать по следующим формулам:

 

  


  

 

Таким образом, искомое уравнение: у=-6,0485х+147,32.

 

Контрольные вопросы

1. Диаграмма рассеяния

2. Уравнение линейной регрессии

3. Линейный коэффициент корреляции

4. Коэффициент детерминации

5. Коэффициент средней эластичности

6. Бета-коэффициент.