Практическое занятие 16.1.

 

Коэффициент ранговой корреляции Спирмена

 

На этом занятии познакомимся с понятием ранговой корреляции. Приведем несложный пример.

Представьте, что в вазе лежит яблоко, киви, банан, апельсин и мандарин. Как можно проранжировать это множество? Одна из возможностей: пронумеровать фрукты по возрастанию (либо убыванию) их массы. На первом месте самый лёгкий, на втором потяжелее, на третьем – ещё более тяжелый, … и на последнем – самый тяжелый:

 

Таблица 1

Фрукт

Масса, г

Ранг

Яблоко

143

3

Киви

120

2

Банан

189

4

Апельсин

256

5

Мандарин

71

1

 

Таким образом, каждому фрукту присвоен свой ранг (порядковый номер) по количественному критерию – массе, а именно, по возрастанию массы.

Но есть другие качественные критерий. Расположим эти фрукты в порядке личного вкусового предпочтения: что бы хотелось съесть в первую, вторую, третью, четвёртую и, наконец, последнюю очередь:

 

Таблица 2

Фрукт

Ранг

Яблоко

5

Киви

4

Банан

2

Апельсин

3

Мандарин

1

 

Таким образом, каждому фрукту тоже присвоен свой ранг.

 

Интересно сравнить качественный признак с количественным. Для этого нужно сопоставить соответствующие ранги по фруктам и оценить степень их близости:

 

Таблица 3

Фрукт

Масса, г

Ранг по массе

Ранг по вкусу

Яблоко

143

3

5

Киви

120

2

4

Банан

189

4

2

Апельсин

256

5

3

Мандарин

71

1

1

 

Иными словами, нужно определить, насколько тесна корреляционная зависимость вкуса от массы фрукта. Появляется возможность сравнить ранги – чтобы выяснить, насколько они коррелируют (совпадают). Есть математическая оценка этой связи, и называется она коэффициент ранговой корреляции Спирмена.

Задача.

Имеются выборочные данные по n=8 студентам: X – количество прогулов за некоторый период времени и У – суммарная успеваемость за этот период:

Таблица 4

Х

12

9

8

14

15

11

10

15

У

42

107

100

60

78

79

90

54

 

Найти коэффициент ранговой корреляции Спирмена, сделать вывод.

Ранее мы вычислили линейный коэффициент корреляции r≈-0,72, что говорит о сильной обратной корреляционной зависимости Y – суммарной успеваемости от X – количества прогулов.

 

Было найдено уравнение линейной регрессии y=-6,0485x-147,32 – это прямая, которая наилучшим образом (по сравнению с другими прямыми) приближает эмпирические точки i; yi):

 

Рисунок 1 – Линия регрессии

 

Но у такого подхода могут быть изъяны. Во-первых, прогулы и успеваемость – это величины дискретные (прерывные), но мы приблизили их непрерывной функцией (линейной). И во-вторых, зависимость может быть гораздо более сложной. Когда прогулов немного, успеваемость, вероятно, падает несущественно; когда их количество растёт – ситуация начинает ухудшаться, и, наконец, с некоторого момента достижения стремительно падают. Возможно, удастся подобрать кривую, удачно приближающую точки, но у нас мало данных (8 наблюдений всего).

Поэтому в качестве альтернативы уместно рассмотреть ранговый подход.

Сначала рассмотрим признак-фактор Х и для удобства упорядочим количество прогулов xi по возрастанию. Теперь каждому значению xi легко присвоить свой ранг dxi и записать ранги:

 

Таблица 5

 

 

 

 

 

 

 

 

 

xi

 

 

 

 

xi

dxi

 

 

 

dxi

12

 

8

 

 

12

5

 

 

8

1

 9

 

9

 

 

9

2

 

 

9

2

8

 

10

 

 

8

1

 

 

10

3

14

11

 

 

14

6

11

4

15

 

12

 

 

15

7

 

 

12

5

11

 

14

 

 

11

4

 

 

14

6

10

 

15

 

 

10

3

 

 

15

7

15

 

15

 

 

15

8

 

 

15

8

 

И ещё заметим такой момент, у нас есть одинаковые значения x5=15, x8=15, но ранги у них разные (7 и 8). В подобных ситуациях обычно находят средний арифметический ранг, который присваивают каждой варианте.

В нашей задаче одинаковых значений два, поэтому их средний ранг составит:  – вот теперь всё справедливо, относим дробный ранг 7,5 и к варианте x5=15 и к варианте x8=15.

 

Аналогично ранжируем значения yi признака-результата Y  обязательно по возрастанию значений. Ранги dyi легко проставить без фактической сортировки значений yi:

 

Таблица 6

xi

dxi

yi

dyi

12

5

42

1

9

2

107

8

8

1

100

7

14

6

60

3

15

7,5

78

4

11

4

79

5

10

3

90

6

15

7,5

54

2

 

Среди значений yi нет одинаковых, и поэтому ранги не нуждаются в дополнительной корректировке.

После ранжирования полезно выполнить проверку. Суммы «иксовых» и «игрековых» рангов должны совпадать и равняться , в нашей задаче объём выборки составляет n=8 и обе суммы равны .

 

Оценим тесноту связи между рангами. Для этого нужно вычислить коэффициент ранговой корреляции Спирмена, и это – есть в точности линейный коэффициент корреляции Пирсона между рангами dxi и dyi.

Если нет дробных рангов, то коэффициент ранговой корреляции Спирмена rs удобно вычислить по упрощенной формуле:

 

 

где n – объем совокупности, а  – квадраты разностей между соответствующими рангами.

Если же дробные ранги есть (это означает, что есть одинаковые значения xi и / или yi), то возможны варианты. В том случае, если точность вычислений не критична и дробных рангов не так много, можно пользоваться той же формулой, но она будет давать приближённый результат:

 

 

В нашей задаче дробные ранги есть, и мы выберем упрощенный вариант. Для этого вычислим разности соответствующих рангов di=dxi-dyi , их квадраты di2=(dxi-dyi)2  и сумму . Заполним расчётную таблицу:

 

Таблица 7

xi

dxi

yi

dyi

di=dxi-dyi

di2

12

5

42

1

4

16

9

2

107

8

-6

36

8

1

100

7

-6

36

14

6

60

3

3

9

15

7,5

78

4

3,5

12,25

11

4

79

5

-1

1

10

3

90

6

-3

9

15

7,5

54

2

5,5

30,25

 

36

=

36

суммы

149,5

 

 

Так как среди рангов есть дробные, то формула даёт лишь приближенный результат:

 

 

Поскольку rs – это линейный коэффициент корреляции между рангами, то его интерпретация будет такой же. Коэффициент ранговой корреляции изменяется в пределах  и чем он ближе по модулю к единице, тем теснее ранговая корреляционная зависимость.

 

Для оценки тесноты связи используем шкалу Чеддока.

 

Таблица 8 - шкала Чеддока

Диапазон значений

Ранговая корреляционная зависимость У от Х

0-0,1

практически отсутствует

0,1-0,3

слабая

0,3-0,5

умеренная

0,5-0,7

заметная

0,7-0,9

сильная

0,9-0,99

очень сильная

0,99-1

практически линейная зависимость рангов

 

при этом если r<0, то корреляционная связь обратная, а если r>0, то прямая и записываем ответ: rs≈-0,7798, таким образом, существует сильная обратная корреляционная зависимость Y – суммарной успеваемости от X – количества прогулов.

К недостатку рангового коэффициента корреляции Спирмена можно отнести тот факт, что он практически ничего не говорит о форме зависимости. Но эта форма может быть трудноопределима или не определима вовсе. Как, например, при сопоставлении качественных признаков. По этой причине ранговый подход нашёл широчайшее применение в психологии, социологии и других гуманитарных направлениях.