Практическое занятие 16.1.
Коэффициент ранговой корреляции Спирмена
На этом занятии познакомимся с понятием ранговой корреляции. Приведем несложный пример.
Представьте, что в вазе лежит яблоко, киви, банан, апельсин и мандарин. Как можно проранжировать это множество? Одна из возможностей: пронумеровать фрукты по возрастанию (либо убыванию) их массы. На первом месте самый лёгкий, на втором потяжелее, на третьем – ещё более тяжелый, … и на последнем – самый тяжелый:
Таблица 1 |
||
Фрукт |
Масса, г |
Ранг |
Яблоко |
143 |
3 |
Киви |
120 |
2 |
Банан |
189 |
4 |
Апельсин |
256 |
5 |
Мандарин |
71 |
1 |
Таким образом, каждому фрукту присвоен свой ранг (порядковый номер) по количественному критерию – массе, а именно, по возрастанию массы.
Но есть другие качественные критерий. Расположим эти фрукты в порядке личного вкусового предпочтения: что бы хотелось съесть в первую, вторую, третью, четвёртую и, наконец, последнюю очередь:
Таблица 2 |
|
Фрукт |
Ранг |
Яблоко |
5 |
Киви |
4 |
Банан |
2 |
Апельсин |
3 |
Мандарин |
1 |
Таким образом, каждому фрукту тоже присвоен свой ранг.
Интересно сравнить качественный признак с количественным. Для этого нужно сопоставить соответствующие ранги по фруктам и оценить степень их близости:
Таблица 3 |
|||
Фрукт |
Масса, г |
Ранг по массе |
Ранг по вкусу |
Яблоко |
143 |
3 |
5 |
Киви |
120 |
2 |
4 |
Банан |
189 |
4 |
2 |
Апельсин |
256 |
5 |
3 |
Мандарин |
71 |
1 |
1 |
Иными словами, нужно определить, насколько тесна корреляционная зависимость вкуса от массы фрукта. Появляется возможность сравнить ранги – чтобы выяснить, насколько они коррелируют (совпадают). Есть математическая оценка этой связи, и называется она коэффициент ранговой корреляции Спирмена.
Задача.
Имеются выборочные данные по n=8 студентам: X – количество прогулов за некоторый период времени и У – суммарная успеваемость за этот период:
Таблица 4 |
||||||||
Х |
12 |
9 |
8 |
14 |
15 |
11 |
10 |
15 |
У |
42 |
107 |
100 |
60 |
78 |
79 |
90 |
54 |
Найти коэффициент ранговой корреляции Спирмена, сделать вывод.
Ранее мы вычислили линейный коэффициент корреляции r≈-0,72, что говорит о сильной обратной корреляционной зависимости Y – суммарной успеваемости от X – количества прогулов.
Было найдено уравнение линейной регрессии y=-6,0485x-147,32 – это прямая, которая наилучшим образом (по сравнению с другими прямыми) приближает эмпирические точки (хi; yi):
Рисунок 1 – Линия регрессии
Но у такого подхода могут быть изъяны. Во-первых, прогулы и успеваемость – это величины дискретные (прерывные), но мы приблизили их непрерывной функцией (линейной). И во-вторых, зависимость может быть гораздо более сложной. Когда прогулов немного, успеваемость, вероятно, падает несущественно; когда их количество растёт – ситуация начинает ухудшаться, и, наконец, с некоторого момента достижения стремительно падают. Возможно, удастся подобрать кривую, удачно приближающую точки, но у нас мало данных (8 наблюдений всего).
Поэтому в качестве альтернативы уместно рассмотреть ранговый подход.
Сначала рассмотрим признак-фактор Х и для удобства упорядочим количество прогулов xi по возрастанию. Теперь каждому значению xi легко присвоить свой ранг dxi и записать ранги:
Таблица 5 |
|
|
|
|
|
|
|
|
|
|
xi |
|
|
|
|
xi |
dxi |
|
|
|
dxi |
12 |
|
8 |
|
|
12 |
5 |
|
|
8 |
1 |
9 |
|
9 |
|
|
9 |
2 |
|
|
9 |
2 |
8 |
|
10 |
|
|
8 |
1 |
|
|
10 |
3 |
14 |
→ |
11 |
|
|
14 |
6 |
→ |
11 |
4 |
|
15 |
|
12 |
|
|
15 |
7 |
|
|
12 |
5 |
11 |
|
14 |
|
|
11 |
4 |
|
|
14 |
6 |
10 |
|
15 |
|
|
10 |
3 |
|
|
15 |
7 |
15 |
|
15 |
|
|
15 |
8 |
|
|
15 |
8 |
И ещё заметим такой момент, у нас есть одинаковые значения x5=15, x8=15, но ранги у них разные (7 и 8). В подобных ситуациях обычно находят средний арифметический ранг, который присваивают каждой варианте.
В нашей задаче одинаковых значений два, поэтому их средний ранг составит: – вот теперь всё справедливо, относим дробный ранг 7,5 и к варианте x5=15 и к варианте x8=15.
Аналогично ранжируем значения yi признака-результата Y– обязательно по возрастанию значений. Ранги dyi легко проставить без фактической сортировки значений yi:
Таблица 6 |
|||
xi |
dxi |
yi |
dyi |
12 |
5 |
42 |
1 |
9 |
2 |
107 |
8 |
8 |
1 |
100 |
7 |
14 |
6 |
60 |
3 |
15 |
7,5 |
78 |
4 |
11 |
4 |
79 |
5 |
10 |
3 |
90 |
6 |
15 |
7,5 |
54 |
2 |
Среди значений yi нет одинаковых, и поэтому ранги не нуждаются в дополнительной корректировке.
После ранжирования полезно выполнить проверку. Суммы «иксовых» и «игрековых» рангов должны совпадать и равняться , в нашей задаче объём выборки составляет n=8 и обе суммы равны .
Оценим тесноту связи между рангами. Для этого нужно вычислить коэффициент ранговой корреляции Спирмена, и это – есть в точности линейный коэффициент корреляции Пирсона между рангами dxi и dyi.
Если нет дробных рангов, то коэффициент ранговой корреляции Спирмена rs удобно вычислить по упрощенной формуле:
где n – объем совокупности, а – квадраты разностей между соответствующими рангами.
Если же дробные ранги есть (это означает, что есть одинаковые значения xi и / или yi), то возможны варианты. В том случае, если точность вычислений не критична и дробных рангов не так много, можно пользоваться той же формулой, но она будет давать приближённый результат:
В нашей задаче дробные ранги есть, и мы выберем упрощенный вариант. Для этого вычислим разности соответствующих рангов di=dxi-dyi , их квадраты di2=(dxi-dyi)2 и сумму . Заполним расчётную таблицу:
Таблица 7 |
|||||
xi |
dxi |
yi |
dyi |
di=dxi-dyi |
di2 |
12 |
5 |
42 |
1 |
4 |
16 |
9 |
2 |
107 |
8 |
-6 |
36 |
8 |
1 |
100 |
7 |
-6 |
36 |
14 |
6 |
60 |
3 |
3 |
9 |
15 |
7,5 |
78 |
4 |
3,5 |
12,25 |
11 |
4 |
79 |
5 |
-1 |
1 |
10 |
3 |
90 |
6 |
-3 |
9 |
15 |
7,5 |
54 |
2 |
5,5 |
30,25 |
|
36 |
= |
36 |
суммы |
149,5 |
Так как среди рангов есть дробные, то формула даёт лишь приближенный результат:
Поскольку rs – это линейный коэффициент корреляции между рангами, то его интерпретация будет такой же. Коэффициент ранговой корреляции изменяется в пределах и чем он ближе по модулю к единице, тем теснее ранговая корреляционная зависимость.
Для оценки тесноты связи используем шкалу Чеддока.
Таблица 8 - шкала Чеддока |
|
Диапазон значений |
Ранговая корреляционная зависимость У от Х |
0-0,1 |
практически отсутствует |
0,1-0,3 |
слабая |
0,3-0,5 |
умеренная |
0,5-0,7 |
заметная |
0,7-0,9 |
сильная |
0,9-0,99 |
очень сильная |
0,99-1 |
практически линейная зависимость рангов |
при этом если r<0, то корреляционная связь обратная, а если r>0, то прямая и записываем ответ: rs≈-0,7798, таким образом, существует сильная обратная корреляционная зависимость Y – суммарной успеваемости от X – количества прогулов.
К недостатку рангового коэффициента корреляции Спирмена можно отнести тот факт, что он практически ничего не говорит о форме зависимости. Но эта форма может быть трудноопределима или не определима вовсе. Как, например, при сопоставлении качественных признаков. По этой причине ранговый подход нашёл широчайшее применение в психологии, социологии и других гуманитарных направлениях.