Раздел 4. Группировка данных

 

Лекция 11. Общая, групповые, внутригрупповая и межгрупповая дисперсии. Правило сложения дисперсий

 

Тема данной лекции не самая простая, а точнее, кропотливая, но мы научимся быстро находить все перечисленные дисперсии, а также разберем, что они означают и для чего нужны. Для освоения материала данной лекции нужно понимать, что такое дисперсия и группировка данных и уметь выполнять несложные расчёты. Для удобства понимания этих понятий все разберем в ходе решения задач.

Рассмотрим задачу 1, мы ее разбирали на прошлой лекции.

 

Задача 1 В результате выборочного исследования 30 станков рассчитаны их относительные показатели металлоёмкости (т/кВт):

 

Таблица 1 - Результаты выборочного исследования

6

1,1818

1,6667

3,3333

3,75

0,4

0,3333

0,5556

2,6667

0,15

0,6923

1,6667

1,2609

2,5

1,2

0,875

2,1667

0,5

0,5789

1,4286

2

2

0,5

0,8571

2,1429

8

0,9333

0,8182

2,3333

6

 

Рассчитать общую, групповые, внутригрупповую и межгрупповую дисперсию.

 

Решение.

По исходным данным мы сразу вычисляем общую среднюю:

 

 

Общая дисперсия – показатель не новый, и её мы уже неоднократно рассчитывали ранее. Для этого нужно найти квадраты отклонений вариант от общей средней:

 

 

 

 

Далее вычисляем их сумму и разделим её на объём совокупности:

 

 

Общая дисперсия σ2 характеризует меру рассеяния значений xi относительно общей средней . Чем дисперсия больше, тем дальше разбросаны xi от средней, и наоборот, чем дисперсия меньше, тем они к средней ближе.

Теперь вычислим групповые дисперсии. Для этого, очевидно, нужно разбить совокупность на группы, при этом группировку можно выполнить разными способами. На предыдущей лекции мы упорядочили варианты xi по возрастанию и провели удачную равнонаполненную группировку:

 

Таблица 2 - Равнонаполненная группировка

Номер группы, i

1

2

3

4

5

0,15

0,6923

1,1818

2

3,3333

0,3333

0,8182

1,2

2

3,75

0,4

0,8571

1,2609

2,1429

6

0,5

0,875

1,4286

2,1667

6

0,5

0,9333

1,6667

2,3333

8

0,5556

 

1,6667

2,5

 

0,5789

 

 

2,6667

 

Итого по группам (суммы):

3,0178

4,1759

8,4047

15,81

27,083

Количество станков в группе,

7

5

6

7

5

Средняя металлоемкость,  т/кВт

0,4311

0,8352

1,4008

2,2585

5,4167

 

В результате получилось 5 групп объёмом:

 

,

 

по которым мы рассчитаем групповые средние:

 

.

 

Найдем 5 групповых дисперсий. По каждой группе своя. Для этого нужно рассчитать квадраты отклонений от своих групповых средних:

 

Таблица 3 Расчет квадратов отклонений

0,079

0,0204

0,048

0,0668

4,3404

0,0096

0,0003

0,0403

0,0668

2,7778

0,001

0,0005

0,0196

0,0134

0,3403

0,0047

0,0016

0,0008

0,0084

0,3403

0,0047

0,0096

0,0707

0,0056

6,6736

0,0155

 

0,0707

0,0583

 

0,0218

 

 

0,1666

 

Итоги по группам (суммы):

0,1364

0,0324

0,25

0,386

14,472

 

Таким образом, групповые дисперсии:

 

 

Групповая дисперсия характеризует меру разброса значений группы относительно групповой средней. В нашем примере наименьшей получилась дисперсия по 2-й группе: , это означает, что варианты xi этой группы расположены достаточно близко к х2=0,8352. Максимальная дисперсия – в 5-й группе: , это означает, что многие варианты xi этой группы расположены достаточно далеко от .

Следующая дисперсия: внутригрупповая дисперсия – это средняя, а точнее средневзвешенная арифметическая групповых дисперсий:

 

 

 

Внутригрупповая дисперсия характеризует среднюю (средневзвешенную) вариацию значений xi по группам. Должен сказать, что название «внутригрупповая» не совсем удачное и часто вызывает путаницу, в немалом количестве источников под ним понимают групповую дисперсию, и это тоже вполне себе логично. И поэтому точнее звучит «средняя из групповых».

 

Найдем ещё одну дисперсию:

Рассмотрим общую среднюю  и групповые средние:

 

.

 

Межгрупповая дисперсия – это дисперсия групповых средних относительно общей средней:

 

 

Для компактности удобно оформить небольшую расчётную таблицу:

 

Таблица 4Расчётная таблица

2,3061

1,2422

0,3013

0,0954

12,02

Итого

16,143

6,2109

1,8079

0,6675

60,099

89,928

 

 

Следовательно,

 

 

Межгрупповая дисперсия характеризует меру разброса групповых средних относительно общей средней. Чем эта дисперсия больше, тем дальше расположены групповые средние  (многие из них) относительно общей средней .

Для общей, внутригрупповой и межгрупповой дисперсий справедливо так называемое правило сложение дисперсий:

 

,

 

то есть общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсии.

Примечание: в различных источниках встречаются разные обозначения этих дисперсий, и, кроме того, слагаемые правой части могут быть переставлены.

Проверим, всё ли мы правильно подсчитали: 3,3402≈0,5092+2,8308.

3,3402≈3,3401– получено верное равенство с точностью до погрешности округлений, таким образом, все дисперсии найдены верно.

После изучения технической стороны вопроса вникнем в смысл этих дисперсий.

Как отмечалось выше, общая дисперсия σ2 характеризует меру вариации всей совокупности. И здесь есть такой элементарный вопрос: а почему варианты xi вообще разные, почему значения варьируются? Очевидно, они варьируются под действием ряда факторов (как неслучайных, так и случайных). Таким образом, общая дисперсия учитывает все причины (факторы), которые обуславливают вариацию. Так в примере со станками разная металлоёмкость обусловлена различными типами станков, разными «поколениями» оборудования, разными условиями эксплуатации и, скорее всего, и другими причинами. И общая дисперсия σ2=3,3402 учитывает все эти факторы.

Теперь смотрим на правило сложения дисперсий: , то есть, общая дисперсия включает в себя внутригрупповую и межгрупповую дисперсию.

Межгрупповая дисперсия характеризует вариацию, обусловленную фактором, который лёг в основу группировки.

Внутригрупповая дисперсия отражает вариацию, обусловленную другими факторами.

И даже если мы сгруппировали данные формально (как в нашем примере), то в основе группировки всё равно лежит некоторый группировочный фактор. Так как числа-то в группах разные и тому есть причина.

Условно предположим, что станки разбиты на 5 групп по их «поколениям» – от новейших до «древнейших». Тогда межгрупповая дисперсия δ2≈2,28309 отражает вариацию, обусловленную этим фактором (тем фактом, что станки принадлежат разным «поколениям»). А внутригрупповая дисперсия  объясняется другими факторами.

Возникает вопрос: как оценить существенность влияния фактора, который лёг в основу группировки? Ответ очевиден: чем больше межгрупповая дисперсия δ2, тем сильнее влияние группировочного фактора.

Для оценки существенности влияния рассчитывают эмпирический коэффициент детерминации (причинности), равный отношению межгрупповой дисперсии к дисперсии общей:

 

.

 

Этот коэффициент характеризует долю вариации, объяснённую группировочным фактором.

В нашей задаче:

 

.

 

Таким образом, 85% вариации металлоёмкости объясняется тем фактом, что станки принадлежат разным «поколениям», и оставшаяся часть вариации (15%) объясняется другими причинами.

Следует отметить, что это всего лишь одна из математических моделей. В том смысле, что мы можем рассмотреть другой группировочный фактор, провести новую группировку, подсчитать дисперсии и, возможно, тоже получить высокий коэффициент детерминации. И в этом не будет противоречия, ибо второй фактор по своей сути или через «перекрёстную взаимосвязь» может «накладываться» на фактор первой модели.

Эмпирический коэффициент детерминации изменяется в пределах , и чем он ближе к единице, тем сильнее влияние группировочного фактора на вариацию статистической совокупности. Если , то речь идёт о строгой функциональной зависимости, в этом случае , то есть внутригрупповая дисперсия (по правилу сложения) равна нулю, и это в свою очередь означает, что в каждой группе находятся одинаковые и строго определённые значения (т.е. вариация по группам отсутствует).

Наоборот, чем ближе  к нулю, тем влияние группировочного фактора меньше; математически это означает, что межгрупповая дисперсия слишком мала, а это в свою очередь значит, что групповые средние  расположены очень близко к общей средней . И логика здесь проста: если мы провели группировку и получили примерно одинаковые средние по группам, то влияние фактора явно слабо. Но это ещё не значит, что сам фактор не важный.

Дисперсию можно вычислить по определению или по формуле, и поэтому в разных задачах вы можете встретить разные формулы. Кроме того, вам могут быть предложены различные вариационные ряды, например, ряды не просто с «одиночными» вариантами, но ещё и с частотами по каждой группе.