Раздел 4. Группировка данных
Лекция 11. Общая, групповые, внутригрупповая и межгрупповая дисперсии. Правило сложения дисперсий
Тема данной лекции не самая простая, а точнее, кропотливая, но мы научимся быстро находить все перечисленные дисперсии, а также разберем, что они означают и для чего нужны. Для освоения материала данной лекции нужно понимать, что такое дисперсия и группировка данных и уметь выполнять несложные расчёты. Для удобства понимания этих понятий все разберем в ходе решения задач.
Рассмотрим задачу 1, мы ее разбирали на прошлой лекции.
Задача 1 В результате выборочного исследования 30 станков рассчитаны их относительные показатели металлоёмкости (т/кВт):
Таблица 1 - Результаты выборочного исследования |
|||||||||
6 |
1,1818 |
1,6667 |
3,3333 |
3,75 |
0,4 |
0,3333 |
0,5556 |
2,6667 |
0,15 |
0,6923 |
1,6667 |
1,2609 |
2,5 |
1,2 |
0,875 |
2,1667 |
0,5 |
0,5789 |
1,4286 |
2 |
2 |
0,5 |
0,8571 |
2,1429 |
8 |
0,9333 |
0,8182 |
2,3333 |
6 |
Рассчитать общую, групповые, внутригрупповую и межгрупповую дисперсию.
Решение.
По исходным данным мы сразу вычисляем общую среднюю:
Общая дисперсия – показатель не новый, и её мы уже неоднократно рассчитывали ранее. Для этого нужно найти квадраты отклонений вариант от общей средней:
Далее вычисляем их сумму и разделим её на объём совокупности:
Общая дисперсия σ2 характеризует меру рассеяния значений xi относительно общей средней . Чем дисперсия больше, тем дальше разбросаны xi от средней, и наоборот, чем дисперсия меньше, тем они к средней ближе.
Теперь вычислим групповые дисперсии. Для этого, очевидно, нужно разбить совокупность на группы, при этом группировку можно выполнить разными способами. На предыдущей лекции мы упорядочили варианты xi по возрастанию и провели удачную равнонаполненную группировку:
Таблица 2 - Равнонаполненная группировка |
||||
Номер группы, i |
||||
1 |
2 |
3 |
4 |
5 |
0,15 |
0,6923 |
1,1818 |
2 |
3,3333 |
0,3333 |
0,8182 |
1,2 |
2 |
3,75 |
0,4 |
0,8571 |
1,2609 |
2,1429 |
6 |
0,5 |
0,875 |
1,4286 |
2,1667 |
6 |
0,5 |
0,9333 |
1,6667 |
2,3333 |
8 |
0,5556 |
|
1,6667 |
2,5 |
|
0,5789 |
|
|
2,6667 |
|
Итого по группам (суммы): |
||||
3,0178 |
4,1759 |
8,4047 |
15,81 |
27,083 |
Количество станков в группе, |
||||
7 |
5 |
6 |
7 |
5 |
Средняя металлоемкость, т/кВт |
||||
0,4311 |
0,8352 |
1,4008 |
2,2585 |
5,4167 |
В результате получилось 5 групп объёмом:
,
по которым мы рассчитаем групповые средние:
.
Найдем 5 групповых дисперсий. По каждой группе своя. Для этого нужно рассчитать квадраты отклонений от своих групповых средних:
Таблица 3 – Расчет квадратов отклонений |
||||
|
|
|
|
|
0,079 |
0,0204 |
0,048 |
0,0668 |
4,3404 |
0,0096 |
0,0003 |
0,0403 |
0,0668 |
2,7778 |
0,001 |
0,0005 |
0,0196 |
0,0134 |
0,3403 |
0,0047 |
0,0016 |
0,0008 |
0,0084 |
0,3403 |
0,0047 |
0,0096 |
0,0707 |
0,0056 |
6,6736 |
0,0155 |
|
0,0707 |
0,0583 |
|
0,0218 |
|
|
0,1666 |
|
Итоги по группам (суммы): |
||||
0,1364 |
0,0324 |
0,25 |
0,386 |
14,472 |
Таким образом, групповые дисперсии:
Групповая дисперсия характеризует меру разброса значений группы относительно групповой средней. В нашем примере наименьшей получилась дисперсия по 2-й группе: , это означает, что варианты xi этой группы расположены достаточно близко к х2=0,8352. Максимальная дисперсия – в 5-й группе: , это означает, что многие варианты xi этой группы расположены достаточно далеко от .
Следующая дисперсия: внутригрупповая дисперсия – это средняя, а точнее средневзвешенная арифметическая групповых дисперсий:
Внутригрупповая дисперсия характеризует среднюю (средневзвешенную) вариацию значений xi по группам. Должен сказать, что название «внутригрупповая» не совсем удачное и часто вызывает путаницу, в немалом количестве источников под ним понимают групповую дисперсию, и это тоже вполне себе логично. И поэтому точнее звучит «средняя из групповых».
Найдем ещё одну дисперсию:
Рассмотрим общую среднюю и групповые средние:
.
Межгрупповая дисперсия – это дисперсия групповых средних относительно общей средней:
Для компактности удобно оформить небольшую расчётную таблицу:
Таблица 4 – Расчётная таблица |
||||||
|
2,3061 |
1,2422 |
0,3013 |
0,0954 |
12,02 |
Итого |
|
16,143 |
6,2109 |
1,8079 |
0,6675 |
60,099 |
89,928 |
Следовательно,
Межгрупповая дисперсия характеризует меру разброса групповых средних относительно общей средней. Чем эта дисперсия больше, тем дальше расположены групповые средние (многие из них) относительно общей средней .
Для общей, внутригрупповой и межгрупповой дисперсий справедливо так называемое правило сложение дисперсий:
,
то есть общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсии.
Примечание: в различных источниках встречаются разные обозначения этих дисперсий, и, кроме того, слагаемые правой части могут быть переставлены.
Проверим, всё ли мы правильно подсчитали: 3,3402≈0,5092+2,8308.
3,3402≈3,3401– получено верное равенство с точностью до погрешности округлений, таким образом, все дисперсии найдены верно.
После изучения технической стороны вопроса вникнем в смысл этих дисперсий.
Как отмечалось выше, общая дисперсия σ2 характеризует меру вариации всей совокупности. И здесь есть такой элементарный вопрос: а почему варианты xi вообще разные, почему значения варьируются? Очевидно, они варьируются под действием ряда факторов (как неслучайных, так и случайных). Таким образом, общая дисперсия учитывает все причины (факторы), которые обуславливают вариацию. Так в примере со станками разная металлоёмкость обусловлена различными типами станков, разными «поколениями» оборудования, разными условиями эксплуатации и, скорее всего, и другими причинами. И общая дисперсия σ2=3,3402 учитывает все эти факторы.
Теперь смотрим на правило сложения дисперсий: , то есть, общая дисперсия включает в себя внутригрупповую и межгрупповую дисперсию.
Межгрупповая дисперсия характеризует вариацию, обусловленную фактором, который лёг в основу группировки.
Внутригрупповая дисперсия отражает вариацию, обусловленную другими факторами.
И даже если мы сгруппировали данные формально (как в нашем примере), то в основе группировки всё равно лежит некоторый группировочный фактор. Так как числа-то в группах разные и тому есть причина.
Условно предположим, что станки разбиты на 5 групп по их «поколениям» – от новейших до «древнейших». Тогда межгрупповая дисперсия δ2≈2,28309 отражает вариацию, обусловленную этим фактором (тем фактом, что станки принадлежат разным «поколениям»). А внутригрупповая дисперсия объясняется другими факторами.
Возникает вопрос: как оценить существенность влияния фактора, который лёг в основу группировки? Ответ очевиден: чем больше межгрупповая дисперсия δ2, тем сильнее влияние группировочного фактора.
Для оценки существенности влияния рассчитывают эмпирический коэффициент детерминации (причинности), равный отношению межгрупповой дисперсии к дисперсии общей:
.
Этот коэффициент характеризует долю вариации, объяснённую группировочным фактором.
В нашей задаче:
.
Таким образом, 85% вариации металлоёмкости объясняется тем фактом, что станки принадлежат разным «поколениям», и оставшаяся часть вариации (15%) объясняется другими причинами.
Следует отметить, что это всего лишь одна из математических моделей. В том смысле, что мы можем рассмотреть другой группировочный фактор, провести новую группировку, подсчитать дисперсии и, возможно, тоже получить высокий коэффициент детерминации. И в этом не будет противоречия, ибо второй фактор по своей сути или через «перекрёстную взаимосвязь» может «накладываться» на фактор первой модели.
Эмпирический коэффициент детерминации изменяется в пределах , и чем он ближе к единице, тем сильнее влияние группировочного фактора на вариацию статистической совокупности. Если , то речь идёт о строгой функциональной зависимости, в этом случае , то есть внутригрупповая дисперсия (по правилу сложения) равна нулю, и это в свою очередь означает, что в каждой группе находятся одинаковые и строго определённые значения (т.е. вариация по группам отсутствует).
Наоборот, чем ближе к нулю, тем влияние группировочного фактора меньше; математически это означает, что межгрупповая дисперсия слишком мала, а это в свою очередь значит, что групповые средние расположены очень близко к общей средней . И логика здесь проста: если мы провели группировку и получили примерно одинаковые средние по группам, то влияние фактора явно слабо. Но это ещё не значит, что сам фактор не важный.
Дисперсию можно вычислить по определению или по формуле, и поэтому в разных задачах вы можете встретить разные формулы. Кроме того, вам могут быть предложены различные вариационные ряды, например, ряды не просто с «одиночными» вариантами, но ещё и с частотами по каждой группе.