Лекция 10. Виды группировок
Рассмотрим некоторую статистическую совокупность, например, множество студентов ВУЗа. Очевидно, данное множество можно исследовать как единое целое - подсчитать общее количество студентов, вычислить их средний возраст, среднюю успеваемость и другие показатели. Благо, статистических данных - много. Но всё это общие характеристики. А хотелось бы деталей. И в таких случаях совокупность целесообразно разделить на группы, то есть выполнить группировку.
Группировка - это разделение статистической совокупности (не важно, генеральной или выборочной) на группы по одному или большему количеству признаков. И разделить её можно по-разному.
План лекции
1. Основные виды группировок;
2. Структурная группировка;
3. Равноинтервальная группировка.
1. Основные виды группировок
Группировка — это разделение статистической совокупности (не важно, генеральной или выборочной) на группы по одному или большему количеству признаков. И разделить её можно по-разному.
1. выделить качественно однородные группы. Например, разбить студентов ВУЗа на лиц М и Ж пола. Такую группировку называют типологической. Студенты уже по факту разделены на факультеты - и это тоже пример типологической группировки, но уже по другому признаку.
Типологическая группировка — это разделение неоднородной статистической совокупности на качественно однородные группы.
Само собой, полученные группы исследуются по отдельности и сравниваются - как между собой, так и с общими показателями. При этом проводится структурная группировка — это разделение качественно однородной совокупности по какому-либо вариационному признаку. По росту, весу, уровню IQ, скорости движения, периоду полураспада и так далее.
В качестве простейшего условного примера рассмотрим среднюю успеваемость студентов ВУЗа: (общая средняя). Однако это не слишком информативный показатель.
Гораздо интереснее провести типологическую группировку, например, разделить всех студентов на «физиков» и «лириков», и подсчитать групповые средние:
Или рассчитать групповые средние по факультетам:
.
И выяснить, почему это на 2-м факультете такая низкая успеваемость по сравнению со средней успеваемостью по ВУЗу.
Довольно часто грань между типологической и структурной группировкой стирается. Приведу избитый, но показательный пример с банками. Все банки можно разделить на мелкие, средние и крупные (типологическая группировка). Но, с другой стороны, эти категории основаны на количественном показателе, мелкие - меньше одного, средние - от одного до трёх, и крупные - больше трёх. То есть, это одновременно и структурная группировка.
Следует отметить, что при кажущейся простоте провести подобную группировку бывает не так-то просто. Трудность состоит в том, чтобы грамотно выделить различные категории (типы), и для этого исследуют целый комплекс показателей.
Кроме того, существуют и другие виды группировок, в частности, аналитическая группировка и комбинационная группировка. Но о них позже, после практической разминки. Ранее мы уже неоднократно проводили группировку данных, давайте вспомним пару примеров:
Пример 1.
По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды:
4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.
В этой задаче дана однородная совокупность - рабочие цеха, и нами была проведена их структурная группировка по разряду, в результате чего получен дискретный вариационный ряд:
Таблица 1 - Дискретный вариационный ряд |
|||||
|
2 |
3 |
4 |
5 |
6 |
|
3 |
5 |
8 |
6 |
3 |
где - разряды, а - количество рабочих того или иного разряда.
Пример 2.
По результатам исследования цены некоторого товара в различных торговых точках города, получены следующие данные (в некоторых денежных единицах):
Таблица 2 – Результаты исследований |
|||||||||
7,5 |
7,6 |
8,7 |
6,1 |
10,6 |
9,8 |
7 |
6 |
8,3 |
6 |
8,2 |
8,5 |
7,4 |
7,1 |
9,5 |
6,8 |
9,6 |
6,3 |
6,3 |
8,5 |
5,8 |
7,5 |
9,2 |
7,2 |
7 |
8 |
7,5 |
7,5 |
8 |
6,5 |
В этом примере мы провели структурную группировку (товаров по их цене) и получили интервальный вариационный ряд:
Таблица 3 - Интервальный вариационный ряд |
|||||
Диапазон цен |
5,7-6,7 |
6,7-7,7 |
7,7-8,7 |
8,7-9,7 |
9,7-10,7 |
ni |
7 |
11 |
6 |
4 |
2 |
где - количество товаров из того или иного ценового интервала.
Мы продолжим группировать данные. Разберём структурную и/или аналитическую группировку.
2. Структурная группировка
Структурная группировка – это группировка качественно однородной совокупности по числовому признаку.
Задача 1.
В результате выборочного исследования 30 станков рассчитаны их относительные показатели металлоёмкости (т/кВт):
Таблица 4 - Результаты выборочного исследования |
|||||||||
6 |
1,1818 |
1,6667 |
3,3333 |
3,75 |
0,4 |
0,3333 |
0,5556 |
2,6667 |
0,15 |
0,6923 |
1,6667 |
1,2609 |
2,5 |
1,2 |
0,875 |
2,1667 |
0,5 |
0,5789 |
1,4286 |
2 |
2 |
0,5 |
0,8571 |
2,1429 |
8 |
0,9333 |
0,8182 |
2,3333 |
6 |
Требуется:
а) вычислить общую (выборочную) среднюю;
б) выполнить структурную равноинтервальную группировку;
Но прежде, немного о содержании. Относительная металлоемкость — это частное от деления веса станка на мощность его двигателя (тонн на киловатт). Разделим, например, 5 тонн на 2 кВт и получили 2,5 тонны на один кВт. Эти значения и представлены в таблице.
Решение.
а) Очевидно, что для нахождения выборочной средней нужно просуммировать все значения и разделить полученный результат на объём выборки:
3. Равноинтервальная группировка
б) Выполним структурную равноинтервальную группировку.
Нужно построить обычный интервальный вариационный ряд с равными интервалами.
Кратко повторяем алгоритм.
Для определения их оптимального количества интервалов используем формулу Стерджеса:
5 интервалов (результат округляем влево).
Найдём минимальное xmin=0,15 и максимальное xmax=8 значения и вычислим размах вариации:
R= xmax - xmin=8-0,15=7,85.
Таким образом, длина частичного интервала составит:
.
Разбиваем на интервалы и подсчитываем количество станков в каждом из них:
Таблица 5 – Интервальный вариационный ряд |
|
Интервалы (т/кВт) |
|
0,15 - 1,72 |
18 |
1,72-3,29 |
7 |
3,29 - 4,86 |
2 |
4,86 - 6,43 |
2 |
6,43 - 8 |
1 |
Контроль: , что и требовалось проверить.
И уже сейчас мы видим, что построенный вариационный ряд не слишком хорош - по той причине, что в трёх последних интервалах слишком мало станков, и считать по ним средние значения и другие показатели не вполне корректно. Во избежание этого недостатка используют разные методы, в частности, другие методы группировки. Другим методом группировки является равнонаполненная группировка — это разбиение совокупности на группы с одинаковым (или примерно одинаковым) количеством объектов, станков в данном случае. Но интервалы здесь получатся разной длины. Примеры решения таких задач и другие способы группировки данных рассмотрим на практических занятиях.