Раздел 4. Группировка данных

 

Лекция 10. Виды группировок

 

Рассмотрим некоторую статистическую совокупность, например, множество студентов ВУЗа. Очевидно, данное множество можно исследовать как единое целое - подсчитать общее количество студентов, вычислить их средний возраст, среднюю успеваемость и другие показатели. Благо, статистических данных - много. Но всё это общие характеристики. А хотелось бы деталей. И в таких случаях совокупность целесообразно разделить на группы, то есть выполнить группировку.

Группировка - это разделение статистической совокупности (не важно, генеральной или выборочной) на группы по одному или большему количеству признаков. И разделить её можно по-разному.

 

План лекции

 

1. Основные виды группировок;

2. Структурная группировка;

3. Равноинтервальная группировка.

 

1. Основные виды группировок

 

Группировка — это разделение статистической совокупности (не важно, генеральной или выборочной) на группы по одному или большему количеству признаков. И разделить её можно по-разному.

1. выделить качественно однородные группы. Например, разбить студентов ВУЗа на лиц М и Ж пола. Такую группировку называют типологической. Студенты уже по факту разделены на факультеты - и это тоже пример типологической группировки, но уже по другому признаку.

Типологическая группировка это разделение неоднородной статистической совокупности на качественно однородные группы.

Само собой, полученные группы исследуются по отдельности и сравниваются - как между собой, так и с общими показателями. При этом проводится структурная группировка это разделение качественно однородной совокупности по какому-либо вариационному признаку. По росту, весу, уровню IQ, скорости движения, периоду полураспада и так далее.

В качестве простейшего условного примера рассмотрим среднюю успеваемость студентов ВУЗа: (общая средняя). Однако это не слишком информативный показатель.

 

Гораздо интереснее провести типологическую группировку, например, разделить всех студентов на «физиков» и «лириков», и подсчитать групповые средние:   

Или рассчитать групповые средние по факультетам:

 

.

 

И выяснить, почему это на 2-м факультете такая низкая успеваемость по сравнению со средней успеваемостью  по ВУЗу.

Довольно часто грань между типологической и структурной группировкой стирается. Приведу избитый, но показательный пример с банками. Все банки можно разделить на мелкие, средние и крупные (типологическая группировка). Но, с другой стороны, эти категории основаны на количественном показателе, мелкие - меньше одного, средние - от одного до трёх, и крупные - больше трёх. То есть, это одновременно и структурная группировка.

Следует отметить, что при кажущейся простоте провести подобную группировку бывает не так-то просто. Трудность состоит в том, чтобы грамотно выделить различные категории (типы), и для этого исследуют целый комплекс показателей. 

 

Кроме того, существуют и другие виды группировок, в частности, аналитическая группировка и комбинационная группировка. Но о них позже, после практической разминки. Ранее мы уже неоднократно проводили группировку данных, давайте вспомним пару примеров:

Пример 1.

По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды:

 

4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.

 

В этой задаче дана однородная совокупность - рабочие цеха, и нами была проведена их структурная группировка по разряду, в результате чего получен дискретный вариационный ряд:

 

Таблица 1 - Дискретный вариационный ряд

2

3

4

5

6

3

5

8

6

3

 

 

где - разряды, а  - количество рабочих того или иного разряда.

 

Пример 2.

По результатам исследования цены некоторого товара в различных торговых точках города, получены следующие данные (в некоторых денежных единицах):

 

Таблица 2 Результаты исследований

7,5

7,6

8,7

6,1

10,6

9,8

7

6

8,3

6

8,2

8,5

7,4

7,1

9,5

6,8

9,6

6,3

6,3

8,5

5,8

7,5

9,2

7,2

7

8

7,5

7,5

8

6,5

 

В этом примере мы провели структурную группировку (товаров по их цене) и получили интервальный вариационный ряд:

 

Таблица 3 - Интервальный вариационный ряд

Диапазон

цен

5,7-6,7

6,7-7,7

7,7-8,7

8,7-9,7

9,7-10,7

ni

7

11

6

4

2

 

где - количество товаров из того или иного ценового интервала.

Мы продолжим группировать данные. Разберём структурную и/или аналитическую группировку.

 

2. Структурная группировка

 

Структурная группировка – это группировка качественно однородной совокупности по числовому признаку.

Задача 1.

В результате выборочного исследования 30 станков рассчитаны их относительные показатели металлоёмкости (т/кВт):

 

Таблица 4 - Результаты выборочного исследования

6

1,1818

1,6667

3,3333

3,75

0,4

0,3333

0,5556

2,6667

0,15

0,6923

1,6667

1,2609

2,5

1,2

0,875

2,1667

0,5

0,5789

1,4286

2

2

0,5

0,8571

2,1429

8

0,9333

0,8182

2,3333

6

 

Требуется:

а) вычислить общую (выборочную) среднюю;

б) выполнить структурную равноинтервальную группировку;

Но прежде, немного о содержании. Относительная металлоемкость — это частное от деления веса станка на мощность его двигателя (тонн на киловатт). Разделим, например, 5 тонн на 2 кВт и получили 2,5 тонны на один кВт. Эти значения и представлены в таблице.

Решение.

а) Очевидно, что для нахождения выборочной средней нужно просуммировать все значения и разделить полученный результат на объём выборки:

 

 

3. Равноинтервальная группировка

 

б) Выполним структурную равноинтервальную группировку.

Нужно построить обычный интервальный вариационный ряд с равными интервалами.

Кратко повторяем алгоритм.

Для определения их оптимального количества интервалов используем формулу Стерджеса:

 

 

5 интервалов (результат округляем влево).

 

Найдём минимальное xmin=0,15 и максимальное xmax=8 значения и вычислим размах вариации:

 

R= xmax - xmin=8-0,15=7,85.

 

Таким образом, длина частичного интервала составит:

 

.

 

Разбиваем на интервалы и подсчитываем количество станков  в каждом из них:

 

Таблица 5 Интервальный вариационный ряд

Интервалы (т/кВт)

0,15 - 1,72

18

1,72-3,29

7

3,29 - 4,86

2

4,86 - 6,43

2

6,43 - 8

1

 

Контроль: , что и требовалось проверить.

 

И уже сейчас мы видим, что построенный вариационный ряд не слишком хорош - по той причине, что в трёх последних интервалах слишком мало станков, и считать по ним средние значения и другие показатели не вполне корректно. Во избежание этого недостатка используют разные методы, в частности, другие методы группировки. Другим методом группировки является равнонаполненная группировка — это разбиение совокупности на группы с одинаковым (или примерно одинаковым) количеством объектов, станков в данном случае. Но интервалы здесь получатся разной длины. Примеры решения таких задач и другие способы группировки данных рассмотрим на практических занятиях.