Практическое занятие 10.2.
Перегруппировка данных
Группировка - это разделение статистической совокупности (не важно, генеральной или выборочной) на группы по одному или большему количеству признаков. И разделить её можно по-разному. После получения первоначальной группировки, иногда возникает необходимость исследования по другому более глубокому признаку. В этом случае можно воспользоваться перегруппировкой данных.
Перегруппировка - это вторичная группировка, которая состоит в преобразовании уже построенного вариационного ряда. И одним из инструментов перегруппировки является укрупнение интервалов. В Задаче 1, рассмотренной на лекции, выполнена не слишком удачная равноинтервальная группировка.
Для улучшения можно объединить три последних интервала, и коль скоро нам известны первичные (исходные) данные, и подкорректировать границы всех интервалов до удобных значений. В результате имеем:
Получилось не так подробно, как в равнонаполненной группировке, но вполне наглядно. При желании, к слову, первый интервал легко разбить, получив нечто близкое или даже совпадающее с этой группировкой. Для этого исходные числа нам заданы.
Но что делать, если первичные данные не известны?
Задача 3.
Перегруппируйте данные о численности работающих на 55 предприятиях, образовав следующие группы: до 400, 400-1000, 1000-3000, 3000-6000, свыше 6000:
Численность рабочих, чел. |
Число предприятий |
до 100 |
4 |
100-500 |
8 |
500-1000 |
5 |
1000-2000 |
14 |
2000-5000 |
15 |
5000-10000 |
5 |
10000-20000 |
3 |
свыше 20000 |
1 |
Итого: |
55 |
В этой задаче мы не знаем исходные варианты (конкретную численность рабочих по предприятиям), но решение есть.
Рассмотрим исходную таблицу и разберемся в сути:
1) Выделим новый промежуток «до 400» В него, понятно, войдёт интервал «до 100» (4 предприятия) и часть интервала «100-500», а именно часть, выделенная коричневым цветом:
Теперь длину коричневой части (400 —100 = 300) нужно сопоставить с длиной всего интервала «100-500», которая составляет 500 —100 = 400 :
- таким образом, три четверти предприятий интервала «100-500» следует отнести в пользу промежутка «до 400»:
Итого в промежутке «до 400» оказывается предприятий.
Соответственно, на интервал «400-500» останется 8 - 6 = 2 предприятия. Выражаясь академично, этот принцип можно называть выделением пропорциональных долей. Доли выделяются пропорционально длинам частей интервала
2) Выделим новый промежуток «400-1000». В него войдёт оставшийся интервал «400-500» с 2 предприятиями и интервал «500-1000» с 5 предприятиями:
Итого на промежутке «400-1000» оказалось 2 + 5 = 7 предприятий.
3) Выделим новый промежуток «1000-3000». В него полностью войдёт интервал «1000-2000» с 14 предприятиями и 1/3 старого интервала с «2000-5000» предприятиями:
Нужную долю (1/3) мы нашли как отношение длины интервала (3000 — 2000 = 1000) к длине интервала «2000-5000» (5000 — 2000 = 3000):
Таким образом, в промежуток «1000-3000» вошло:
предприятий.
4) В новый промежуток «3000-6000» входят 2/3 интервала «2000-5000» (см. рис. выше), что составляет предприятий (или 15 - 5 = 10 ), и, кроме того, 1/5 интервала «5000-10000», к которому относится предприятие:
1/5 найдена как отношение длины интервала «5000-6000» к длине интервала «5000-10000»:
Таким образом, в промежуток «3000-6000» вошло предприятий.
5) И, наконец, в последний новый промежуток «свыше 6000» входят 4/5 интервала «5000-10000» (см. рис. выше) или предприятия, а также 3 предприятия интервала «10000-20000» и 1 предприятие интервала «свыше 20000».
Итого: 4 + 3 +1 = 8 предприятий
Перегруппировка завершена, новый вариационный ряд построен:
Численность рабочих,чел. |
Число предприятий |
до 400 |
10 |
400-1000 |
7 |
1000-3000 |
19 |
3000-6000 |
11 |
свыше 6000 |
8 |
Итого: |
55 |
Проконтролируем объем выборки: 10 + 7 +19 +11 + 8 = 55.
Следует отметить, что метод выделения долей, строго говоря, не точен, и если в нашем распоряжении есть первичные данные, то, конечно, ориентируемся на них - в результате с высокой вероятностью получатся немного другие частоты по группам. Но для выборочной совокупности подойдет и долевая перегруппировка, поскольку от выборки к выборке мы всё равно будем получать разные значения и строить похожие, но всё же разные вариационные ряды.
Перегруппировка часто применятся для того чтобы сопоставить «родственные» совокупности с разными интервалами:
Задача 4.
По результатам выборочного исследования двух банок банков получены данные о заработной плате их служащих:
Заработная плата, у.е. |
Количество служащих, чел. |
|
Заработная плата, у.е. |
Количество служащих, чел. |
до 100 |
1 |
|
до 1000 |
11 |
100-500 |
4 |
|
1000-1500 |
12 |
500-1000 |
10 |
|
1500-2500 |
14 |
1000-2000 |
15 |
|
2500-4200 |
7 |
2000-5000 |
32 |
|
4200-6000 |
4 |
5000 и более |
3 |
|
6000 и более |
2 |
Итого: |
65 |
|
Всего |
50 |
Сравнить уровень з/п в банках, выделив интервалы: до 500, 500-1000, 1000-2000, 2000-3000, 3000-4000, 4000-5000, свыше 5000, и рассчитав относительные частоты по каждому банку. Результаты представить в виде общей таблицы, сделать выводы.
Решение.
1) выполним перегруппировку по 1-му банку:
– В новый промежуток «до 500» войдут
интервалы «до 100» и «100-500»:
чел.
– Новые промежутки «500-1000, 1000-2000» совпадают со старыми интервалами.
– Новые промежутки «2000-3000, 3000-4000, 4000-5000» полностью входят в старый интервал «2000-5000». Делим частоту этого интервала на 3:
– в каждый новый промежуток.
В промежутки «2000-3000, 3000-4000» относим по 11 человек, а в промежуток «4000-5000» – 10 человек (предполагая то, что людей с бОльшей заработной платой – меньше)
– Новый промежуток «5000 и более» совпадает со старым интервалом.
2) Выполним перегруппировку второго вариационного ряда:
– Старый интервал «до 1000» разобьём на два новых равных промежутка, при этом в промежуток «до 500» отнесём 5 человек, а в промежуток «500-1000» – 6 человек (предполагая, что людей с более низкой з/п – чуть меньше)
– В новый промежуток «1000-2000» входит интервал «1000-1500» и половина интервала «1500-2500», в людях это составит:
чел.
– В новый промежуток «2000-3000» входит половина интервала «1500-2500» и интервала «2500-4200», в людях это составляет:
чел.
– В новый промежуток «3000-4000» входит интервала «2500-4200», в людях это составляет: чел.
– В новый промежуток «4000-5000» входит интервала «2500-4200» и интервала «4200-6000», в людях это составит:
чел.
– И в новый промежуток «свыше 5000» входит интервала «4200-6000» и интервал «свыше 6000», в людях это составит:
чел.
Результаты сведём в единую таблицу, при этом рассчитаем относительные частоты по каждому банку:
Заработная плата, у.е. |
Количество служащих 1-го банка, чел., |
Относительная частота, |
Количество служащих 2-го банка, чел., |
Относительная частота, |
до 500 |
5 |
0,0769 |
5 |
0,1 |
500-1000 |
10 |
0,1538 |
6 |
0,12 |
1000-2000 |
15 |
0,2308 |
19 |
0,38 |
2000-3000 |
11 |
0,1692 |
9 |
0,18 |
3000-4000 |
11 |
0,1692 |
4 |
0,08 |
4000-5000 |
10 |
0,1538 |
3 |
0,06 |
5000 и более |
3 |
0,0462 |
4 |
0,08 |
Итого |
n = 65 |
1 |
f = 50 |
1 |
Выводы: Для обоих банков характерна зарплата от 1000 до 2000 у.е., однако в 1-м банке чуть более высокий уровень заработной платы – значительное количество сотрудников получает более 2000 у.е. Но, скорее всего, основная их масса имеет з/п в диапазоне 2000-3000, здесь требуется дополнительное исследование первичных данных, поскольку формальное разбиение интервала «2000-5000» на три равных интервала не очень удачно.
Контрольные вопросы
1. Основные виды группировок
2. Структурная группировка
3. Равноинтервальная группировка
4. Равнонаполненная группировка
5. Относительная частота
6. Перегруппировка данных
7. Метод выделения долей