Практическое занятие 11.1.
Аналитическая группировка
И начнём мы с аналитической группировки – популярной и несложной задачи, которая встречается повсеместно. На данном занятии вы узнаете, что такое аналитическая группировка и научитесь быстро выполнять это действие.
Аналитическая группировка позволяет установить наличие и характер зависимости одного вариационного ряда от другого. Это может быть связь между признаками разных статистических совокупностей или (что чаще) между признаками одной совокупности.
Задача 1.
Имеются выборочные данные о выпуске продукции (млн. руб.) и прибыли (млн. руб.) по 30 предприятиям за некоторый период:
Номер предприятия |
Выпуск продукции |
Прибыль |
Номер предприятия |
Выпуск продукции |
Прибыль |
1. |
65 |
15,7 |
16. |
52 |
14,6 |
2. |
78 |
18 |
17. |
62 |
14,8 |
3. |
41 |
12,1 |
18. |
69 |
16,1 |
4. |
54 |
13,8 |
19. |
85 |
16,7 |
5. |
66 |
15,5 |
20. |
70 |
15,8 |
6. |
80 |
17,9 |
21. |
71 |
16,4 |
7. |
45 |
12,8 |
22. |
64 |
15 |
8. |
57 |
14,2 |
23. |
72 |
16,5 |
9. |
67 |
15,9 |
24. |
88 |
18,5 |
10. |
81 |
17,6 |
25. |
73 |
16,4 |
11. |
92 |
18,2 |
26. |
74 |
16 |
12. |
48 |
13 |
27. |
96 |
19,1 |
13. |
59 |
15,5 |
28. |
75 |
16,3 |
14. |
68 |
16,2 |
29. |
101 |
19,6 |
15. |
83 |
16,7 |
30. |
76 |
17,2 |
Задание:
1) Методом аналитической группировки установите наличие и характер корреляционной связи между стоимостью произведенной продукции и прибылью (результаты оформите в виде групповой и аналитической таблицы).
2) Измерьте тесноту корреляционной связи между стоимостью произведенной продукции и прибылью эмпирическим корреляционным отношением.
Итак, по условию нам дано два вариационных ряда: X - выпуск продукции по предприятиям (в млн. руб.) и Y - прибыль по соответствующим предприятиям (тоже в млн. руб.). Зададимся вопросом: как влияет стоимость произведённой продукции (выпуск) на размер прибыли?
Очевидно, что один показатель зависит от другого - чем больше предприятие выпускает, тем, вероятно, больше у него прибыль.
Но всегда ли это так? Нет не всегда. Ведь крупное предприятие может быть и убыточным, может не продать всю продукцию при увеличении её производства. Однако общая тенденция состоит в том, что при увеличении выпуска продукции, увеличивается и средняя прибыль по предприятиям.
Такая нежёсткая зависимость называется корреляционной. Это зависимость, при которой изменение одного показателя влечёт изменение средних значений другого показателя. Этим корреляционная зависимость отличается от функциональной, где изменение аргумента оказывает чёткое и безусловное влияние на изменение функции.
Показатель X (выпуск продукции) называется факторным (причинным) или признаком-фактором.
Показатель Y (прибыль) называется результативным (зависимым, следственным) или признаком-результатом.
Но не всё так просто. Дело в том, что вышесказанное является лишь нашим предположением. Именно поэтому по условию нужно установить наличие зависимости между выпуском продукции и прибылью и определить её характер.
Под характером понимается корреляционность зависимости и её направление, при этом возможны следующие варианты:
- прямая связь («чем больше, тем больше» - наш случай);
- обратная связь («чем больше, тем меньше»);
- отсутствие связи («чем больше, тем так же хаотично»).
И установить всё это нужно методом аналитической группировки, которая позволяет выявить наличие (либо отсутствие) и направление корреляционной связи между признаком-фактором X и признаком-результатом Y.
Решение.
Прежде всего, нужно определить признак-фактор и признак-результат. На основе логических рассуждений. Тут же высказываем предположение о наличии и направлении предполагаемой корреляционной связи. В нашей задаче можно записать примерно следующее:
Очевидно, что средний размер прибыли по предприятиям зависит от стоимости выпущенной продукции, при этом, чем больше выпущено продукции, тем выше может быть прибыль. Таким образом, выпуск продукции X является признаком-фактором, а прибыль предприятий Y - признаком-результатом; предполагаемая корреляционная зависимость - прямая.
Проверяем нашу гипотезу (предположение) методом аналитической группировки.
Как выполнить аналитическую группировку?
Сначала нужно упорядочить совокупность по признаку-фактору. Расположим предприятия по возрастанию выпуска продукции (оранжевый цвет):
Номер предприятия |
Выпуск продукции |
Прибыль |
Номер предприятия |
Выпуск продукции |
Прибыль |
3. |
41 |
12,1 |
21. |
71 |
16,4 |
7. |
45 |
12,8 |
23. |
72 |
16,5 |
12. |
48 |
13 |
25. |
73 |
16,4 |
16. |
52 |
14,6 |
26. |
74 |
16 |
4. |
54 |
13,8 |
28. |
75 |
16,3 |
8. |
57 |
14,2 |
30. |
76 |
17,2 |
13. |
59 |
15,5 |
2. |
78 |
18 |
17. |
62 |
14,8 |
6. |
80 |
17,9 |
22. |
64 |
15 |
10. |
81 |
17,6 |
1. |
65 |
15,7 |
15. |
83 |
16,7 |
5. |
66 |
15,5 |
19. |
85 |
16,7 |
9. |
67 |
15,9 |
24. |
88 |
18,5 |
14. |
68 |
16,2 |
11. |
92 |
18,2 |
18. |
69 |
16,1 |
27. |
96 |
19,1 |
20. |
70 |
15,8 |
29. |
101 |
19,6 |
Теперь выполняем группировку совокупности - опять же по признаку-фактору (выпуску продукции). Поскольку в условии нет никаких указаний на этот счёт, то используем стандартную равноинтервальную группировку.
Размах вариации составляет:
Оптимальное количество интервалов определим по формуле Стерджеса, для объёма совокупности п = 30 оно составляет:
5 интервалов (округляем влево).
Таким образом, длина каждого интервала: , в результате чего у нас получаются следующие интервалы выпуска продукции:
41-53, 53-65, 65-77, 77-89 и 89-101 млн. руб.
Собственно, разносим предприятия по группам и начинаем заполнять групповую таблицу.
Напоминаем, что значения, попадающие на «стык» интервалов следует относить в следующий интервал:
Группа 1, выпуск 41-53 млн. руб. |
Группа 2, выпуск 53-65 млн. руб. |
Группа 3, выпуск 65-77 млн. руб. |
Группа 4, выпуск 77-89 млн. руб. |
Группа 5, выпуск 89-101 млн. руб. |
|||||
Выпуск |
Прибыль |
Выпуск |
Прибыль |
Выпуск |
Прибыль |
Выпуск |
Прибыль |
Выпуск |
Прибыль |
41 |
12,1 |
54 |
13,8 |
65 |
15,7 |
78 |
18 |
92 |
18,2 |
45 |
12,8 |
57 |
14,2 |
66 |
15,5 |
80 |
17,9 |
96 |
19,1 |
48 |
13 |
59 |
15,5 |
67 |
15,9 |
81 |
17,6 |
101 |
19,6 |
52 |
14,6 |
62 |
14,8 |
68 |
16,2 |
83 |
16,7 |
||
64 |
15 |
69 |
16,1 |
85 |
16,7 |
||||
70 |
15,8 |
88 |
18,5 |
||||||
71 |
16,4 |
||||||||
72 |
16,5 |
||||||||
73 |
16,4 |
||||||||
74 |
16 |
||||||||
75 |
16,3 |
||||||||
76 |
17,2 |
||||||||
Количество предприятий в группах, |
|||||||||
4 |
5 |
12 |
6 |
3 |
|||||
Суммы прибыли по группам: |
|||||||||
52,5 |
73,3 |
194 |
105,4 |
56,9 |
|||||
Средняя прибыль на одно предприятие, |
|||||||||
13,125 |
14,66 |
16,1667 |
17,5667 |
18,9667 |
В нижней части таблицы подсчитываем количество предприятий по каждой группе, сумму значений результативного признака (прибыли), и, наконец, средние значения результативного признака по группам.
Основные результаты представим в виде аналитической таблицы:
№ группы |
Выпуск продукции, млн. руб. |
Кол-во предприятий в группе, |
Средняя прибыль на одно предприятие, млн. руб. |
1 |
41-53 |
4 |
13,125 |
2 |
53-65 |
5 |
14,66 |
3 |
65-77 |
12 |
16,167 |
4 |
77-89 |
6 |
17,567 |
5 |
89-101 |
3 |
18,967 |
Выводы: аналитическая группировка показала, что при увеличении стоимости выпущенной продукции наблюдается увеличение средней прибыли по предприятиям. Таким образом, между рассмотренными факторами действительно существует прямая корреляционная зависимость.
Таким образом, наше предположение (см. начало задания) подтвердилось.
Обращаю внимание, что средние значения (правая колонка) не обязаны строго возрастать (либо убывать), и если вы получите такой результат, то это будет нормально, ведь корреляционная зависимость не является жёсткой. Важна общая тенденция увеличения (либо уменьшения) средних значений. Но может статься, что по итогу вообще не проучится какой-то внятной закономерности. И это тоже результат исследования! С соответствующими выводами о слабой корреляционной зависимости либо отсутствии таковой.
И здесь возникает закономерный вопрос: а насколько сильно влияет факторный признак на результат, насколько тесна связь между факторами?
Ответы на этот вопрос дают эмпирический коэффициент детерминации, и связанное с ним эмпирическое корреляционное отношение.
2) Измерим тесноту корреляционной связи между стоимостью произведенной продукции и прибылью с помощью эмпирического корреляционного отношения.
Сначала вычислим эмпирический коэффициент детерминации. Начнём рассуждать неформально: прибыль (признак-результат) варьируется под влиянием самых разных факторов, их может быть довольно много. И общая дисперсия σу2 учитывает все факторы, влияющие на изменение прибыли.
Далее мы разбили совокупность на группы, причём, в основу группировки был положен выпуск продукции (один из факторов). Из предыдущего занятия мы знаем, что существенность влияния этого фактора измеряется межгрупповой дисперсией δу2. И эмпирический коэффициент детерминации показывает долю влияния группировочного признака – чем ближе этот коэффициент к единице, тем сильнее влияние причины на следствие.
Переходим к вычислениям. Общую дисперсию прибыли можно вычислить как по исходным, так и отсортированным данным, это не имеет значения. Сначала найдём среднее значение прибыли по всей выборке:
.
Дисперсию вычислим по определению:
.
Вычислим межгрупповую дисперсию:
В результате: , таким образом, 88,32% вариации прибыли обусловлено стоимостью выпущенной продукции. Оставшаяся часть вариации (100-88,32=11,68%) обусловлена другими факторами.
По коэффициенту η2 можно судить о силе влияния причины на следствие, однако для оценки этой силы существует «специализированный» показатель, а именно:
эмпирическое корреляционное отношение, равное квадратному корню из η2. Фактически это отношение соответствующих стандартных отклонений:
.
Данное отношение тоже изменяется в пределах , и характеризует тесноту (силу) связи между признаками.
Для качественной оценки этой силы часто используют так называемую шкалу Чеддока:
Диапазон значений |
Корреляционная зависимость Y от X |
0-0,1 |
практически отсутствует |
0,1-0,3 |
слабая |
0,3-0,5 |
умеренная |
0,5-0,7 |
заметная |
0,7-0,9 |
сильная |
0,9-0,99 |
очень сильная |
0,99-1 |
практически функциональная |
В нашем случае , таким образом, прибыль предприятий очень сильно зависит от стоимости выпущенной продукции.
Следует отметить, что результаты подобных задач не являются какой-то «абсолютной истиной» – это всего лишь математическая модель. Так, мы могли выполнить группировку другим способом, разбить выборочную совокупность на иное количество групп, и тогда у нас получились бы другие средние значения прибыли и другие коэффициенты. Однако, они вряд ли будут сильно отличаться от полученных результатов.
Кстати, если вы получили явно сомнительные результаты, то можно попробовать подобрать более удачную группировку, например, укрупнить интервалы и сделать меньше групп или использовать равнонаполненную группировку. В реальных практических исследованиях для повышения репрезентативности целесообразно увеличить объём выборки, т.е. рассмотреть не 30 значений, а 50-100 или даже больше. И в этом нет ничего необычного – ведь первоначальная модель может оказаться неудачной.
Контрольные вопросы
1. Аналитическая группировка
2. Корреляционная связь
3. Факторный признак
4. Результативный признак
5. Эмпирический коэффициент детерминации
6. Эмпирическое корреляционное отношение
7. Общая дисперсия
8. Межгрупповая дисперсия