Раздел 6. Решение практических задач методами математической статистики
Лекция 15. Уравнение множественной линейной регрессии
Мы рассматривали однофакторные регрессионные модели. Грубо говоря, нам был дан единственный признак-фактор Х (причина), который влиял на признак-результат У (следствие). И на основании эмпирических данных) мы оценивали тесноту корреляционной зависимости Y от X, а также строили линейные и нелинейные уравнения регрессии.
На зависимый показатель Y часто влияют несколько или даже очень много факторов: X1, X2, X3, … Xm, цель нашего занятия состоит в том, чтобы познакомиться с множественной регрессией.
План лекции
1. Построения уравнения множественной линейной регрессии y=b0+b1x1+b2x2+…+bmxm;
2. Основные характеристики модели;
3. Проверка качества основных характеристик модели;
Этот пункт будет полезен тем, кто проводит прикладное исследование в какой-либо предметной области (экономике, социологии, психологии);
4. Нахождение коэффициентов корреляции и детерминации.
Разберём эти вопросы на конкретном примере и простейшем случае, когда нам дано лишь два фактора.
Задача.
По результатам выборочного исследования n=8 торговых предприятий региона были получены отчётные данные за предыдущий год:
Таблица 1 - Результаты выборочного исследования |
|||
№ п/п |
Число оборотов оборотных средств, раз |
Трудоемкость продаж, чел./1млн.ден.ед. |
Чистая прибыль, млн. ден. ед. |
1 |
4 |
12 |
42 |
2 |
6,2 |
9 |
107 |
3 |
6,1 |
8 |
100 |
4 |
5,4 |
14 |
60 |
5 |
5,9 |
15 |
78 |
6 |
6 |
11 |
79 |
7 |
5,6 |
10 |
90 |
8 |
5,2 |
15 |
54 |
Требуется:
– обосновать и оценить влияние каждого фактора на размер чистой прибыли предприятия;
– найти уравнение двухфакторной линейной регрессии y=b0+b1x1+b2x2;
– найти коэффициент множественной корреляции и детерминации.
Прежде всего разберем смысл предложенных показателей.
Итак, фактор X1 – количество оборотов оборотных средств. Очевидно, что чем быстрее обращаются деньги, тем больше совершается продаж и тем больше может быть прибыль предприятия. Таким образом, предполагаем прямую корреляционную зависимость прибыли предприятия Y от количества оборотов оборотных средств X1. Следует отметить, что это лишь общая тенденция, а не какое-то жёсткое правило, ведь есть товары с высокой и очень низкой наценкой.
Фактор второй, X2 – трудоёмкость продаж. По условию задачи это среднее (за год) количество персонала, которое приходилось на один миллион выручки. Так или иначе, суть состоит в том, что чем больше людей в компании, тем больше расходы на оплату труда и тем меньше может быть её прибыль. Таким образом, предполагаем обратную корреляционную зависимость прибыли Y от трудоёмкости продаж X2.
Построим диаграммы рассеяния:
Рисунок 1 – Диаграммы рассеяния
Можно предположить, что обе зависимости близки к линейным.
Решение.
Вычисляя линейные коэффициенты корреляции: – получаем, что существует сильная прямая корреляционная зависимость прибыли от количества оборотов оборотных средств;
– и сильная обратная корреляционная зависимость прибыли от трудоёмкости продаж;
Теперь нам нужно совместить обе причины в единой модели и построить выборочное уравнение двухфакторной линейной регрессии y=b0+b1x1+b2x2.
Для того чтобы модель множественной регрессии была качественной и подходящей по условию задачи, должны выполняться ряд условий.
Признаки-факторы должны быть не коррелированы. Вычислим коэффициент линейной корреляции между ними: – таким образом, корреляция между факторами слаба и это нас устраивает. А логика здесь проста – если факторы сильно коррелированы (что называют мультиколлинеарностью), то один из них просто не имеет смысла включать в модель.
Коэффициенты уравнения регрессии y=b0+b1x1+b2x2 найдём методом наименьших квадратов – как решение системы:
Заполним расчётную таблицу, в нижней строке найдем суммы:
Таблица 2 – Расчетная таблица |
|||||||
|
|
|
|
|
|
|
|
4 |
12 |
42 |
16 |
144 |
48 |
168 |
504 |
6,2 |
9 |
107 |
38,44 |
81 |
55,8 |
663,4 |
963 |
6,1 |
8 |
100 |
37,21 |
64 |
48,8 |
610 |
800 |
5,4 |
14 |
60 |
29,16 |
196 |
75,6 |
324 |
840 |
5,9 |
15 |
78 |
34,81 |
225 |
88,5 |
460,2 |
1170 |
6 |
11 |
79 |
36 |
121 |
66 |
474 |
869 |
5,6 |
10 |
90 |
31,36 |
100 |
56 |
504 |
900 |
5,2 |
15 |
54 |
27,04 |
225 |
78 |
280,8 |
810 |
44,4 |
94 |
610 |
250,02 |
1156 |
516,7 |
3484,4 |
6856 |
Таким образом, получаем систему:
Решая систему, получим искомое уравнение регрессии:
y=-0,1708+22,044x1-3,9084x2.
Полученное уравнение показывает, что с ростом оборота оборотных средств на 1 оборот (при неизменной трудоёмкости) прибыль увеличивается в среднем на 22,044 млн. ден.ед., а с увеличением трудоемкости продаж на 1 чел./млн. ден.ед. (при неизменном обороте) – прибыль уменьшается в среднем на 3,9084 млн. ден.ед.
Вычислим коэффициент множественной корреляции Rx1x2y=R – он показывает силу совокупного влияния факторов X1, X2 на результат Y. Для расчёта использует найденные раньше парные коэффициенты корреляции:
, ,
сведённые в симметричную матрицу:
Коэффициент множественной корреляции можно рассчитать по формуле: , где – определитель матрицы парных коэффициентов линейной корреляции, а – определитель её факторной части (без «игрековой» строки и столбца). Это общая формула (не только для двух, но и для большего количества факторов).
В нашей задаче:
В результате:
таким образом, прибыль предприятий очень сильно зависит от предложенных в задаче факторов.
Здесь используем ту же шкалу Чеддока с той поправкой, что коэффициент множественной корреляции принимает значения и не показывает направление зависимости.