Раздел 6. Решение практических задач методами математической статистики

 

Лекция 15. Уравнение множественной линейной регрессии

 

 

Мы рассматривали однофакторные регрессионные модели. Грубо говоря, нам был дан единственный признак-фактор Х (причина), который влиял на признак-результат У (следствие). И на основании эмпирических данных) мы оценивали тесноту корреляционной зависимости Y от X, а также строили линейные и нелинейные уравнения регрессии.

На зависимый показатель Y часто влияют несколько или даже очень много факторов: X1, X2, X3, … Xm, цель нашего занятия состоит в том, чтобы познакомиться с множественной регрессией.

 

План лекции

 

1. Построения уравнения множественной линейной регрессии y=b0+b1x1+b2x2+…+bmxm;

2. Основные характеристики модели;

3. Проверка качества основных характеристик модели;

Этот пункт будет полезен тем, кто проводит прикладное исследование в какой-либо предметной области (экономике, социологии, психологии);

4. Нахождение коэффициентов корреляции и детерминации.

 

Разберём эти вопросы на конкретном примере и простейшем случае, когда нам дано лишь два фактора.

Задача.

По результатам выборочного исследования n=8 торговых предприятий региона были получены отчётные данные за предыдущий год:

 

Таблица 1 - Результаты выборочного исследования

п/п

Число оборотов

оборотных средств, раз

Трудоемкость продаж, чел./1млн.ден.ед.

Чистая прибыль,

млн. ден. ед.

1

4

12

42

2

6,2

9

107

3

6,1

8

100

4

5,4

14

60

5

5,9

15

78

6

6

11

79

7

5,6

10

90

8

5,2

15

54

 

Требуется:

– обосновать и оценить влияние каждого фактора на размер чистой прибыли предприятия;

– найти уравнение двухфакторной линейной регрессии y=b0+b1x1+b2x2;

– найти коэффициент множественной корреляции и детерминации.

 

Прежде всего разберем смысл предложенных показателей.

Итак, фактор X1 – количество оборотов оборотных средств. Очевидно, что чем быстрее обращаются деньги, тем больше совершается продаж и тем больше может быть прибыль предприятия. Таким образом, предполагаем прямую корреляционную зависимость прибыли предприятия Y от количества оборотов оборотных средств X1. Следует отметить, что это лишь общая тенденция, а не какое-то жёсткое правило, ведь есть товары с высокой и очень низкой наценкой.

Фактор второй, X2 – трудоёмкость продаж. По условию задачи это среднее (за год) количество персонала, которое приходилось на один миллион выручки. Так или иначе, суть состоит в том, что чем больше людей в компании, тем больше расходы на оплату труда и тем меньше может быть её прибыль. Таким образом, предполагаем обратную корреляционную зависимость прибыли Y от трудоёмкости продаж X2.

 

Построим диаграммы рассеяния:

 

Рисунок 1 – Диаграммы рассеяния

 

Можно предположить, что обе зависимости близки к линейным.

Решение.

Вычисляя линейные коэффициенты корреляции:  – получаем, что существует сильная прямая корреляционная зависимость прибыли от количества оборотов оборотных средств;

 – и сильная обратная корреляционная зависимость прибыли от трудоёмкости продаж;

Теперь нам нужно совместить обе причины в единой модели и построить выборочное уравнение двухфакторной линейной регрессии y=b0+b1x1+b2x2.

 

Для того чтобы модель множественной регрессии была качественной и подходящей по условию задачи, должны выполняться ряд условий.

Признаки-факторы должны быть не коррелированы. Вычислим коэффициент линейной корреляции между ними:  – таким образом, корреляция между факторами слаба и это нас устраивает. А логика здесь проста – если факторы сильно коррелированы (что называют мультиколлинеарностью), то один из них просто не имеет смысла включать в модель.

 

Коэффициенты уравнения регрессии y=b0+b1x1+b2x2 найдём методом наименьших квадратов – как решение системы:

 

 

 

Заполним расчётную таблицу, в нижней строке найдем суммы:

 

Таблица 2 – Расчетная таблица

4

12

42

16

144

48

168

504

6,2

9

107

38,44

81

55,8

663,4

963

6,1

8

100

37,21

64

48,8

610

800

5,4

14

60

29,16

196

75,6

324

840

5,9

15

78

34,81

225

88,5

460,2

1170

6

11

79

36

121

66

474

869

5,6

10

90

31,36

100

56

504

900

5,2

15

54

27,04

225

78

280,8

810

44,4

94

610

250,02

1156

516,7

3484,4

6856

 

Таким образом, получаем систему:

 

 

Решая систему, получим искомое уравнение регрессии:

 

y=-0,1708+22,044x1-3,9084x2.

 

Полученное уравнение показывает, что с ростом оборота оборотных средств на 1 оборот (при неизменной трудоёмкости) прибыль увеличивается в среднем на 22,044 млн. ден.ед., а с увеличением трудоемкости продаж на 1 чел./млн. ден.ед. (при неизменном обороте) – прибыль уменьшается в среднем на 3,9084 млн. ден.ед.

Вычислим коэффициент множественной корреляции Rx1x2y=R – он показывает силу совокупного влияния факторов X1, X2 на результат Y. Для расчёта использует найденные раньше парные коэффициенты корреляции:

 

,   ,     

 

сведённые в симметричную матрицу:

 

 

Коэффициент множественной корреляции можно рассчитать по формуле: , где  – определитель матрицы парных коэффициентов линейной корреляции, а  – определитель её факторной части (без «игрековой» строки и столбца). Это общая формула (не только для двух, но и для большего количества факторов).

 

В нашей задаче:

 

 

 

В результате:

 

 

таким образом, прибыль предприятий очень сильно зависит от предложенных в задаче факторов.

Здесь используем ту же шкалу Чеддока с той поправкой, что коэффициент множественной корреляции принимает значения  и не показывает направление зависимости.