Раздел 5. Элементы корреляционно-регрессионного анализа

 

Лекция 12. Эмпирические показатели

 

Об эмпирическом коэффициенте детерминации мы уже рассказали на предыдущих лекциях, эмпирическое корреляционное отношение мы рассматривали при выполнении аналитической группировки. На этой лекции нам встретятся те же самые показатели, только рассчитываться они будут немного по-другому – в рамках комбинационной группировки. И мы еще раз поговорим о сути этих понятий.

 

План лекции

 

1. Эмпирический коэффициент детерминации;

2. Эмпирическое корреляционное отношение;

3. Корреляционная зависимость и причинно-следственная связь;

4. Корреляционное поле и эмпирическая линия регрессии.

 

Для удобства разберем эти понятия на примере решения задачи.

 

Задача 1.

Имеются выборочные данные о выпуске продукции и сумме прибыли по 30 предприятиям:

 

Таблица 1 - Выборочные данные о выпуске продукции

Прибыль Y, млн. руб.

Выпуск продукции X, млн. руб.

Итого, mj

41-53

53-65

65-77

77-89

89-101

12,1-14,6

3

2

 

 

 

5

14,6-17,1

1

3

11

2

 

17

17,1-19,6

 

 

1

4

3

8

Итого, nj

4

5

12

6

3

30

 

Задание:

1) Вычислить эмпирический коэффициент детерминации и эмпирическое корреляционное отношение. Сделать выводы.

2) Построить корреляционное поле и эмпирическую линию регрессии. Прокомментировать полученный график.

 

Решение.

Анализируя комбинационную таблицу, легко заметить, что частоты в серых ячейках имеют тенденцию располагаться по диагонали от левого верхнего к правому нижнему углу. Это говорит о наличии прямой корреляционной зависимости прибыли предприятий У от выпуска продукции Хчем больше выпускают предприятия, тем в среднем больше их прибыль.

Однако на размер прибыли, очевидно, влияет не только этот, но и множество других факторов, в том числе случайных. И возникает вопрос: как оценить весомость фактора, положенного в основу комбинационной группировки? Иными словами, насколько сильно или слабо влияет прибыль на изменение выпуска продукции?

Ответ на этот вопрос даёт:

 

1) Эмпирический коэффициент детерминации:

– есть отношение межгрупповой дисперсии к общей дисперсии.

Общая дисперсия  учитывает все причины, которые влияют на вариацию признака-результата (прибыли). Межгрупповая дисперсия учитывает влияние фактора, положенного в основу группировки (выпуска продукции).

Эмпирический коэффициент детерминации характеризует долю влияния группировочного фактора (выпуска продукции). Данный коэффициент изменяется в пределах , и чем он ближе к единице, тем сильнее влияние группировочного фактора на признак-результат (прибыль).

 

Вычислим  и .

В первой строке и в левом столбце комбинационной таблицы

находятся два интервальных вариационных ряда и сначала нужно перейти к дискретным рядам, выбрав в качестве вариант xi и yi середины соответствующих интервалов:

 

Таблица 2 – Дискретный ряд

Прибыль , млн. руб.

Выпуск продукции , млн. руб.

Итого, mj

47

59

71

83

95

13,35

3

2

 

 

 

5

15,85

1

3

11

2

 

17

18,35

 

 

1

4

3

8

Итого, nj

4

5

12

6

3

30

 

Примеры расчёта:

 

 

Вычислим общую среднюю признака-результата:

 

 

Найдем общую дисперсию:

 

 

 

Разбираемся с межгрупповой дисперсией. Для её нахождения вычислим групповые или, как их называют, условные средние. При условии х=х1=47 средняя прибыль составит:

 

 

и в качестве закрепляющего примера приведем расчёт для х=х4=83:

 

 

Промежуточные вычисления удобно записывать рядом, наращивая комбинационную таблицу:

 

Таблица 3 – Комбинационная таблица

 

 

Прибыль , млн. руб.

Выпуск продукции , млн. руб.

Итого, mj

47

59

71

83

95

13,35

3

2

 

 

 

5

66,75

37,8125

15,85

1

3

11

2

 

17

269,45

1,0625

18,35

 

 

1

4

3

8

146,8

40,5

Итого, nj

4

5

12

6

3

30

483

79,375

Средние, ,

13,975

14,85

16,058

17,5167

18,35

 

 

 

18,0625

7,8125

0,0208

12,0417

15,1875

53,125

 

 

 

Вычислим межгрупповую дисперсию:

 

.

 

Вычислим эмпирический коэффициент детерминации:

 – таким образом, 66,93% вариации прибыли обусловлено изменением выпуска продукции. Остальные 33,07% вариации обусловлены другими факторами.

Исходя из правило сложения дисперсий , легко понять, что за остальную вариацию отвечает внутригрупповая дисперсия , графически она характеризует меру разброса частот в серых столбцах (см. таблицу выше).

Теперь повторим о смысле коэффициента детерминации. Чем ближе  к единице, тем больше межгрупповая дисперсия  и меньше . Высокое значение  говорит о том, что групповые средние  значимо отличаются от общей средней , то есть изменение значений «икс» приводит к существенному изменению значений «игрек». Иными словами, признак-фактор действительно оказывает сильное влияние. При этом внутригрупповая дисперсия  будет мала и частоты в серой области примут выраженный диагональный вид. В предельном случае  (и нулевом значении ) речь идёт о строгой функциональной зависимости.

 

Обратно, малые значения  обусловлены тем, что межгрупповая дисперсия  близка к нулю – по той причине, что групповые средние  близки к общей средней . Это означает, что на изменение значений «икс» – «игреки» «откликаются» слабо. При этом внутригрупповая дисперсия  будет большой – это значит, что дисперсия в группах существенна и частоты в серых столбцах более разбросаны – фактически они заполнят всю серую область и, естественно, утратят диагональный вид.

Следующий показатель:

эмпирическое корреляционное отношение

– есть квадратный корень из эмпирического коэффициента детерминации:

 

.

 

Данный показатель тоже изменяется в пределах  и характеризует тесноту (силу) корреляционной зависимости. Чем ближе η к единице, тем сильнее зависит признак-результат У от признака-фактора Х– тем «жёстче» реагируют значения «игрек» на изменение значений «икс». И наоборот, чем ближе η к нулю, тем зависимость слабее – тем более слабо реагируют «игреки» на изменение значений «икс».

Для качественной оценки этой силы используют шкалу Чеддока:

 

Таблица 4 – Шкала Чеддока

Диапазон значений

Корреляционная зависимость Y от X

0-0,1

практически отсутствует

0,1-0,3

слабая

0,3-0,5

умеренная

0,5-0,7

заметная

0,7-0,9

сильная

0,9-0,99

очень сильная

0,99-1

практически функциональная

 

В нашей задаче: – таким образом, существует сильная корреляционная зависимость прибыли предприятия (У) от выпуска продукции (Х).

Какие есть недостатки у эмпирического коэффициента детерминации и эмпирического корреляционного отношения коэффициентов η2, η:

– Данные коэффициенты не отражают направление корреляционной зависимости. Так, если вам просто покажут значение η≈0,82, то невозможно сказать, обратная здесь зависимость или прямая.

В простейшем случае этот факт определяется логическим путём либо визуально – смотрим, как расположены частоты в комбинационной таблице, и делаем соответствующий вывод. Да, и графики– на которых хорошо видна корреляционная зависимость.

– Эмпирические коэффициенты ничего нам не говорят о форме зависимости. Под формой имеется в виду функция, которой можно удачно приблизить эмпирические (точечные) значения показателей, и график этой функции.

И здесь мы плавно подошли к заключительному пункту задачи, который открывает ещё одну большую тему:

 

Корреляционное поле и эмпирическая линия регрессии

 

Корреляционное поле – это множество точек с абсциссами хi и ординатами , которые соответствуют ненулевым значениям частот nij.

Для осмысления определения скопируем комбинационную таблицу:

 

Таблица 5 – Комбинационная таблица

Прибыль , млн. руб.

Выпуск продукции , млн. руб.

47

59

71

83

95

13,35

3

2

 

 

 

15,85

1

3

11

2

 

18,35

 

 

1

4

3

Средние, ,

13,975

14,85

16,058

17,5167

18,35

 

и приведем готовое корреляционное поле:

 

http://www.mathprofi.ru/v/empiricheskie_pokazateli_clip_image100.jpg

Рисунок 1 – Корреляционное поле

 

 

При этом сами частоты nij (числа в серых ячейках) на графике никак не отмечаются. И уже по внешнему виду корреляционного поля можно сказать, что зависимость здесь прямая («чем больше, тем больше»).

Что такое регрессия?

В статистическом смысле регрессия – это зависимость средних значений  признака-результата от соответствующих значений xi признака-фактора.

Эмпирическая линия регрессии Y к X– это ломаная, соединяющая точки :

 

http://www.mathprofi.ru/v/empiricheskie_pokazateli_clip_image109.jpg

Рисунок 2 – Эмпирическая линия регрессии

 

Построенная ломаная проходит максимально близко к точкам корреляционного поля, при этом учитываются весомость частот nij, на основе которых были вычислены значения .

Эмпирическая линия регрессии используется не только для наглядного изображения корреляционной зависимости, но и для интерполяции промежуточных значений. Рассматривая различные промежуточные значения выпуска продукции (промежуточные «иксы», отличные от xi) мы можем достаточно точно оценить соответствующие средние значения прибыли («игреки средние»).

Дело в том, что существует два «комплекта» η2, η коэффициентов и две линии регрессии. Это обусловлено тем, что встречаются ситуации, где признаки X и Y взаимно влияют друг на друга. Приведу философский пример, адаптированный к современным реалиям:

Х – количество произведённых куриц на птицефабрике;

У – количество произведённых яиц.

Совершенно понятно, что здесь как признак Х влияет на У, так и наоборот. И мы можем вычислить два «комплекта» показателей.

Первый комплект – как в только что рассмотренной задаче:

– коэффициенты, которые показывают степень зависимости У от Х. Графическое изображение зависимости – эмпирическая линия регрессии У к Х – есть ломаная, соединяющая точки .

 

И второй комплект:

– коэффициенты, характеризующие зависимость Х от У.

Эмпирическая линия регрессии Х к У – есть ломаная, соединяющая точки .

Для расчёта коэффициентов второго комплекта используют «зеркальные» формулы. Требуется изобразить вторую линию регрессии – требовалось, и в качестве демонстрации построим её для данных рассмотренной задачи. Рассмотрим таблицу 2, полученную выше.

 

Вычислим «х среднее» по каждой из трёх групп:

при у=у1=13,35:

 

 

при у=у2=15,85:

 

 

при у=у3=18,35:

 

 

Изобразим на чертеже то же корреляционное поле и эмпирическую линию регрессии Х к У – ломаную, соединяющую точки:

 

http://www.mathprofi.ru/v/empiricheskie_pokazateli_clip_image135.jpg

Рисунок 3 – Корреляционное поле и эмпирическая линия регрессии

 

Звенья ломаной расположились почти по прямой, и это наводит на светлую мысль: а нельзя ли приблизить эмпирические точки линейной функцией? Во многих случаях это будет удачным решением. А, главное, технически простым. Решение таких заданий мы посмотрим на практических занятиях.