Раздел 5. Элементы корреляционно-

регрессионного анализа

 

Лекция 14. Уравнение линейной регрессии

 

План лекции

1. Корреляционное поле, выдвижение гипотезы о возможной форме зависимости;

2. Линейный коэффициент корреляции и детерминации;

3. Уравнение линейной регрессии Y на X.

 

Удобнее всего разобрать эти вопросы на примере.

 

Задача 1. Имеются выборочные данные по 40 предприятиям региона:

 

Таблица 1 - Выборочные данные по 40 предприятиям

Стоимость промышленно-производственных основных фондов

Суточная выработка сырья, тыс. ц.

4-6

6-8

8-10

10-12

2,5-3,5

2

 

 

 

3,5-4,5

6

3

 

 

4,5-5,5

2

5

7

 

5,5-6,5

 

2

2

3

6,5-7,5

 

 

1

7

 

Требуется:

1) Определить признак-фактор X и признак-результат Y и высказать предположение о наличии и направлении корреляционной зависимости Y от X. Построить корреляционное поле и выдвинуть гипотезу о возможной форме зависимости.

2) Вычислить линейный коэффициент корреляции и детерминации, сделать выводы.

3) Найти уравнение линейной регрессии Y на X и изобразить соответствующую прямую на чертеже. Спрогнозировать среднюю суточную переработку сырья, когда стоимость основных фондов предприятий достигнет 9 млрд. руб.

 

Решение.

1) Прежде всего в подобных задачах нам нужно обосновать причинно-следственную связь между признаками (если это не сделано в условии). Очевидно, что чем больше стоимость основных фондов, тем крупнее предприятие и тем больше сырья оно способно переработать. Однако это не является непреложным правилом, ибо любое, самое крупное предприятие может неэффективно работать или даже простаивать. Тем не менее, общая тенденция состоит в том, что при увеличении стоимости фондов предприятий их средняя суточная переработка растёт. Такая зависимость называется корреляционной.

Мы предполагаем наличие прямой корреляционной зависимости суточной переработки сырья (признак-результат Y) от стоимости основных фондов (фактор X).

В данной таблице частоты располагаются преимущественно по диагонали – от левого верхнего до правого нижнего угла, что подтверждает прямое направление зависимости («чем больше, тем больше»).

Определим форму зависимости (линейная, квадратичная, экспоненциальная или какая-то другая). Простейший способ – графический, построить корреляционное поле. Для этого нужно немного модифицировать исходную таблицу, а именно

Перейдем от интервальных вариационных рядов (левый столбец и 2-я сверху строка) к дискретным, выбрав в качестве вариант  и  середины соответствующих интервалов:

 

Таблица 2 – Комбинационная таблица

Стоимость основных фондов,

Суточная выработка сырья,  

Итого, ni

5

7

9

11

3

2

2

4

6

3

9

5

2

5

7

14

6

2

2

3

7

7

1

7

8

Итого, mj

10

10

10

10

40

 

Найдем суммы частот по серым строкам (правый столбец) и суммы частот по серым столбцам (нижняя строка), проверим итоговые суммы они должны быть равны объёму выборки n:

 


 

Обратите внимание, что значения  признака-фактора расположены по вертикали в левом столбце, а значения  признака-результата – по горизонтали в «шапке» таблицы. Именно такое расположение (а не наоборот) чаще всего встречается на практике. Однако оно не сильно удобно в техническом плане, в частности, для построения корреляционного поля:

Построим корреляционное поле

 

 

Рисунок 1 - Корреляционное поле

Ранее мы строили эмпирические линии регрессии – это простейший способ изобразить форму корреляционной зависимости. Однако гораздо удобнее привлечь на помощь функции.

Анализируя чертёж, приходим к выводу, что эмпирические точки  «выстроились» примерно по прямой, что позволяет предположить наличие линейной корреляционной зависимости Y – суточной переработки сырья от X – стоимости основных фондов.

Далее нужно найти уравнение линейной регрессии y=ax+b, график которой проходит максимально близко к эмпирическим точкам (с учётом их «весов» – частот  в серых полях комбинационной таблицы), а также

Оценим тесноту линейной корреляционной зависимости – насколько близко расположены точки к построенной прямой. Эта теснота оценивается с помощью линейного коэффициента корреляции:

2) Коэффициент корреляции вычислим по формуле

 

.

 

Найдем средние  и стандартные отклонения .

Сначала разберёмся рассмотрим признак-фактор X. Для этого из комбинационной таблицы 2 выпишем значения  и заполним расчётную таблицу:

 

Таблица 3 – Расчетная таблица для признака-результата Х

3

4

5

6

7

Суммы

2

9

14

7

8

40

6

36

70

42

56

210

18

144

350

252

392

1156

 

Вычислим среднее значение  и среднее квадратическое отклонение, как корень из дисперсии, вычисленной по формуле:

 

.

 

Аналогично, выберем значения у из комбинационной таблицы и заполняем расчетную таблицу для признака-результата Y:

 

Таблица 4 – Расчетная таблица для признака-результата Y

5

7

9

11

Суммы

10

10

10

10

40

50

70

90

110

320

250

490

810

1210

2760

 

после чего рассчитываем нужные показатели:

 

 

 

Теперь найдём среднее значение  произведения признаков. Для этого вычислим все возможные произведения  и  на соответствующие ненулевые частоты , наглядно распишем (рис. 2):

 

Рисунок 2 – Схема вычисления всех возможных произведений  и  на соответствующие ненулевые частоты

 

Вычислим сумму этих произведений:

 

 

и искомую среднюю:

 

 

Таким образом, линейный коэффициент корреляции:

 

 

 

В результате получено положительное число и, согласно шкале Чеддока, существует сильная прямая линейная корреляционная зависимость Y суточной переработки сырья от X стоимости основных фондов.

Вычислим коэффициент детерминации:

, таким образом, в рамках построенной модели 69,12% вариации суточной переработки сырья обусловлено стоимостью основных фондов. Остальные 100-69,12=30,88% вариации обусловлено другими факторами.

 

3) Найдём уравнение y=ax+b линейной регрессии Y на X (именно так на). Здесь можно использовать формулы предыдущего занятия . Но есть другой вариант. Искомое уравнение имеет вид:

, в данной задаче получим:

 

 

 

примерно:

 

 

Полученное уравнение показывает, что при увеличении стоимости основных фондов на х=1 суточная переработка сырья увеличивается в среднем на 1,61 тысяч центнеров.

Это очень важный вывод, который часто требуется в заданиях, по сути, смысл коэффициента «а».

Найдём координаты двух точек для построения графика:

 

 

 

Отметим на чертеже и проведём линию регрессии

 

Рисунок 3 – Линия регрессии

 

Спрогнозируем среднюю суточную переработку сырья при стоимости основных фондов  тыс. ц.

 

Кроме рассмотренного уравнения, существует второе уравнение линейной регрессии – X на Y, его можно составить по формуле:

 

,

 

и привести к виду:

 

 

полученное уравнение позволяет узнать средние значения х, соответствующие различным значениям у.

График регрессии  также можно изобразить на чертеже, и он будет пересекать график  в точке .