Раздел 5. Элементы корреляционно-
регрессионного анализа
Лекция 14. Уравнение линейной регрессии
План лекции
1. Корреляционное поле, выдвижение гипотезы о возможной форме зависимости;
2. Линейный коэффициент корреляции и детерминации;
3. Уравнение линейной регрессии Y на X.
Удобнее всего разобрать эти вопросы на примере.
Задача 1. Имеются выборочные данные по 40 предприятиям региона:
Таблица 1 - Выборочные данные по 40 предприятиям |
||||
Стоимость промышленно-производственных основных фондов |
Суточная выработка сырья, тыс. ц. |
|||
4-6 |
6-8 |
8-10 |
10-12 |
|
2,5-3,5 |
2 |
|
|
|
3,5-4,5 |
6 |
3 |
|
|
4,5-5,5 |
2 |
5 |
7 |
|
5,5-6,5 |
|
2 |
2 |
3 |
6,5-7,5 |
|
|
1 |
7 |
Требуется:
1) Определить признак-фактор X и признак-результат Y и высказать предположение о наличии и направлении корреляционной зависимости Y от X. Построить корреляционное поле и выдвинуть гипотезу о возможной форме зависимости.
2) Вычислить линейный коэффициент корреляции и детерминации, сделать выводы.
3) Найти уравнение линейной регрессии Y на X и изобразить соответствующую прямую на чертеже. Спрогнозировать среднюю суточную переработку сырья, когда стоимость основных фондов предприятий достигнет 9 млрд. руб.
Решение.
1) Прежде всего в подобных задачах нам нужно обосновать причинно-следственную связь между признаками (если это не сделано в условии). Очевидно, что чем больше стоимость основных фондов, тем крупнее предприятие и тем больше сырья оно способно переработать. Однако это не является непреложным правилом, ибо любое, самое крупное предприятие может неэффективно работать или даже простаивать. Тем не менее, общая тенденция состоит в том, что при увеличении стоимости фондов предприятий их средняя суточная переработка растёт. Такая зависимость называется корреляционной.
Мы предполагаем наличие прямой корреляционной зависимости суточной переработки сырья (признак-результат Y) от стоимости основных фондов (фактор X).
В данной таблице частоты располагаются преимущественно по диагонали – от левого верхнего до правого нижнего угла, что подтверждает прямое направление зависимости («чем больше, тем больше»).
Определим форму зависимости (линейная, квадратичная, экспоненциальная или какая-то другая). Простейший способ – графический, построить корреляционное поле. Для этого нужно немного модифицировать исходную таблицу, а именно
Перейдем от интервальных вариационных рядов (левый столбец и 2-я сверху строка) к дискретным, выбрав в качестве вариант и середины соответствующих интервалов:
Таблица 2 – Комбинационная таблица |
|||||
Стоимость основных фондов, |
Суточная выработка сырья, |
Итого, ni |
|||
5 |
7 |
9 |
11 |
||
3 |
2 |
2 |
|||
4 |
6 |
3 |
9 |
||
5 |
2 |
5 |
7 |
14 |
|
6 |
2 |
2 |
3 |
7 |
|
7 |
1 |
7 |
8 |
||
Итого, mj |
10 |
10 |
10 |
10 |
40 |
Найдем суммы частот по серым строкам (правый столбец) и суммы частот по серым столбцам (нижняя строка), проверим итоговые суммы они должны быть равны объёму выборки n:
Обратите внимание, что значения признака-фактора расположены по вертикали в левом столбце, а значения признака-результата – по горизонтали в «шапке» таблицы. Именно такое расположение (а не наоборот) чаще всего встречается на практике. Однако оно не сильно удобно в техническом плане, в частности, для построения корреляционного поля:
Построим корреляционное поле
Рисунок 1 - Корреляционное поле
Ранее мы строили эмпирические линии регрессии – это простейший способ изобразить форму корреляционной зависимости. Однако гораздо удобнее привлечь на помощь функции.
Анализируя чертёж, приходим к выводу, что эмпирические точки «выстроились» примерно по прямой, что позволяет предположить наличие линейной корреляционной зависимости Y – суточной переработки сырья от X – стоимости основных фондов.
Далее нужно найти уравнение линейной регрессии y=ax+b, график которой проходит максимально близко к эмпирическим точкам (с учётом их «весов» – частот в серых полях комбинационной таблицы), а также
Оценим тесноту линейной корреляционной зависимости – насколько близко расположены точки к построенной прямой. Эта теснота оценивается с помощью линейного коэффициента корреляции:
2) Коэффициент корреляции вычислим по формуле
.
Найдем средние и стандартные отклонения .
Сначала разберёмся рассмотрим признак-фактор X. Для этого из комбинационной таблицы 2 выпишем значения и заполним расчётную таблицу:
Таблица 3 – Расчетная таблица для признака-результата Х |
||||||
|
3 |
4 |
5 |
6 |
7 |
Суммы |
|
2 |
9 |
14 |
7 |
8 |
40 |
|
6 |
36 |
70 |
42 |
56 |
210 |
|
18 |
144 |
350 |
252 |
392 |
1156 |
Вычислим среднее значение и среднее квадратическое отклонение, как корень из дисперсии, вычисленной по формуле:
.
Аналогично, выберем значения у из комбинационной таблицы и заполняем расчетную таблицу для признака-результата Y:
Таблица 4 – Расчетная таблица для признака-результата Y |
|||||
|
5 |
7 |
9 |
11 |
Суммы |
|
10 |
10 |
10 |
10 |
40 |
|
50 |
70 |
90 |
110 |
320 |
|
250 |
490 |
810 |
1210 |
2760 |
после чего рассчитываем нужные показатели:
Теперь найдём среднее значение произведения признаков. Для этого вычислим все возможные произведения и на соответствующие ненулевые частоты , наглядно распишем (рис. 2):
Рисунок 2 – Схема вычисления всех возможных произведений и на соответствующие ненулевые частоты
Вычислим сумму этих произведений:
и искомую среднюю:
Таким образом, линейный коэффициент корреляции:
В результате получено положительное число и, согласно шкале Чеддока, существует сильная прямая линейная корреляционная зависимость Y суточной переработки сырья от X стоимости основных фондов.
Вычислим коэффициент детерминации:
, таким образом, в рамках построенной модели 69,12% вариации суточной переработки сырья обусловлено стоимостью основных фондов. Остальные 100-69,12=30,88% вариации обусловлено другими факторами.
3) Найдём уравнение y=ax+b линейной регрессии Y на X (именно так на). Здесь можно использовать формулы предыдущего занятия . Но есть другой вариант. Искомое уравнение имеет вид:
, в данной задаче получим:
примерно:
Полученное уравнение показывает, что при увеличении стоимости основных фондов на х=1 суточная переработка сырья увеличивается в среднем на 1,61 тысяч центнеров.
Это очень важный вывод, который часто требуется в заданиях, по сути, смысл коэффициента «а».
Найдём координаты двух точек для построения графика:
Отметим на чертеже и проведём линию регрессии
Рисунок 3 – Линия регрессии
Спрогнозируем среднюю суточную переработку сырья при стоимости основных фондов тыс. ц.
Кроме рассмотренного уравнения, существует второе уравнение линейной регрессии – X на Y, его можно составить по формуле:
,
и привести к виду:
полученное уравнение позволяет узнать средние значения х, соответствующие различным значениям у.
График регрессии также можно изобразить на чертеже, и он будет пересекать график в точке .