Раздел 5. Элементы корреляционно-регрессионного анализа
Лекция 13. Элементы теории корреляции. Уравнения регрессии
План лекции
1. Функциональная и корреляционная зависимости;
2. Корреляционная таблица;
3. Эмпирическая линия регрессии;
4. Линейная корреляционная зависимость.
1. Функциональная и корреляционная зависимости
Изучение разнообразных явлений сопровождается выяснением закономерностей, которым подчиняются характерные для данных явлений количественные соотношения или связи. Характеристика этих связей в виде уравнения, графика или таблицы подчиняется принципу строго определенного соответствия, составляющего сущность функциональной зависимости.
Вместе с тем для самых разнообразных явлений массового характера нельзя установить закономерность в количественных соотношениях между рассматриваемыми показателями, которая удовлетворяла бы принципу строгого соответствия. Нарушение этого принципа связано с тем, что изменение одного показателя определяется не только изменением другого основного показателя, но и влиянием ряда сопутствующих второстепенных факторов.
Во многих примерах мы сталкиваемся с невозможностью учета влияния всех факторов на интересующие нас количественные соотношения между двумя основными величинами (показателями). Поэтому характеристика каждой такой взаимосвязи по данным отдельных наблюдений носит случайный характер и может выявить некоторые закономерности лишь по данным большого числа наблюдений.
Характерная особенность взаимосвязей в массовых явлениях состоит в том, что каждому значению одной величины х соответствует распределение значений у (т. е. несколько значений у с различными вероятностями каждого из них), меняющееся с изменением х. Такое же соответствие имеет место между каждым значением величины у и связанными с ним значениями х.
В отличие от функциональной зависимости связь такого характера между двумя величинами называется статистической.
Степень рассеяния возможных значений у, соответствующих каждому значению х, характеризует большую или меньшую тесноту связи между этими величинами. Это значит, что если влияние неучтенных факторов на изучаемую связь между величинами х и у незначительно, то степень рассеяния значений у мала, а связь между х и у имеет большую тесноту. Если же влияние неучтенных факторов значительно, то степень рассеяния значений у велика, а теснота связи между х и у мала.
2. Корреляционная таблица
Корреляционная таблица, составленная на основании результатов наблюдения за значениями переменных х и у, позволяет после некоторой математической обработки ее данных подойти к разрешению двух основных задач корреляционного анализа: установлению формы корреляционной связи между переменными х и у и определению тесноты этой связи.
Рассмотрение в корреляционной таблице рядов распределения значений у, соответствующих последовательным значениям х, может выявить некоторые закономерности в смещении этих рядов.
Простейшие случаи, характерные для формы таких смещений, позволяют убедиться в том, что с возрастанием значений х в среднем растут или в среднем убывают значения у, что с возрастанием значений х значения у в среднем сначала возрастают, а затем убывают, или наоборот. К этим характеристикам связей между значениями х и у приводит внешний вид расположения рядов распределения значений у, соответствующих последовательным значениям х.
С помощью таких средних, вычисленных для всех значений х, исходная таблица значений приводится к форме, отражающей связь между значениями х и соответствующими частными средними ,например, к таблице
Таблица 1 - Связь между значениями х и |
|||||||||||
x |
25 |
35 |
45 |
55 |
65 |
75 |
85 |
95 |
105 |
115 |
125 |
|
15,0 |
25,0 |
24,1 |
29,9 |
35,7 |
40,5 |
47,2 |
53,0 |
58,4 |
63,0 |
68,0 |
3. Эмпирическая линия регрессии
Графическое отображение данных таблицы 1 в виде точек, соответствующих парам значений х и , с последовательным соединением этих точек отрезками прямых приводит к ломаной, которая называется эмпирической линией регрессии у по х.
По этой линии, или вернее по взаимному расположению точек (вершин ломаной), можно наметить форму линии, около которой группируются точки (x, ) с наименьшими отклонениями.
Такую линию называют теоретической линией регрессии, или просто линией регрессии у по х. Зависимость = f(x), соответствующая линии регрессии, называется уравнением регрессии у по х, или корреляционной зависимостью между у и х.
Отыскание уравнения этой линии дает разрешение первой основной задачи корреляционного анализа — установления формы корреляционной связи между переменными х и у.
Если точки (х; ) располагаются около некоторой прямой, то линия регрессии называется прямой регрессии у по х, и соответствующая операция «выравнивания» ломаной сводится к аналитическому определению параметров линейной функции
=ax+b,
т. е. к линейной корреляции.
К этому типу корреляционной зависимости между у и х приводит, в частности, рассматриваемый пример распределения (рис. 1).
Рисунок 1 - Эмпирическая линия регрессии
4. Линейная корреляционная зависимость
Составление корреляционной таблицы, а также графическое изображение полученных результатов позволяет высказать предположение о той или иной форме (линейной или квадратической) корреляционной зависимости величины от величины и наоборот.
Ограничимся рассмотрением лишь тех случаев, когда есть основания предполагать наличие линейной корреляционной зависимости между величинами и (в генеральной совокупности их значений).
В этих случаях для описания корреляционных зависимостей между величинами и по результатам выборочных наблюдений вводят выборочные уравнения линейной регрессии на и на ;
(1)
, (2)
где , - выборочные коэффициенты регрессии. Для нахождения выборочных коэффициентов регрессии по результатам наблюдений применяется метод наименьших квадратов.
Можно показать, что линии выборочной регрессии и проходят через точку (соответственно прямые и на рис. 2).
Рисунок 2 - Линии регрессии
При этом тангенс угла наклона прямой линии регрессии (1) к оси численно равен коэффициенту регрессии , а тангенс угла наклона прямой (2) к оси - коэффициенту .
По величине коэффициентов судят о силе корреляционной связи между изучаемыми величинами. Так, например, чем больше коэффициент линейной регрессии на , тем сильнее изменяется среднее значение величины при изменении и, значит сильнее корреляционная связь.