Практическое занятие 13.2.
Уравнения прямой регрессии.
Простейшие случаи криволинейной корреляции
На лекции были рассмотрены понятия уравнения регрессий, подробно изучались уравнения прямых регрессий. Этот вид корреляционной зависимости весьма важен, так как очень многие корреляционные связи, характерные для количественных признаков наблюдаемых однородных фактов, близки к линейным.
Данные наблюдения, представленные в виде корреляционной таблицы, и найденные из этой таблицы пары соответственных значений х и или у и , используются для отыскания параметров уравнений прямых регрессии
= ах + b и = су + d.
Эта операция, называемая выравниванием, обычно выполняется по способу наименьших квадратов, сущность которого будет изложена на лекции.
Пример 5. При измерении диаметра (в мкм) пыльцы шаровидной фуксии в зависимости от числа пор , расположенных в экваториальной плоскости пылинки, получены результаты, приведенные в табл. 1.
Табл. 1
Х
|
0 |
1 |
2 |
3 |
4 |
|
10 |
3 |
|
|
|
|
3 |
15 |
7 |
3 |
|
|
|
10 |
20 |
|
6 |
|
|
|
6 |
25 |
|
1 |
|
|
|
1 |
30 |
|
|
4 |
|
|
4 |
35 |
|
|
5 |
|
|
5 |
40 |
|
|
1 |
3 |
|
4 |
45 |
|
|
|
4 |
|
4 |
50 |
|
|
|
3 |
3 |
6 |
55 |
|
|
|
|
4 |
4 |
60 |
|
|
|
|
3 |
3 |
|
10 |
10 |
10 |
10 |
10 |
|
Составить уравнения прямых регрессий на и на .
Решение. На основании данных, приведенных в табл. 1, найдем условные средние величины для всех значений :
; ; ;
; .
По полученным результатам составим таблицу 2.
Табл. 2
|
0 |
1 |
2 |
3 |
4 |
|
13,5 |
19 |
33,5 |
45 |
55 |
На основании данных, приведенных в табл. 1, найдем условные средние величины для всех значений :
; |
; |
; |
; |
; |
; |
; |
; |
; |
; |
. |
|
По полученным результатам составим таблицу 3.
Табл. 3
|
10 |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
50 |
55 |
60 |
|
0 |
0,3 |
1 |
1 |
2 |
2 |
2,75 |
3 |
3,5 |
4 |
4 |
Данные таблиц 2 и 3 отражены на рис. 1
Как видно из рисунка, характер расположения построенных точек указывает на приблизительную линейную зависимость от и от . Поэтому уравнения регрессии следует искать в виде (2) и (3). Составим вспомогательные расчетные таблицы для нахождения коэффициентов регрессии и (табл. 4, 5). |
Рис. 1 |
Табл. 4
|
|
|
|
10 |
|
|
|
10 |
|
|
|
10 |
|
|
|
10 |
|
|
|
10 |
|
|
|
|
|
|
|
Табл. 5
|
|
|
|
3 |
|
|
|
10 |
|
|
|
6 |
|
|
|
1 |
|
|
|
4 |
|
|
|
5 |
|
|
|
4 |
|
|
|
6 |
|
|
|
4 |
|
|
|
3 |
|
|
|
|
|
|
|
Числа получены из таблицы 1 суммированием произведений каждого числа внутренней строки на соответствующее значение . Например, для : .
Числа получены из таблицы 6 суммированием произведений каждого числа внутренней строки на соответствующие значение . Например, для : .
Подставив в формулы числовые данные, приведенные в таблицах 4 и 5, получим:
; ; ; ; ; ; ; ; .
В соответствии с формулой коэффициент регрессии
, а параметр .
Аналогично, коэффициент регрессии
, а параметр .
Тогда уравнения регрессии (соответственно линии и на рисунке 1).
на и на имеют вид: ; .
В некоторых случаях ломаная, соединяющая точки, соответствующие парам значений х и х, располагается вблизи кривой.
Ограничимся рассмотрением корреляционной связи х = f (x) для двух простейших кривых: параболы, соответствующей трехчлену
f(x) = ах2 + bх + с, и гиперболы, определяемой уравнением f(x) = a+.
Отыскание параметров квадратного трехчлена по способу наименьших квадратов с использованием данных простой таблицы значений х и у проводится аналогично нахождению уравнения линейной корреляции..
Если же значения х и у представлены данными корреляционной таблицы, то корреляционная связь отыскивается как уравнение регрессии х = ах2+bх + с.
Параметры этого уравнения определяются из системы нормальных уравнений, отражающих в структуре своих коэффициентов и свободных членов все данные корреляционной таблицы:
Заметим, что к выравниванию с помощью параболы второго порядка можно обращаться в тех случаях, когда использование линейной корреляции обнаруживает малую тесноту связи (значения коэффициента корреляции в границах 0,4—0,6).
Пример 1.
Используя данные таблицы 1 группировки 135 сахаропесочных заводов по размеру основных производственных средств в млн. руб. (х) и по среднесуточной переработке свеклы в тыс. ц (у) установить зависимость между у и х в форме уравнения параболы второго порядка.
Таблица 1
y x |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
nx |
1,75 2,25 2,75 3,25 3,75 4,25 |
4 5 − 3 − − |
6 9 4 3 − − |
9 15 6 2 3 − |
2 10 7 7 3 2 |
− 2 7 8 2 2 |
− 1 − 1 3 1 |
− − 1 − 2 2 |
− − − − − 2 |
− − − − − 1 |
21 42 25 24 13 10 |
ny |
12 |
22 |
35 |
31 |
21 |
6 |
5 |
2 |
1 |
135 |
Для составления системы нормальных уравнений необходимые данные получаются суммированием, выполненным по схеме вспомогательной таблицы.
Таблица 2
x |
пх |
пхx |
пхх2 |
пхх3 |
пхх4 |
пх |
пхx |
пхх2 |
1,75 2,25 2,75 3,25 3,75 4,25 |
21 42 25 24 13 10 |
36,75 94,50 68,75 78,00 48,75 42,50 |
64,31 212,63 189,06 253,50 182,81 180,63 |
112,55 478,38 520,00 823,92 685,49 767,70 |
196,97 1076,36 1430,00 2677,84 2570,28 3252,72 |
114 250 171 116 102 93 |
199,50 562,50 470,25 523,25 382,50 395,25 |
349,14 1139,06 1293,19 1700,56 1434,38 1679,81 |
|
N = 135 |
369,25 |
1082,94 |
3388,04 |
11204,17 |
891 |
2533,25 |
7596,14 |
По итоговым данным табл. 2 можно записать систему нормальных уравнений:
Решение этой системы дает параметры: a ≈-0,0216; b ≈ 0,677; с ≈ 5,07.
Получим уравнение
f(x) = -0,0216х2 + 0,677х + 5,07.
Рассмотрим корреляционную зависимость гиперболического типа, определяемую уравнением = a+.
Пример 2. В табл. 3 дана группировка 44 предприятий по выпуску продукции в тыс. ед. (х) и средней себестоимости единицы в руб. (y). Составить корреляционное уравнение связи этими показателями.
Таблица 3
x |
до 1 |
1 - 2 |
2 - 3 |
3 - 4 |
4 - 5 |
5 - 6 |
6 - 7 |
7 - 8 |
8 - 9 |
9 - 10 |
y |
16,50 |
13,75 |
13,31 |
12,50 |
13,52 |
12,75 |
12,30 |
12,83 |
12,28 |
12,34 |
Число предприятий |
6 |
6 |
8 |
7 |
4 |
4 |
3 |
2 |
2 |
2 |
Ломаная, отображающая данные этой таблицы (рис. 1), позволяет обратиться к уравнению гиперболы.
Применим способ наименьших квадратов для определения параметров искомого уравнения в виде = a+.
Для функции необходимые условия минимума
и приводят к системе
Суммирование выполняется на вспомогательной таблице (табл. 4)
Таблица 4
x |
x |
пх |
|
|
пхx |
пх |
0,5 |
16,50 |
6 |
12,000 |
24,000 |
99,00 |
198,000 |
1,5 |
13,75 |
6 |
4,000 |
2,664 |
82,50 |
55,000 |
2,5 |
13,31 |
8 |
3,200 |
1,280 |
100,48 |
40,192 |
3,5 |
12,50 |
7 |
2,000 |
0,574 |
87,50 |
24,100 |
4,5 |
13,52 |
4 |
0,888 |
0,196 |
54,08 |
12,178 |
5,5 |
12,75 |
4 |
0,728 |
0,132 |
51,00 |
9,273 |
6,5 |
12,30 |
3 |
0,462 |
0,072 |
36,90 |
5,677 |
7,5 |
12,83 |
2 |
0,266 |
0,036 |
25,66 |
3,421 |
8,5 |
12,28 |
2 |
0,236 |
0,028 |
24,56 |
2,889 |
9,5 |
12,34 |
2 |
0,210 |
0,022 |
24,68 |
2,591 |
|
|
N = 44 |
23,990 |
29,004 |
586,36 |
353,301 |
Получим систему нормальных уравнений
определяем параметры:
и
Отсюда искомое уравнение регрессии запишется так:
Соответствующая этому уравнению линия регрессии изображена вместе с ломаной на рис. 1.