Практическое занятие 13.1.
Корреляционная таблица
Во многих примерах мы сталкиваемся с невозможностью учета влияния всех факторов на интересующие нас количественные соотношения между двумя основными величинами (показателями). Поэтому характеристика каждой такой взаимосвязи по данным отдельных наблюдений носит случайный характер и может выявить некоторые закономерности лишь по данным большого числа наблюдений.
В отличие от функциональной зависимости связь такого характера между двумя величинами называется статистической.
Для выяснения математической сущности связей такого вида на конкретном примере обратимся к данным табл. 1 распределения 100 растений житняка по общему весу х и по весу семян у каждого растения.
При составлении таблицы растения житняка сгруппированы в отдельные классы по общему весу и по весу семян, а затем определены середины классов, т. е. средние значения этих весов по каждому классу.
Обозначим: переменная х - середина классов растений по общему весу, переменная у - середина классов по весу семян.
Таблица 1
y x |
13 |
18 |
23 |
28 |
33 |
38 |
43 |
48 |
53 |
58 |
63 |
68 |
nx |
25 35 45 55 65 75 85 95 105 115 125 |
3 − − − − − − − − − − |
2 6 1 1 − − − − − − − |
− 4 13 2 1 − − − − − − |
− − 5 4 − − − − − − − |
− − − 8 4 2 − − − − − |
− − − 1 4 6 − − − − − |
− − − − 2 6 1 − − − − |
− − − − − 2 5 1 − − − |
− − − − − − − 4 2 − − |
− − − − − − − 1 4 1 − |
− − − − − − − − 1 − − |
− − − − − − − − 1 1 1 |
5 10 19 16 11 16 6 6 8 2 1 |
ny |
3 |
10 |
20 |
9 |
14 |
11 |
9 |
8 |
6 |
6 |
1 |
3 |
100 |
х1 = 25 обозначает середину класса растений с общим весом от 20 до 30 г, х2 = 35 — середину класса от 30 до 40 г и т. д., y1=13— середину класса растений с весом семян от 10,5 до 15,5 г, у2 = 18 — середину класса от 15,5 до 20,5 г и т. д.
Обозначим:
пх - численность класса (частота) растений с соответственным общим весом х, пу - частота растений с соответственным весом семян у.
Так, число 19 в крайнем справа столбце (пх) означает количество растений с общим весом (в среднем) 45 г (т. е. от 40 до 50 г), а число 20 в нижней строке (пу) — количество растений с весом семян в (среднем) 23 г (т. е. от 20,5 до 25,5 г).
Числа во внутренних клетках - частоты соответственных комбинаций растений с некоторым общим весом х и с некоторым весом семян у.
Так, число 8 - количестве растений с общим весом 55 г (от 50 до 60 г) и с весом семян 33 г (от 30,5 до 35,5 г); число 4 (в третьем (внутреннем) столбце) - количество растений с общим весом (в среднем) 35 г и с весом семян (в среднем) 23 г, число 4 (в третьей снизу (внутренней) строке) - количество растений с общим весом 105 г и с весом семян 58 г.
В обобщенных обозначениях для чисел во внутренних клетках применяется символ п с двойным индексом пху.
Например, приведенное выше число 8 следовало бы обозначить символом n4,5, так как оно указывает на количество растений с общим весом х4 = 55 и с весом семян у5 = 33.
По этим признакам число 4 из третьего столбца следовало бы обозначить символом n2,3, а число 4 из третьей снизу строки — символом n9,10.
Рассмотренная структура таблицы распределения растений житняка по общему весу и по весу семян отдельных растений раскрывает на этом частном примере общую структуру так называемой корреляционной таблицы, связывающей значения изучаемых показателей х и у.
Суммы чисел пху, расположенных во внутренних клетках, по строкам дают частоты соответственных значений переменной х.
Суммы чисел пху по столбцам дают частоты соответственных значений переменной y.
Таблица 2
y x |
y1 |
y2 |
y3 |
y4 |
y5 |
… |
… |
… |
… |
yl |
nx |
x1 x2 x3 … … … xk |
n1,1 n2,1 n3,1 … … … nk,1 |
n1,2 n2,2 n3,2 ... … … nk,2 |
n1,3 n2,3 n3,3 … … … nk,3 |
n1,4 n2,4 n3,4 … … … nk,4 |
n1,5 n2,5 n3,5 … … … nk,5 |
… … … … … … … |
… … … … … … … |
… … … … … … … |
… … … … … … … |
n1,l n2,l n3,l ... … … nk,l |
nx1 nx2 nx3 ... … … nxk |
ny |
ny1 |
ny2 |
ny3 |
ny4 |
ny5 |
… |
… |
… |
… |
nyl |
N |
Так,
Суммирование всех чисел пху можно представить в виде последовательного суммирования сначала по каждой строке, а затем по крайнему правому столбцу пх или в виде суммирования сначала по каждому столбцу, а затем по нижней строке пу.
Совпадение результатов суммирования, выполненного в одном или в другом порядке, подтверждает правильность составления корреляционной таблицы:
Если совпадение результатов нарушено, то ошибка может быть устранена проверкой результатов суммирования по каждой строке и по каждому столбцу.
В частных случаях числа пху располагаются рядами, заполняющими не все клетки строк и столбцов. При этом
совокупность чисел в каждой строке—это ряд распределения значений у, соответствующих данному значению х,
а совокупность чисел в столбце — ряд распределения значений х, соответствующих данному значению у.
По корреляционной таблице 1, составленной для растений житняка, можно, например, отметить, что значению x5 = 65 соответствует пх5 = 11 значений у со следующим рядом распределения этих значений:
значения у |
23 |
33 |
38 |
43 |
их частоты |
1 |
4 |
4 |
2 |
Распределение значений у, соответствующих значению х11 = 125, состоит из одного значения yl2 = 68.
Значению x3 = 45 соответствует 19 значений у со следующим распределением:
значения у |
18 |
23 |
28 |
их частоты |
1 |
13 |
5 |
Так же элементарно можно охарактеризовать распределения значений х, соответствующие тем или другим значениям у.
Корреляционная таблица, составленная на основании результатов наблюдения за значениями переменных х и у, позволяет после некоторой математической обработки ее данных подойти к разрешению двух основных задач корреляционного анализа: установлению формы корреляционной связи между переменными х и у и определению тесноты этой связи.
Рассмотрение в корреляционной таблице рядов распределения значений у, соответствующих последовательным значениям х, может выявить некоторые закономерности в смещении этих рядов.
Простейшие случаи, характерные для формы таких смещений, позволяют убедиться в том, что с возрастанием значений х в среднем растут или в среднем убывают значения у, что с возрастанием значений х значения у в среднем сначала возрастают, а затем убывают, или наоборот. К этим характеристикам связей между значениями х и у приводит внешний вид расположения рядов распределения значений у, соответствующих последовательным значениям х.
Так, по данным корреляционной таблицы 1 распределения растений житняка смещение рядов распределения значений у показывает, что с возрастанием х (общего веса растения) возрастает в среднем и у (вес семян растения). Но эта связь выразится более отчетливо, если каждому значению х будет поставлено в соответствие частное среднее значение у, которое обозначим символом .
Вычисляя эти частные средние по правилу определения средней взвешенной, будем иметь:
и т. д.
С помощью таких средних, вычисленных для всех значений х, исходная табл. 1 приводится к форме, отражающей связь между значениями х и соответствующими частными средними :
Таблица 3
x |
25 |
35 |
45 |
55 |
65 |
75 |
85 |
95 |
105 |
115 |
125 |
|
15,0 |
25,0 |
24,1 |
29,9 |
35,7 |
40,5 |
47,2 |
53,0 |
58,4 |
63,0 |
68,0 |