Практическое занятие 5.1.
Дискретный и интервальный вариационные ряды
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.
Иногда проводят сплошное обследование, однако, на практике сплошное обследование применяется сравнительно редко. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.
Задача 1. Задано распределение частот выборки объема 20:
|
2 |
6 |
12 |
|
3 |
10 |
7 |
Написать распределение относительных частот. Построить полигон и гистограмму относительных частот.
Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки: n=3+10+7=20
; ; .
Напишем дискретный вариационный ряд относительных частот.
|
2 |
6 |
12 |
|
3 |
10 |
7 |
|
0,15 |
0,5 |
0,35 |
Замечание: в статистике данные чаще располагают не в строках, а в столбцах, так как количество вариант может быть достаточно велико, и они просто не поместятся в строчку. В рассматриваемых на этом занятии примерах число вариант небольшое, поэтому мы будем использовать такое расположение в таблице в целях экономии места.
Проверка: 0,15+0,5+0,35=1.
Построим полигон относительных частот: это ломаная, соединяющая соседние точки .
|
Полигон относительных частот |
Построим гистограмму. Сначала просматриваем предложенные числа и определяем примерный интервал, в который вписываются эти значения.
Длины частичных интервалов могут быть различны, но в большинстве случаев использует равноинтервальную группировку. Выбираем интервал от 1 до 13, разбиваем его на промежутки длины 4. |
Гистограмма относительных частот |
Задача 2. По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды:
4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.
Требуется:
1. составить вариационный ряд;
2. построить полигон частот;
3. найти относительные частоты;
4. построить эмпирическую функцию распределения.
Решение.
1. Имеем выборку из генеральной совокупности. Подсчитаем её объем, т.е. количество рабочих. В данном случае: n=25.
Квалификационные разряды – есть величина дискретная, и поэтому нам предстоит составить дискретный вариационный ряд.
В данном случае диапазон возможных значений - варианты– от 2 до 6. Подсчитываем их количество, получим:
хi |
2 |
3 |
4 |
5 |
6 |
Ʃ |
ni |
3 |
5 |
8 |
6 |
3 |
25 |
Построенный вариационный ряд также называют статистическим распределением выборки.
2. Построим полигон частот. Полигон частот – это ломаная, соединяющая соседние точки (хi, ni) |
3. Найдём относительные частоты , для этого каждую частоту ni делим на n=25 и результат заносим в строку:
хi |
2 |
3 |
4 |
5 |
6 |
Ʃ |
ni |
3 |
5 |
8 |
6 |
3 |
25 |
|
0,12 |
0,2 |
0,32 |
0,24 |
0,12 |
1 |
4. Построим эмпирическую функцию распределения .
Данная функция определяется, как отношение: , где – количество вариант строго меньших, чем х, при этом .
На интервале и, кроме того, функция равна нулю ещё и в точке . Так как значение определяет количество вариант, которые строго меньше 2, а это количество равно 0.
хi |
2 |
3 |
4 |
5 |
6 |
Ʃ |
|
0,12 |
0,2 |
0,32 |
0,24 |
0,12 |
1 |
На промежутке – и опять обратим внимание на то, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые строго меньше 3.
На промежутке
и далее процесс продолжается по принципу накопления частот:
.
Накопленные относительные частоты удобно записывать в отдельную строку таблицы
хi |
2 |
3 |
4 |
5 |
6 |
Ʃ |
|
0,12 |
0,2 |
0,32 |
0,24 |
0,12 |
1 |
wн |
0,12 |
0,32 |
0,64 |
0,88 |
1 |
|
Алгоритм вычислений накопленных относительных частот:
сначала сносим вниз 1-е значение, а каждое следующее получаем как сумму предыдущего и относительной частоты из текущей верхней строки.
хi |
2 |
3 |
4 |
5 |
6 |
Ʃ |
wн |
0,12 |
0,32 |
0,64 |
0,88 |
1 |
|
Получим функцию . График функции представляет собой ступенчатую фигуру:
|
Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения, которая образуется на основании исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важна именно эмпирическая функция, и ещё важнее, чтобы выборка была репрезентативна, в этом случае приближение будет хорошим.
Если исследуемая величина принимает слишком много различных значений, то возникает необходимость построения интервального вариационного ряда (ИВР). ИВР также используется в случаях измерений непрерывных характеристик изучаемых объектов. Для изучения интервального вариационного ряда затруднительно либо невозможно применить тот же подход, что и для дискретного ряда. Это связано с тем, что все варианты многих ИВР различны.
И даже если встречаются совпадающие значения, например, 50 грамм и 50 грамм, то связано это с округлением, ибо полученные значения всё равно отличаются хоть какими-то микрограммами.
Поэтому для исследования интервального вариационного ряда используется другой подход, а именно, определяется интервал, в пределах которого варьируются значения, затем данный интервал делится на частичные интервалы, и по каждому интервалу подсчитываются частоты – количество вариант, которые в него попали.
Разберем получение интервального вариационного ряда на примере с экономическим содержанием.
Задача 3. По результатам исследования цены некоторого товара в различных торговых точках города, получены следующие данные (в некоторых денежных единицах):
7,5 |
7,6 |
8,7 |
6,1 |
10,6 |
9,8 |
7 |
6 |
8,3 |
6 |
8,2 |
8,5 |
7,4 |
7,1 |
9,5 |
6,8 |
9,6 |
6,3 |
6,3 |
8,5 |
5,8 |
7,5 |
9,2 |
7,2 |
7 |
8 |
7,5 |
7,5 |
8 |
6,5 |
Составить вариационный ряд распределения
Решение.
Перед нами выборочная совокупность c объемом наблюдений n=30. Вопрос номер один: какой ряд составлять – дискретный или интервальный? Смотрим на таблицу: среди предложенных цен есть одинаковые, но их разброс довольно велик, и поэтому здесь целесообразно провести интервальное разбиение. К тому же цены могут быть округлёнными.
Просмотрим предложенные числа и определяем примерный интервал, в который вписываются эти значения. Все значения заключены в пределах от 5 до 11. Далее делим этот интервал на удобные подынтервалы, в данном случае получаем промежутки единичной длины:
5-6, 6-7, 7-8, 8-9, 9-10, 10-11.
Записываем числа из условий задачи в соответствующие интервалы и подсчитываем их количество. После этого находим самое маленькое число в первом интервале и самое большое значение – в последнем интервале. Получилось: xmin=5,8, xmax=10,6 ден. ед. (желательно, указывать размерность).
Вычислим размах вариации: R= xmax - xmin=10,6 - 5,8=4,8 ден. ед. – длина общего интервала, в пределах которого варьируется цена.
Теперь его нужно разбить на частичные интервалы. Сколько интервалов рассмотреть? На этот счёт существует формула Стерджеса: k=1+3,222·lg n, где lg n – десятичный логарифм от объёма выборки n и k – оптимальное количество интервалов, при этом результат округляют до ближайшего левого целого значения.
В нашем случае получаем: k=1+3,222·lg 30≈5,9≈5 интервалов.
Длины частичных интервалов могут быть различны, но в большинстве случаев использует равноинтервальную группировку. При этом сразу рассчитываем их середины:
интервалы |
5,7-6,7 |
6,7-7,7 |
7,7-8,7 |
8,7-9,7 |
9,7-10,7 |
xi |
6,2 |
7,2 |
8,2 |
9,2 |
10,2 |
Далее подсчитываем частоты по каждому интервалу.
Правило: если варианта попадает на «стык» интервалов, то её следует относить в правый интервал.
В результате получаем интервальный вариационный ряд:
интервалы |
5,7-6,7 |
6,7-7,7 |
7,7-8,7 |
8,7-9,7 |
9,7-10,7 |
Суммы |
xi |
6,2 |
7,2 |
8,2 |
9,2 |
10,2 |
|
ni |
7 |
11 |
6 |
4 |
2 |
30 |
Находим сумму: .
Контрольные вопросы
1. Задача математической статистики.
2. Генеральная совокупность. Выборка.
3. Вариационный ряд. Частоты и относительные частоты.
4. Полигон частот, относительных частот.
5. Гистограмма частот, относительных частот.
6. Эмпирическая функция распределения.
7. Интервальный вариационный ряд.