Раздел 2. Математическая статистика

 

Лекция 5.  Основы математической статистики. Вариационные ряды

 

Математическая статистика занимается обработкой данных и извлечением информации из них. Она использует статистические методы для сбора, анализа и интерпретации данных. Математическая статистика позволяет делать выводы и прогнозы на основе имеющихся данных и оценивать параметры исследуемых явлений. Она также включает в себя методы проверки гипотез и построения доверительных интервалов.

Теория вероятностей и математическая статистика тесно связаны между собой. Вероятностные модели и распределения используются в статистике для описания данных и проверки гипотез. Статистические методы, в свою очередь, используют результаты из теории вероятностей для получения точных выводов и оценок. Обе области математики имеют много общих понятий и инструментов, таких как математическое ожидание, дисперсия, корреляция и многое другое.

 

 

План лекции

 

1. Генеральная и выборочная совокупности;

2. Ряд распределения;

3. Гистограмма и полигон статистических распределений;

4. Характеристики вариационного ряда: медиана и мода.

 

 

1. Генеральная и выборочная совокупности

 

Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых проводится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.

 

2. Ряд распределения

 

Пусть из генеральной совокупности извлечена выборка объемом , причем  наблюдалось  раз,  раз,  раз и .

Числа наблюдений называют частотами, а их отношения к объему выборки  - относительными частотами (частостями).

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

 

 

Таблица 1

 (Варианты)

 

 (Частоты)

 (Относительные

частоты)

 

Таблицу 1 называют статистическим дискретным рядом распределения.

 

Интервальный ряд распределения

 

Если изучаемая случайная величина является непрерывной, то следует построить интервальный (вариационный) ряд распределения:

интервал, в котором заключены все наблюдаемые значения признака, разбивают на определенное количество частичных интервалов  длиной  и находят для каждого частичного интервала  сумму частот вариант, попавших в  -й интервал.

 

 

Таблица 2

 

 

 

 

 (Интервал)

 (Частота)

(Относительная частота)

 

Таблицу 2 называют статистическим интервальным рядом распределения.

 

3. Гистограмма и полигон статистических распределений

 

Для наглядного представления вариационного ряда большое значение имеют его графические изображения.

Полигон распределения (дословно — многоугольник распределения) строится в прямоугольной системе координат. Величина признака откладывается на оси абсцисс, частоты или относительные частоты — по оси ординат.

Определение. Полигоном относительных частот называют ломаную, отрезки которой, соединяют точки .

 

Гистограмма. В случае непрерывного признака целесообразно строить гистограмму

Определение.  Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною , а высоты равны частотам mi или относительным частотам .

Рисунок 1 - Полигон и гистограмма распределения

 

 

4. Характеристики вариационного ряда: медиана и мода

 

В качестве характеристики вариационного ряда используют медиану (Ме), т. е. такое значение варьирующего признака, которое приходится на середину упорядоченного вариационного ряда.

При нечетном количестве вариантов медиана рассчитывается по формуле: Ме=xm+1; при четном .

Медиана обладает таким свойством:  - сумма абсолютных величин отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической).

 

Пример 1. На шоссе длиной 100 км имеется 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых поездок на заправку с каждого гаража. Результаты обследования приведены в таблице.

 

Таблица 3

 

 

 

 

 

 

 

 

 

 

 

Расположение

гаража

7

26

28

37

40

46

60

78

86

92

Всего поездок

Планируемое число поездок

10

15

5

20

5

25

15

30

10

65

200

 

Бензоколонку нужно поставить так, чтобы общий пробег машин на заправку был наименьшим.

 

Решение.

Вариант 1. Если бензоколонку поставить на середине шоссе, т. е. на 50-м километре (средняя арифметическая), то пробеги с учетом числа поездок составят:

в одном направлении

43∙10+24∙15+22∙5+13∙20+10∙5+4∙25= 1310 км;

в противоположном

10∙15+28∙30+36∙10+42∙65=4080 км;

Общий пробег в оба направления окажется равным 5390 км.

 

Вариант 2. Уменьшения пробега можно достичь, если бензоколонку поставить на 63,85-м километре, т. е. на среднем участке шоссе с учетом числа поездок (средняя арифметическая взвешенная). В этом случае пробеги составят по 2475,75 км в оба направления, т. е. общий пробег составит 4951,5 км и окажется меньше, чем при первом варианте, на 438,5 км.

 

Вариант 3. Наилучший результат, т. е. минимальный общий пробег, получим, если поставим бензоколонку на 78-м километре, что будет соответствовать медиане. Тогда пробеги составят 3820 км и 990 км. Общий пробег равен 4810 км, т. е. он оказался меньше, общих пробегов, рассчитанных по предыдущим вариантам.

 

Модой Мо называется варианта, наиболее часто встречающаяся в данном вариационном ряду. Для дискретного ряда мода соответствует варианте с наибольшей частотой.

Вариационные ряды, в которых частоты вариант, равноотстоящих от средней, равны между собой, называются симметричными. Особенность симметричных вариационных рядов состоит в равенстве трех характеристик — средней арифметической, моды и медианы: .