Практическое занятие 9.1.

 

Гипотеза о законе распределения

генеральной совокупности. Критерий

согласия Пирсона

 

Рассмотрим генеральную совокупность, распределение которой неизвестно. Однако есть основание полагать, что она распределена по некоторому закону Z (чаще всего, нормально). Это предположение (об этом поговорим позже) может появиться как до, так и в результате статистического исследования, когда мы извлекли и изучили выборку объёма n.

И нам требуется на уровне значимости a проверить нулевую гипотезу H0 – о том, что генеральная совокупность распределена по закону Z против конкурирующей гипотезы H1 о том, что она по нему НЕ распределена.

Как проверить эту гипотезу? Как мы выяснили ранее, выборочные данные группируются в дискретный или интервальный вариационный   ряд   с   вариантами xi   и   соответствующими частотами ni:

 

xi

x1

x2

x3

xm

Ʃ

ni

n1

n2

n3

nm

n

 

Так как эти данные взяты из практического опыта, то выборочный вариационный ряд называют эмпирическим рядом, а частоты ni – эмпирическими частотами. Далее строятся графики, рассчитываются выборочные характеристики (выборочная средняя , выборочная дисперсия sв2 и другие).

На основе некоторых выборочных характеристик по специальным формулам, которые зависят от проверяемого закона Z, строится теоретическое распределение, где для тех же вариант x1, x2, x3, ..., xm рассчитываются теоретические частоты n1¢, n2¢, n3¢, ..., nm¢. Теоретические частоты моделируют закон Z и наилучшим образом приближают эмпирические данные, при этом их сумма åni¢ чуть меньше либо равна сумме эмпирических частот åni = n.

И возникает вопрос: значимо или незначимо различие между эмпирическими n1, n2, n3,…, nm и соответствующими теоретическими n1¢, n2¢, n3¢, ..., nm¢ частотами?

Для ответа на это вопрос рассматривают различные статистические критерии, которые называют критериями согласия, и наиболее популярный из них критерий согласия Пирсона:

 

Критерий согласия Пирсона

 

Величина c2 случайная. Поэтому в разных выборках мы будем получать разные, заранее непредсказуемые эмпирические частоты.

При достаточно большом n (объёме выборки) распределение этой случайной величины близко к распределению хи-квадрат с количеством степеней свободы k=m-r-1, где r – количество оцениваемых параметров закона Z.

Далее строим правосторонняя критическая область:

 

 

Критическое значение c2кр=c2кр(a;k) можно найти с помощью  cоответствующей таблицы.

Наблюдаемое значение критерия рассчитывается по эмпирическим и найденным теоретическим частотам: .

 

Если c2набл.<c2кр, то на уровне значимости a нет оснований отвергать гипотезу H0 о том, что генеральная совокупность распределена по закону Z. То есть, различие между эмпирическими и теоретическими частотами незначимо и, скорее всего, обусловлено случайными факторами (случайностью самой выборки, способом отбора, группировки данных и т.д.)

Если c2набл.>c2кр, то нулевую гипотезу отвергаем, иными словами эмпирические и теоретические частоты отличаются значимо, и это различие вряд ли случайно.

Обратим внимание на формулировку, которую мы выделили жирным цветом – такая формулировка напоминает нам о том, что принятие статистической гипотезы ещё не означает её истинность, поскольку существует β-вероятность того, что мы приняли неправильную гипотезу (совершили ошибку второго рода).

Задача 1.

По результатам выборочного исследования найдено распределение средних удоев молока в фермерском хозяйстве (литров) от одной коровы за день:

 

Литры

7,5-

10,5

10,5-

13,5

13,5-

16,5

16,5-

19,5

19,5-

22,5

22,5-

25,5

25,5-

28,5

28,5-

31,5

31,5-

34,5

Коров

2

6

10

17

33

11

9

7

5

 

На уровне значимости 0,05 проверить гипотезу о том, что генеральная совокупность (средний удой коров всей фермы) распределена нормально. Построить эмпирическую гистограмму и теоретическую кривую.

Решение.

 На уровне значимости a проверим гипотезу H0 о нормальном распределении генеральной совокупности против конкурирующей гипотезы H1 о том, что она так не распределена. Используем критерий согласия Пирсона .

 

Эмпирические частоты известны из данного интервального ряда, и осталось найти теоретические. Для этого нужно вычислить выборочную среднюю  и выборочное стандартное отклонение sв.

Выберем в качестве вариант xi середины частичных интервалов (длина каждого интервала h=3) и заполним расчётную таблицу:

 

интервалы

xi

ni

xini

xi2ni

7,5-10,5

9

2

18

162

10,5-13,5

12

6

72

864

13,5-16,5

15

10

150

2250

16,5-19,5

18

17

306

5508

19,5-22,5

21

33

693

14553

22,5-25,5

24

11

264

6336

25,5-28,5

27

9

243

6561

28,5-31,5

30

7

210

6300

31,5-34,5

33

5

165

5445

Ʃ

 

100

2121

47979

 

 

Вычислим выборочную среднюю:  литра.

 

Выборочную дисперсию вычислим по формуле:

 

.

 

И выборочное стандартное отклонение:  литра, по причине большого объёма выборки его исправлением можно пренебречь.

Теоретические частоты рассчитываются по формуле:

 

,  где- функция Гаусса, а .

 

Входные данные известны: n =100, h = 3, = 21,21, sв » 5,47 и мы заполняем ещё одну расчётную таблицу:

 

xi

ni

zi

f(zi)

9

2

-2,2320

0,0330

1,81

12

6

-1,6836

0,0967

5,30

15

10

-1,1352

0,2095

11,49

18

17

-0,5868

0,3358

18,42

21

33

-0,0384

0,3986

21,86

24

11

0,5100

0,3503

19,21

27

9

1,0584

0,2279

12,50

30

7

1,6068

0,1097

6,02

33

5

2,1552

0,0391

2,14

 

 

Покажем расчеты 1 строчки: n =100, h = 3, = 21,21, sв » 5,47

 

,     

.

 

Теоретическая частота:.

 

Построим эмпирическую гистограмму с высотой «ступенек» ni и теоретическую кривую, которая проходит через точки (xi , ni¢):

 

 

Нормальная кривая построена на основе выборочных данных (выборочной средней и стандартного отклонения), она проходит через точки  (xi , ni¢) и наилучшим образом приближает гистограмму.

 

При этом сумма теоретических частот  оказалась чуть меньше объёма выборки . Это объяснимо тем, что эмпирическая гистограмма конечна, а нормальная кривая – бесконечна, и небольшой «недобор» теоретических частот приходится на участки, лежащие слева и справа от гистограммы.

Дальнейшая задача состоит в том, чтобы оценить, насколько значимо отличаются эмпирические частоты (ступеньки гистограммы) от соответствующих теоретических частот (уровень коричневых точек). Но перед тем как сравнивать теоретические и эмпирические частоты, следует объединить интервалы с малыми (меньше пяти) частотами.

 

 

В данном случае объединяем два первых и два последних интервала, для этого суммируем частоты, обведённые красным цветом, и получаем оранжевые результаты:

Это нужно для того, чтобы сгладить неоправданно большое расхождением между малыми частотами по краям выборки.

 

Найдём критическое значение критерия согласия Пирсона. Количество степеней свободы определяется по формуле k=m-r-1, где m – количество интервалов, а r–количество оцениваемых параметров рассматриваемого закона распределения. Так как мы объединяли интервалы, то теперь их не девять, а m=7. У нормального закона мы оцениваем r=2 параметра.

Пояснение: –это оценка неизвестного генерального математического ожидания, а sв–это оценка неизвестного генерального стандартного отклонения, итого два оцениваемых параметра.

 (Это значение можно найти по таблице критических значений распределения хи-квадрат)

 

Таким образом, k=7-2-1= 4 и для уровня значимости a = 0,05:

 

.

 

При    нулевая гипотеза отвергается, а при таких оснований нет:

 

http://www.mathprofi.ru/v/kriteriy_soglasiya_clip_image108.jpg

 

Вычислим наблюдаемое значение критерия – (сумма расхождений между частотами), и для этого удобно заполнить ещё одну расчётную таблицу:

 

 

ni

8

7,12

0,1100

10

11,49

0,1923

17

18,42

0,1092

33

21,86

5,6746

11

19,21

3,5087

9

12,50

0,9778

12

8,16

1,8053

Сумма

12,3779

 

 

В нижней строке таблицы у нас получилось готовое значение  , поэтому на уровне значимости 0,05 гипотезу Hо нормальном распределении генеральной совокупности отвергаем.

Иными словами, различие между эмпирическими и теоретическими частотами статистически значимо и вряд ли объяснимо случайными факторами. При этом с вероятностью 5% мы совершили ошибку 1-го рода (то есть, генеральная совокупность на самом деле распределена нормально, но мы отвергли верную нулевую гипотезу).

Ответ: на уровне значимости 0,05 гипотезу о нормальном распределении генеральной совокупности отвергаем.

В чём может быть причина? Ведь по теореме Ляпунова, большинство коров не оказывают практически никакого влияния на удой других коров, и поэтому распределение генеральной совокупности должно быть близко к нормальному.

Причины могут быть разными. Например, неоднородный состав совокупности (коровы разной породы), или на ферме есть VIP-хлев, где коровы получают улучшенное питание). А может быть, некоторые коровы больны и как раз оказывают существенное влияние на остальных, в связи с чем нарушается условие теоремы Ляпунова.

Интересно отметить, что при уменьшении уровня значимости до 0,01 критическое значение , и гипотеза о нормальном распределении уже принимается. Однако не нужно забывать, что здесь выросла b-вероятность того, что мы приняли неправильную гипотезу (совершили ошибку 2-го рода).

И, конечно, в случае сомнений имеет смысл увеличить объём выборки, чтобы провести повторное исследование.

 

Контрольные вопросы

1. Понятие статистической гипотезы

2. Нулевая и альтернативная гипотезы

3. Ошибки первого и второго рода

4. Процесс проверки статистической гипотезы

5. Гипотеза о генеральной средней нормального распределения

6. Гипотеза о законе распределения генеральной совокупности

7. Критерий согласия Пирсона