Практическое занятие 9.2.
Критерий согласия Пирсона проверки
гипотезы о законе распределения
генеральной совокупности
Рассмотрим генеральную совокупность, распределение которой неизвестно. И нам требуется на уровне значимости a проверить нулевую гипотезу H0 – о том, что генеральная совокупность распределена по закону Z против конкурирующей гипотезы H1 о том, что она по нему НЕ распределена.
Возникает вопрос: значимо или незначимо различие между эмпирическими n1, n2, n3,…, nm и соответствующими теоретическими n1¢, n2¢, n3¢, ..., nm¢ частотами?
Для ответа на это вопрос рассматривают различные статистические критерии, которые называют критериями согласия, и наиболее популярный из них критерий согласия Пирсона:
Если c2набл.<c2кр, то на уровне значимости a нет оснований отвергать гипотезу H0 о том, что генеральная совокупность распределена по закону Z. То есть, различие между эмпирическими и теоретическими частотами незначимо и, скорее всего, обусловлено случайными факторами (случайностью самой выборки, способом отбора, группировки данных и т.д.)
Если c2набл.>c2кр, то нулевую гипотезу отвергаем, иными словами, эмпирические и теоретические частоты отличаются значимо, и это различие вряд ли случайно.
Рассмотрим ситуацию: вам предложили готовые теоретические частоты, и остаётся только проверить гипотезу. Условие звучит примерно так:
На основании исследования выборки выдвинуть гипотезу о законе распределения генеральной совокупности
То есть, здесь не говорится о том, что предполагаемый закон нормальный (или какой-то другой) – этот вопрос вам предлагается проанализировать самостоятельно.
Каким образом это можно сделать?
Покажем на примере задачи, рассмотренной на прошлом практическом занятии:
Задача 1.
По результатам выборочного исследования найдено распределение средних удоев молока в фермерском хозяйстве (литров) от одной коровы за день:
Литры |
7,5- 10,5 |
10,5- 13,5 |
13,5- 16,5 |
16,5- 19,5 |
19,5- 22,5 |
22,5- 25,5 |
25,5- 28,5 |
28,5- 31,5 |
31,5- 34,5 |
Коров |
2 |
6 |
10 |
17 |
33 |
11 |
9 |
7 |
5 |
На уровне значимости 0,05 проверить гипотезу о том, что генеральная совокупность (средний удой коров всей фермы) распределена нормально. Построить эмпирическую гистограмму и теоретическую кривую.
По условию, требуется опираться на выборочные данные, и здесь есть сразу несколько признаков, чтобы проверить этот закон.
Самый простой и наглядный способ – графический. Грубо говоря, чертим и смотрим. Интервальный вариационный ряд чаще всего изображают гистограммой, возвращаемся к рассмотренной ранее задаче о коровах. |
Построенная гистограмма по форме напоминает колоколообразный график плотности нормального распределения, и это является веской причиной предположить, что генеральная совокупность распределена нормально. Да, здесь есть слишком высокий средний столбик, но, возможно, это просто случайность выборки.
Если столбики примерно одинаковы по высоте, то предполагаем, что генеральная совокупность распределена равномерно. Для показательного распределения тоже будет своя, характерная гистограмма.
В случае дискретных распределений тоже никаких проблем – строим полигон и смотрим, на что он похож.
Проверим аналитические признаки нормального распределения:
1) У нормального распределения математическое ожидание совпадает с модой и медианой. В нашем случае соответствующие выборочные показатели весьма близки друг к другу (математическое ожидание оценивается выборочной средней):
(литры).
2) Выполнение правила «трёх» сигм. Практически все значения нормальной случайной величины находятся в интервале
(a-3s; a+3s).
Найдём этот интервал для нашей выборки. Математическое ожидание «а» оценивается выборочной средней , а стандартное отклонение σ – выборочным стандартным отклонением sв»5,47.
Таким образом, наш эмпирический интервал:
(21,21-3·5,47; 21,21+3·5,47).
В итоге (4,8; 37,62) – и в него действительно попадают все коровы.
3) Коэффициенты асимметрии и эксцесса нормального распределения равны нулю. В нашем случае эти характеристики довольно близки к нулю: As≈0,223, Ek≈-0,17.
На практике в исследование желательно включить все пункты за исключением, возможно, третьего (т.к. асимметрию и эксцесс рассчитывают далеко не всегда).
Следует отметить, что перечисленные выше предпосылки ещё не означают, что соответствующая гипотеза будет принята, в чём мы недавно убедились. А если гипотеза и окажется принятой, то это всё равно на 100% не гарантирует нормальность генеральной совокупности (так как существует β-вероятность совершить ошибку 2-го рода – принять неверную гипотезу).
Задача 2.
В результате проверки 500 контейнеров со стеклянными изделиями установлено, что число поврежденных изделий Х имеет следующее эмпирическое распределение:
хi |
0 |
1 |
2 |
3 |
4 |
5 |
n |
ni |
270 |
166 |
49 |
10 |
3 |
2 |
500 |
(xi – количество повреждённых изделий в контейнере, ni – количество контейнеров)
С помощью критерия согласия Пирсона на уровне значимости 0,05 проверить гипотезу о том, что случайная величина X – число повреждённых изделий распределена по закону Пуассона.
Используем критерий согласия Пирсона. Вычислим произведения хi·ni, выборочную среднюю
и теоретические частоты по формуле
, где .
Вычисления сведём в таблицу:
хi |
ni |
хini |
p(i) |
ni' |
0 |
270 |
0 |
0,5315 |
265,76 |
1 |
166 |
166 |
0,3359 |
167,96 |
2 |
49 |
98 |
0,1062 |
53,08 |
3 |
10 |
30 |
0,0224 |
11,18 |
4 |
3 |
12 |
0,0035 |
1,77 |
5 |
2 |
10 |
0,0004 |
0,22 |
Σ= |
500 |
316 |
Примечание: для самоконтроля полезно вычислить сумму – она оказалась чуть меньше . Это объяснимо тем, что эмпирическое распределение конечно, а распределение Пуассона – бесконечно, и небольшой «недобор» по теоретическим частотам приходится на теоретические значения xi>5.
Находим критическое значение критерия согласия Пирсона, где k=m-r-1.
В данной задаче мы объединяем две последние варианты ввиду их малых частот, следовательно, m=5.
Оценивается один параметр λ, поэтому r=1. Для уровня значимости α=0,05 и количества степеней свободы k=m-r-1=5-1-1=3:
.
Вычислим наблюдаемое значение критерия :
ni |
ni' |
|
|
270 |
265,76 |
0,0675 |
|
166 |
167,96 |
0,0229 |
|
49 |
53,08 |
0,3131 |
|
10 |
11,18 |
0,1248 |
|
5 |
1,99 |
4,5530 |
|
Сумма |
5,0813 |
||
Рассчитываем наблюдаемое значение критерия и делаем вывод: , поэтому на уровне значимости нет оснований отвергать гипотезу H0 о том, что генеральная совокупность распределена по закону Пуассона.
Контрольные вопросы
1. Понятие статистической гипотезы
2. Нулевая и альтернативная гипотезы
3. Ошибки первого и второго рода
4. Процесс проверки статистической гипотезы
5. Гипотеза о генеральной средней нормального распределения
6. Гипотеза о законе распределения генеральной совокупности
7. Критерий согласия Пирсона