Практическое занятие 8.1.
Понятие статистической гипотезы
На прошлом практическом занятии, посвященном вопросу статистических оценок параметров генеральной совокупности, был опущен вопрос об оценке генеральной доли. При решении практических задач может возникнуть такая задача. Разберем ее на примере.
Если N помидоров на базе, среди которых K первосортных. Тогда отношение является генеральной долей первосортных помидоров. Однако исследовать все овощи затруднительно, рассматривается выборка из n помидоров, среди которых первосортных окажется k штук. Отношение называется выборочной долей.
Выборочная доля является точечной оценкой генеральной доли и не внушает особого доверия, поскольку в разных выборках мы будем получать разные значения wв, иногда далёкие от истины. В этой связи более предпочтительно оценить wГ интервалом.
Таким образом, наша задача состоит в том, чтобы найти доверительный интервал: – который с заранее заданной надёжностью g содержит истинное значение wГ генеральной доли.
Далее для удобства будем опускать подстрочный индекс у выборочной доли: w.
Точность оценки D (или предельная ошибка доли) рассчитывается по формуле , где tγ – коэффициент доверия, а m – средняя ошибка доли.
Для нахождения tγ корректнее использовать распределение Стьюдента, но на практике в большинстве задач объём выборки n > 30 применяется распределение нормальное с лапласовским соотношением .
Средняя ошибка доли определяется так:
– для бесповторной выборки;
– для повторной выборки.
В том случае, если генеральная совокупность велика, а выборка мала, то для бесповторной выборки можно использовать и 2-ю формулу, так как дробь будет близка к нулю.
Задача 1. В целях изучения суточного пробега автомобилей автотранспортного предприятия проведено 10% выборочное обследование 100 автомобилей методом случайного бесповторного отбора, в результате которого получены следующие данные:
Суточный пробег автомобиля, км |
Число автомобилей |
до 160 |
12 |
от 160 до 180 |
36 |
от 180 до 200 |
28 |
свыше 200 |
24 |
Итого |
100 |
С вероятностью 0,954 требуется определить долю машин в генеральной совокупности с пробегом более 180 км.
Решение: вычислим количество автомобилей с пробегом более 180 км по выборке: k=28+24 = 52 . Таким образом: – выборочная доля автомобилей с пробегом более 180 километров.
Генеральную долю wГ таких автомобилей оценим с помощью доверительного интервала:
где D = tg×m – предельная ошибка доли.
Для уровня доверительной вероятности g=0,954 из соотношения определяем знакомый коэффициент доверия:
.
Вычислим среднюю ошибку доли. Коль скоро выборка 10%, то объём генеральной совокупности равен автомобилей, и для бесповторной выборки:
.
Таким образом, точность оценки составляет D=tg×m » 2×0,047 » 0,095 и искомый доверительный интервал:
0,425<wГ<0,615 – с вероятностью 95,4% данный интервал содержит истинную генеральную долю wГ автомобилей с пробегом более 180 км.
Ответ: 0,425 <wГ < 0,615
Кстати, тут легко оценить и абсолютное количество таковых машин:
0,425·N<K< 0,615·N
0,425·1000<K<0,615·1000
425< K< 615 – от 425 до 615 автомобилей в генеральной совокупности.
Резюмируя по разделу, сделаем выводы
В результате выборочного исследования генеральной совокупности мы получаем различные выборочные характеристики (выборочную среднюю, дисперсию, долю и другие показатели).
Задача состоит в том, чтобы определить, насколько достоверно полученное выборочное значение qв характеризует соответствующее генеральное значение qГ.
qв является точечной оценкой qГ и обладает тем недостатком, что в отдельно взятой выборке может оказаться далёким от истины.
Поэтому для оценки генерального значения используют интервальную оценку:
– доверительный интервал qв-D <qГ <qв+D, который с заранее заданной доверительной вероятностью g (надёжностью) содержит истинное значение qГ.
Точность оценки D зависит от g , объёма выборки и способа отбора её элементов (повторный или бесповторный).
Планируя статистическое исследование, следует выбрать способ отбора, уровень надёжности g, а также желаемую точность D , по которой легко определить необходимый объём выборки. Слишком высокая точность, может быть, не оправдана, так как для её достижения потребуется отобрать очень много элементов.
Переходим к новому понятию: статистические гипотезы.
Статистической называют гипотезу о законе распределения статистической совокупности либо о числовых параметрах известных распределений.
Речь идёт об исследованиях генеральных совокупностей, и выдвигаются гипотезы на основании анализа выборочных данных.
Выдвигаемую гипотезу называют нулевой и обозначают через H0. Обычно это наиболее очевидная и правдоподобная гипотеза. И в противовес к ней рассматривают альтернативную или конкурирующую гипотезу H1.
Рассмотрим на примере.
Задача 2. Из нормальной генеральной совокупности с известной дисперсией σ2=3,2 извлечена выборка объёма n=25 и по ней найдена выборочная средняя . Требуется на уровне значимости 0,01 проверить нулевую гипотезу H0: a=20 против конкурирующей гипотезы H1: a=19.
Прежде чем приступить к решению, пару слов о смысле такой задачи. Есть генеральная совокупность с известной дисперсией и есть веские основания полагать, что генеральная средняя равна 20 (нулевая гипотеза).
В результате выборочной проверки получена выборочная средняя 19,3.
Вопрос: это результат случайный или же генеральная средняя и на самом деле меньше 20? – в частности, равна 19 (конкурирующая гипотеза).
Решение: по условию, известна генеральная дисперсия σ2=3,2,
поэтому для проверки гипотезы H0: a=a0=20 используем случайную величину
.
Найдём критическую область.
Для этого нужно найти критическое значение. Так как конкурирующее значение H1: a=a1=19 меньше чем a0=20, то критическая область будет левосторонней. Критическое значение определим из соотношения:
.
для уровня значимости α=0,001:
По таблице значений функции Лапласа определяем, что этому значению функции соответствует аргумент .
Таким образом, при u<-uкр (красная критическая область) нулевая гипотеза отвергается, а при u>-uкр – принимается:
В данном случае -uк≈-2,33.
Вычислим наблюдаемое значение критерия:
Следовательно,, поэтому на уровне значимости α=0,01 нулевую гипотезу H0: a=20 принимаем.
Такой, вроде бы неожиданный результат, объясняется тем, что генеральное стандартное отклонение достаточно великo: , поэтому нет оснований отвергать «главное» значение a0=20 (несмотря на то, что выборочная средняя гораздо ближе к конкурирующему значению a1=19). Иными словами, такое значение выборочной средней, вероятнее всего, объясняется естественным разбросом вариант xi.
Ответ: на уровне значимости 0,01 нулевую гипотезу принимаем.
Что означает «на уровне значимости 0,01»? Это означает, что мы с 1%-ной вероятностью рисковали отвергнуть нулевую гипотезу, при условии, что она действительно справедлива. Однако не нужно забывать, что на самом деле она может быть и неверной и существует β -вероятность того, мы приняли неправильную гипотезу.
Контрольные вопросы
1. Генеральная и выборочная доля.
2. Точечная и интервальная оценки.
3. Предельная ошибка доли.
4. Статистическая гипотеза.
5. Нулевая и конкурирующая гипотезы.
6. Критическая область.