Практическое занятие 7.2.
Повторная и бесповторная выборка. Оценка генеральной средней
Если случайно отбираемые объекты не возвращаются в генеральную совокупность, то это бесповторная выборка. Если же выбранный объект возвращается обратно (перед выбором следующего), то это повторная выборка, т.е. здесь один и тот же элемент может быть выбран неоднократно.
Теоретически генеральная совокупность бесконечна, и из неё исследователь «выбирает» несколько значений, которые могут повторяться, причём, не только теоретически, но и практически, по причине округления измерений.
В силу сказанного понятно, что построение доверительного интервала зависит от того, бесповторная была проведена выборка или повторная. Как и прежде, полагаем, что генеральная совокупность распределена нормально, либо её распределение близко к таковому.
Оценка генеральной средней по повторной и бесповторной выборкам
Пусть из нормально распределенной (или около того) генеральной совокупности объёма N проведена выборка объёма n и по её результатам найдена выборочная средняя . Тогда доверительный интервал для оценки генеральной средней имеет вид: , где D– точность оценки, которую также называют предельной ошибкой выборки.
Точность оценки рассчитывается как произведение D=tg×m – коэффициента доверия tγ на среднюю ошибку выборки m.
Если известна дисперсия генеральной совокупности s2, то коэффициент доверия tγ отыскивается из соотношения 2F(tg)=γ, а средняя ошибка рассчитывается по формуле:
– для бесповторной или – для повторной выборки.
Напоминаем, что доверительная вероятность (надёжность) g задаётся наперёд и показывает, с какой вероятностью построенный доверительный интервал содержит истинное значение xГ.
Задача 1.
Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением s=5. По результатам 4%-ной бесповторной выборки объёма n=100, найдена выборочная средняя (условно средний рост птицы).
1) Найти доверительный интервал для оценки генеральной средней с надежностью g=0,95.
2) Выборку какого объёма нужно организовать, чтобы уменьшить данный интервал в два раза?
Решение.
Прежде всего, найдём объём генеральной совокупности:
попугаев,
и на самом деле нам предстоит ответить на следующий вопрос:
достаточно ли выборки объёма n =100?
или для качественного исследования роста попугаев нужно выбрать побольше птиц?
1) Доверительный интервал для оценки генеральной средней составим по формуле:
, , где D = t g × m – точность оценки.
По условию, нам известна генеральная дисперсия, поэтому коэффициент доверия найдём из соотношения
.
По таблице значений функции Лапласа определяем, что этому значению функции соответствует аргумент tg »1,96.
Поскольку выборка бесповторная, то среднюю ошибку рассчитаем по формуле.
Точность оценки D= tg × m »1,96×0,49 » 0,96 и соответствующий доверительный интервал:
-
с вероятностью g=0,95 данный интервал содержит истинное значение генерального среднего роста попугая.
Теперь предположим, что нас не устраивает точность полученного результата. Хотелось бы уменьшить интервал. Или оставить его таким же, но повысить доверительную вероятность. Этим вопросам и посвящён следующий пункт решения.
2) Выясним, сколько попугаев нужно взять, чтобы уменьшить полученный интервал в два раза. Иными словами, была точность 0,96, а мы хотим .
При условии сохранения доверительной вероятности необходимый объём выборки можно рассчитать по формуле, которая выводится из .
Проверка .
Таким образом, чтобы обеспечить точность D=0,48 при надёжности g=0,95 нужно провести выборку объёмом не менее 358 попугаев (округлили в большую сторону).
В этом случае получится доверительный интервал в два раза короче:
.
Здесь нельзя использовать значение xв = 24,15 предыдущего пункта! Почему? Потому что в новой выборке мы почти наверняка получим новую выборочную среднюю. Вот её-то и нужно будет подставить.
Осталось проверить, а не много ли это – 358 попугаев? Объём выборки составит: от генеральной совокупности.
Здесь можно использовать другой подход: оставить точность оценки D = 0,96 прежней, но повысить доверительную вероятность до g = 0,99.
В этом случае нужно найти новый коэффициент доверия tγ (из соотношения 2F(tg)=g) и решить уравнение
,
получив в качестве корня необходимый объём выборки n. В результате получается выборка в n=169 попугаев или - генеральной совокупности.
Теперь распишем доверительный интервал подробно:
.
И ответим на вопрос: а что будет, если генеральная совокупность велика или даже бесконечна? В этом случае дробь близка к нулю, и мы получаем интервал:
.
Замечание. Следует отметить, что полученный выше интервал соответствует повторной выборке со средней ошибкой, таким образом, при слишком большом объёме N генеральной совокупности математическое различие между бесповторной и повторной выборкой стирается.
Задача 2.
С целью изучения урожайности подсолнечника в колхозах области проведено 5% выборочное обследование 100 га посевов, отобранных в случайном порядке, в результате которого получены следующие данные:
Урожайность, ц/га |
Посевная площадь, га |
до 13 |
10 |
от 13 до 15 |
25 |
от 15 до 17 |
40 |
от 17 до 19 |
20 |
свыше 19 |
5 |
Итого |
100 |
С вероятностью 0,9974 определить предельную ошибку выборки и возможные границы, в которых ожидается средняя урожайность подсолнечника в области.
Решение: в условии не указан тип отбора, но исходя из логики исследования, положим, что он бесповторный. Поскольку выборка 5%, то объем генеральной совокупности (общая посевная площадь области) составляет: гектаров.
По условию, требуется найти предельную ошибку выборки (точность оценки) D=tg×m, где tγ – коэффициент доверия, соответствующий доверительной вероятности g = 0,9974 , и так как выборка бесповторная и генеральная дисперсия не задана, то средняя ошибка рассчитывается по формуле .
Далее нужно составить интервал который с вероятностью 99,74% содержит генеральную среднюю урожайность подсолнечника по области.
По таблице условия понятно, что нам задан интервальный вариационный ряд с открытыми крайними интервалами. Поскольку длина частичного интервала составляет h = 2 га, крайние интервалы определяем в виде: 11-13 и 19-21 га.
Находим середины xi интервалов (переходим к дискретному ряду), произведения xi ·ni, xi2 ·ni и их суммы:
Интервалы |
xi |
ni |
xi ·ni, |
xi2 ·ni |
11-13 |
12 |
10 |
120 |
1440 |
13-15 |
14 |
25 |
350 |
4900 |
15-17 |
16 |
40 |
640 |
10240 |
17-19 |
18 |
20 |
360 |
6480 |
19-21 |
20 |
5 |
100 |
2000 |
Ʃ |
|
100 |
1570 |
25060 |
Вычислим выборочную среднюю: центнеров с гектара.
Выборочную дисперсию вычислим по формуле:
.
Теперь составляем доверительный интервал где D = tg×m .
Найдём коэффициент доверия tγ. Поскольку нам известна лишь исправленная выборочная дисперсия (а не генеральная), будем использовать распределение Стьюдента. Для заданной надёжности и количества степеней свободы k=n-1=100-1= 99 получаем tg » 3,0898 . Поскольку объём выборки
n > 30, то можно использовать нормальное распределение, получаем
.
Таким образом, предельная ошибка составляет D=tg×m » 3,0898×0,1986 » 0,6136 ц/га, и искомый доверительный интервал:
(ц/га) – границы, в которых ожидается средняя урожайность подсолнечника в области с вероятностью g = 0,9974 (практически достоверно).
Ответ: D » 0,6136 ц/га, (ц/га)
Контрольные вопросы
1. Повторная и без повторная выборка.
2. Построение доверительного интервала.
3. Доверительная вероятность (надёжность).
4. Доверительный интервал для оценки генеральной средней.