Раздел 2. Математическая статистика
Лекция 7. Статистические оценки параметров генеральной совокупности
Вспомним основной метод математической статистики. Он состоит в том, что для изучения генеральной совокупности объёма N из неё производится выборка объёма n, которая хорошо характеризует всю совокупность (свойство представительности). И на основании исследования этой выборочной совокупности мы с некоторой достоверностью можем оценить генеральные характеристики. Само собой, чем выше достоверность – тем лучше, тем качественнее исследование. Этому вопросу и посвящена данная лекция.
Чаще всего требуется выявить закон распределения генеральной совокупности (о чём пойдёт речь позже) и оценить его важнейшие числовые параметры, такие как генеральная средняя , генеральная дисперсия DГ и стандартное отклонение .
План лекции
1. Точечные оценки;
2. Интервальная оценка и доверительный интервал;
3. Оценка генеральной средней нормально распределенной совокупности.
1. Точечные оценки
Очевидно, что для оценки этих параметров нужно вычислить соответствующие выборочные значения. Так, выборочная средняя позволяет нам оценить генеральную среднюю , причём, оценить её точечно. Почему точечно? Потому что – это отдельно взятое, конкретное значение. Если из той же генеральной совокупности мы будем проводить многократные выборки, то в общем случае у нас будут получаться различные выборочные средние, и каждая из них представляет собой точечную оценку генерального значения .
Аналогично, точечной оценкой генеральной дисперсии DГ является исправленная выборочная дисперсия s2, и соответственно, стандартного отклонения – исправленное стандартное отклонение s.
2. Интервальная оценка и доверительный интервал
Недостаток точечных оценок состоит в том, что при небольшом объёме выборки (как оно часто бывает), мы можем получать выборочные значения, которые далеки от истины. И в этих случаях логично потребовать, чтобы выборочная характеристика q в (средняя, дисперсия или какая-то другая) отличалась от своего генерального значения qГ не более чем на некоторое положительное значение d .
Значение d называется точностью оценки, и озвученное выше требование можно записать с помощью модуля: .
Но статистические методы не позволяют 100%-но утверждать, что рассчитанное значение qв будет удовлетворять этому неравенству – ведь в статистике всегда есть место случайности.
Можно говорить лишь о вероятности g, с которой это неравенство осуществится: .
Интервал (qв-d;qв+d) называется доверительным интервалом и представляет собой интервальную оценку генерального значения qГ по найденному выборочному значению qв. Данный интервал с вероятностью g содержит истинное значение qГ.
Эта вероятность называется доверительной вероятностью или надёжностью интервальной оценки. Надёжность γ часто задаётся наперёд, популярные варианты: g = 0,95, g = 0,99, g = 0,999.
3. Оценка генеральной средней нормально распределенной совокупности
Разберем на примере.
Задача 1. Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением s=5. Найти доверительный интервал для оценки математического ожидания a с надежностью 0,95, если выборочная средняя , а объем выборки n =100.
Обращаем внимание на то, что известно стандартное отклонение генеральной совокупности.
Дело в том, что в похожих задачах оно бывает и не известно, и тогда решение будет отличаться!
Решение.
Что мы имеем: из генеральной совокупности проведена выборка в n=100 попугаев и по её результатам найдена выборочная средняя: (средний рост птицы).
Выборочная средняя – это точечная оценка неизвестной нам генеральной средней . Как отмечалось выше, недостаток точечной оценки состоит в том, что она может оказаться далёкой от истины. И по условию, требуется найти интервал, который с вероятностью g = 0,95 будет содержать истинное значение xГ= a.
Найдём точность оценки, она рассчитывается по формуле , где tγ – так называемый коэффициент доверия. Этот коэффициент отыскивается из соотношения 2F(tg ) =γ, где F(x) – функция Лапласа.
По условию g = 0,95, следовательно:
И по таблице значений функции Лапласа выясняем, что значению соответствует аргумент tg»1,96.
Таким образом, точность оценки, так как tg»1,96, s=5, n =100, равна
и искомый доверительный интервал:
Этот интервал с вероятностью g=0,95 (надёжностью) содержит истинное генеральное значение среднего роста попугая. Но всё же остаётся 5% вероятность того, что генеральная средняя окажется вне найденного интервала.
Ответ: 23,17 < a < 25,13.
Возникает вопрос: возможно ли уменьшить этот интервал – чтобы получить более точную оценку. Что для этого можно сделать? Из формулы точности оценки получаем.
Чем меньше стандартное отклонение s (мера разброса значений), тем меньше доверительный интервал. Но это в отдельно взятой задаче ни на что не влияет – ведь нам известно конкретное значение s, и изменить его нельзя.
Поэтому для уменьшения можно уменьшить коэффициент доверия tg, например, вместо tg =1,96 рассмотреть tg =1.
Тогда , в результате чего доверительный интервал– действительно стал в 2 раза короче.
Но проблема в том, что уменьшилась и доверительная вероятность. Пользуясь таблицей значений функции Лапласа, находим:
g = 2F(t g ) = 2F(1) = 2×0,3413 = 0,6826 –
то есть о том, что этот более узкий интервал содержит генеральную среднюю, мы теперь можем утверждать лишь с вероятностью 68,26%. Что, конечно, неудовлетворительно, для серьёзного статистического исследования.
Поэтому для уменьшения доверительного интервала (при том же значении g) остаётся увеличивать объём выборки n. Что совершенно понятно и без формулы , ведь чем больше объём выборки, тем точнее она характеризует генеральную совокупность (при прочих равных условиях).
Возможно, появились вопросы – а откуда известно, что генеральная совокупность распределена нормально, и тем более, откуда известно её стандартное отклонение?
Обычно эта информация известна из предыдущих исследований. Классический пример – измерительный прибор. Очевидно, что его случайные погрешности удовлетворяют условию теоремы Ляпунова, а значит, распределены нормально. Кроме того, производитель, как правило, тестирует прибор, и указывает в его паспорте стандартное отклонение случайной погрешности, которое можно принять за s .
Но если установить нормальность распределения достаточно просто (в том числе статистическими методами), то с генеральным значением s всё сложнее – зачастую вычислить его трудно или невозможно. В такой ситуации остаётся ориентироваться на исправленную выборочную дисперсию s2 и решение несколько изменится.
Задача 2.
В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице:
Таблица 1 |
|||||||||
х1 |
х2 |
х3 |
х4 |
х5 |
х6 |
х7 |
х8 |
х9 |
х10 |
7,1 |
6,3 |
6,2 |
5,8 |
7,7 |
6,8 |
6,7 |
5,9 |
5,7 |
5,1 |
Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, содержащего это значение с вероятностью 0,95.
Решение: следует начать с вычисления выборочных характеристик:
, Dв = 0,5221.
По условию, требуется оценить генеральную совокупность (а именно, параметр ), и поэтому дисперсию нужно обязательно поправить:
– несмещённая оценка неизвестной генеральной дисперсии s2. И нас будет интересовать несмещённая оценка генерального стандартного отклонения s:
; –
исправленное среднее квадратическое отклонение. Теперь построим доверительный интервал для оценки истинного (генерального) значения a величины X.
Если генеральная дисперсия нормального распределения не известна.
Этот интервал строится по похожей формуле, с той поправкой, что коэффициент доверия tγ рассчитывается с помощью распределения Стьюдента.
Значение tγ можно найти с помощью таблицы значений распределения Стьюдента, в частности популярна таблица, специально адаптированная для данной задачи. И, согласно таблице, доверительной вероятности g = 0,95 и объёму выборки n =10 соответствует коэффициент доверия: tg = 2,2622.
Таким образом, искомый доверительный интервал:
– данный интервал с вероятностью g = 0,95 содержит истинное генеральное значение xГ = a измеряемой величины X.
Ответ: 5,79 < a < 6,87
Итак, что главное в разобранных задачах? Главное, обратить внимание, генеральное ли нам дано отклонение s или исправленное выборочное s . От этого зависит, какую формулу нужно использовать, эту:
, где 2F(tg ) =γ,
или эту: , где tγ отыскивается с помощью распределения Стьюдента.
При увеличении объёма выборки n, распределение Стьюдента стремится к нормальному распределению, и поэтому уже при n > 30 во 2-м случае допускается нахождение tg с помощью того же соотношения 2F(tg)=g . Но мы бы не рекомендовал так делать. Потому что если дано s, то предполагается, что решать нужно именно через распределение Стьюдента.