Раздел 2. Математическая статистика

 

Лекция 7. Статистические оценки параметров генеральной совокупности

 

Вспомним основной метод математической статистики. Он состоит в том, что для изучения генеральной совокупности объёма N из неё производится выборка объёма n, которая хорошо характеризует всю совокупность (свойство представительности). И на основании исследования этой выборочной совокупности мы с некоторой достоверностью можем оценить генеральные характеристики. Само собой, чем выше достоверность – тем лучше, тем качественнее исследование. Этому вопросу и посвящена данная лекция.

Чаще всего требуется выявить закон распределения генеральной совокупности (о чём пойдёт речь позже) и оценить его важнейшие числовые параметры, такие как генеральная средняя , генеральная дисперсия DГ и стандартное отклонение .

 

План лекции

 

1. Точечные оценки;

2. Интервальная оценка и доверительный интервал;

3. Оценка генеральной средней нормально распределенной совокупности.

 

1. Точечные оценки

 

Очевидно, что для оценки этих параметров нужно вычислить соответствующие выборочные значения. Так, выборочная средняя  позволяет нам оценить генеральную среднюю , причём, оценить её точечно. Почему точечно? Потому что  – это отдельно взятое, конкретное значение.  Если из той же генеральной совокупности мы будем проводить многократные выборки, то в общем случае у нас будут получаться различные выборочные средние, и каждая из них представляет собой точечную оценку генерального значения .

Аналогично, точечной оценкой генеральной дисперсии DГ является исправленная выборочная дисперсия s2, и соответственно, стандартного отклонения – исправленное стандартное отклонение s.

 

2. Интервальная оценка и доверительный интервал

 

Недостаток точечных оценок состоит в том, что при небольшом объёме выборки (как оно часто бывает), мы можем получать выборочные значения, которые далеки от истины. И в этих случаях логично потребовать, чтобы выборочная характеристика q в (средняя, дисперсия или какая-то другая) отличалась от своего генерального значения qГ не более чем на некоторое положительное значение d .

Значение d называется точностью оценки, и озвученное выше требование можно записать с помощью модуля: .

Но статистические методы не позволяют 100%-но утверждать, что рассчитанное значение qв будет удовлетворять этому неравенству – ведь в статистике всегда есть место случайности. 

Можно говорить лишь о вероятности g, с которой это неравенство осуществится: .

Интервал (qв-d;qв+d) называется доверительным интервалом и представляет собой интервальную оценку генерального значения qГ по найденному выборочному значению qв. Данный интервал с вероятностью g содержит истинное значение qГ.

Эта вероятность называется доверительной вероятностью или надёжностью интервальной оценки. Надёжность γ часто задаётся наперёд, популярные варианты: g = 0,95, g = 0,99, g = 0,999.

 

 

3. Оценка генеральной средней нормально распределенной совокупности

 

Разберем на примере.

Задача 1. Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением s=5. Найти доверительный интервал для оценки математического ожидания a с надежностью 0,95, если выборочная средняя , а объем выборки n =100.

Обращаем внимание на то, что известно стандартное отклонение генеральной совокупности.

Дело в том, что в похожих задачах оно бывает и не известно, и тогда решение будет отличаться!

 

Решение.

Что мы имеем: из генеральной совокупности проведена выборка в n=100 попугаев и по её результатам найдена выборочная средняя:  (средний рост птицы).

Выборочная средняя – это точечная оценка неизвестной нам генеральной средней . Как отмечалось выше, недостаток точечной оценки состоит в том, что она может оказаться далёкой от истины. И по условию, требуется найти интервал, который с вероятностью g = 0,95 будет содержать истинное значение xГ= a.

Найдём точность оценки, она рассчитывается по формуле , где tγ – так называемый коэффициент доверия. Этот коэффициент отыскивается из соотношения 2F(tg ) =γ, где F(x) – функция Лапласа.

По условию  g = 0,95, следовательно:

 

 

И по таблице значений функции Лапласа выясняем, что значению соответствует аргумент tg»1,96.

Таким образом, точность оценки, так как tg»1,96, s=5, n =100, равна

 

 

и искомый доверительный интервал:

 

 

Этот интервал с вероятностью g=0,95 (надёжностью) содержит истинное генеральное значение  среднего роста попугая. Но всё же остаётся 5% вероятность того, что генеральная средняя окажется вне найденного интервала.

Ответ: 23,17 < a < 25,13.

 

Возникает вопрос: возможно ли уменьшить этот интервал – чтобы получить более точную оценку. Что для этого можно сделать? Из формулы точности оценки  получаем.

 

Чем меньше стандартное отклонение s (мера разброса значений), тем меньше доверительный интервал. Но это в отдельно взятой задаче ни на что не влияет – ведь нам известно конкретное значение s, и изменить его нельзя.

 

Поэтому для уменьшения  можно уменьшить коэффициент доверия tg, например, вместо tg =1,96 рассмотреть tg =1.

Тогда , в результате чего доверительный интервал– действительно стал в 2 раза короче.

Но проблема в том, что уменьшилась и доверительная вероятность. Пользуясь таблицей значений функции Лапласа, находим:

 

g = 2F(t g ) = 2F(1) = 2×0,3413 = 0,6826 –

 

то есть о том, что этот более узкий интервал содержит генеральную среднюю, мы теперь можем утверждать лишь с вероятностью 68,26%. Что, конечно, неудовлетворительно, для серьёзного статистического исследования.

Поэтому для уменьшения доверительного интервала (при том же значении g) остаётся увеличивать объём выборки n. Что совершенно понятно и без формулы , ведь чем больше объём выборки, тем точнее она характеризует генеральную совокупность (при прочих равных условиях).

Возможно, появились вопросы – а откуда известно, что генеральная совокупность распределена нормально, и тем более, откуда известно её стандартное отклонение?

Обычно эта информация известна из предыдущих исследований. Классический пример – измерительный прибор. Очевидно, что его случайные погрешности удовлетворяют условию теоремы Ляпунова, а значит, распределены нормально. Кроме того, производитель, как правило, тестирует прибор, и указывает в его паспорте стандартное отклонение случайной погрешности, которое можно принять за s .

Но если установить нормальность распределения достаточно просто (в том числе статистическими методами), то с генеральным значением s всё сложнее – зачастую вычислить его трудно или невозможно. В такой ситуации остаётся ориентироваться на исправленную выборочную дисперсию s2 и решение несколько изменится.

 

Задача 2.

В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице:

 

Таблица 1

х1

х2

х3

х4

х5

х6

х7

х8

х9

х10

7,1

6,3

6,2

5,8

7,7

6,8

6,7

5,9

5,7

5,1

 

Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, содержащего это значение с вероятностью 0,95.

 

Решение: следует начать с вычисления выборочных характеристик:

 

,     Dв = 0,5221.

 

По условию, требуется оценить генеральную совокупность (а именно, параметр ), и поэтому дисперсию нужно обязательно поправить:

несмещённая оценка неизвестной генеральной дисперсии s2. И нас будет интересовать несмещённая оценка генерального стандартного отклонения s:

 

;  

 

исправленное среднее квадратическое отклонение. Теперь построим доверительный интервал для оценки истинного (генерального) значения a величины X.

Если генеральная дисперсия нормального распределения не известна.

Этот интервал строится по похожей формуле, с той поправкой, что коэффициент доверия tγ рассчитывается с помощью распределения Стьюдента.

Значение tγ можно найти с помощью таблицы значений распределения Стьюдента, в частности популярна таблица, специально адаптированная для данной задачи. И, согласно таблице, доверительной вероятности g = 0,95 и объёму выборки n =10 соответствует коэффициент доверия: tg = 2,2622.

Таким образом, искомый доверительный интервал:

 

 

 

 

 – данный интервал с вероятностью g = 0,95 содержит истинное генеральное значение xГ = a измеряемой величины X.

Ответ: 5,79 < a < 6,87

 

Итак, что главное в разобранных задачах? Главное, обратить внимание, генеральное ли нам дано отклонение s или исправленное выборочное s . От этого зависит, какую формулу нужно использовать, эту:

 

, где 2F(tg ) =γ,

 

или эту: , где tγ отыскивается с помощью распределения Стьюдента.

 

При увеличении объёма выборки n, распределение Стьюдента стремится к нормальному распределению, и поэтому уже при n > 30 во 2-м случае допускается нахождение tg с помощью того же соотношения 2F(tg)=g . Но мы бы не рекомендовал так делать. Потому что если дано s, то предполагается, что решать нужно именно через распределение Стьюдента.