Практическое занятие 6.1.
Статистические оценки параметров распределения. Выборочные характеристики
Для статистических распределений существуют числовые характеристики, аналогичные вероятностным распределениям. Каждой числовой характеристике случайной величины X соответствует ее статистический аналог. Статистической оценкой (оценкой) называется числовая характеристика, вычисленная по данным выборки (по статистическим данным). Задача нахождения оценки называется оцениванием. Если статистическая оценка характеризуется одним числом, она называется точечной. К числу таких оценок относятся выборочная средняя и выборочная дисперсия. Статистическая оценка является случайной величиной и меняется в зависимости от выборки.
Коэффициент вариации и среднеквадратическое отклонение могут использоваться как меры риска, например, при финансовых операциях.
Задача 1. По результатам проведенного анализа, возраста студентов получены следующие данные:
Полных лет |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
, количество студентов |
2 |
1 |
6 |
8 |
21 |
20 |
18 |
12 |
3 |
4 |
2 |
3 |
Определить выборочную среднюю возраста студентов.
Решение. Находим выборочную среднюю возраста:
Задача 2. Генеральная совокупность задана таблицей распределения:
|
2 |
4 |
5 |
6 |
|
8 |
9 |
10 |
3 |
Найти генеральную дисперсию.
Решение. Найдем генеральную среднюю:
.
Найдем генеральную дисперсию:
.
Задача 3. Выборочная совокупность задана таблицей распределения
|
1 |
2 |
3 |
4 |
|
20 |
15 |
10 |
5 |
Найти выборочную дисперсию.
Решение. Найдем выборочную среднюю:
.
Найдем выборочную дисперсию:
.
Задача 4. Найти общую среднюю совокупности, состоящей из следующих двух групп:
Группа |
Первая |
Вторая |
||
Значение признака |
1 |
6 |
1 |
5 |
Частота |
10 |
15 |
20 |
30 |
Объем |
10+15=25 |
20+30=50 |
Решение. Найдем групповые средние:
; .
Найдем общую среднюю по групповым средним
Рассмотренные выше показатели (размах вариации, среднее линейное отклонение, дисперсия, стандартное отклонение) входят в группу абсолютных показателей вариации, которые обладают рядом неудобств.
Для удобства вычисления, чтобы не работать с огромными значениями приходится уменьшать варианты во много раз, иначе дисперсия получится значительно больше! И возникает естественное желание привести результаты к некому единому стандарту.
Для этого существуют показатели относительные, и самым известным из них является коэффициент вариации – это отношение стандартного отклонения к средней, выраженное в процентах: . И вот теперь совершенно без разницы, в каких единицах мы считали.
Что такое асимметрия и эксцесс?
Говоря простым языком, это показатели, характеризующие геометрическую форму распределения. Асимметрия характеризует меру скошенности графика влево / вправо, а эксцесс – меру его высоты.
Данные показатели рассчитываются как для эмпирических, так и для теоретических распределений, которые мы изучили в курсе теории вероятностей, и за «эталон» симметрии принято нормальное распределение:
Любое нормальное распределение строго симметрично относительно своего центра, следовательно, его асимметрия равна нулю. Данный график кажется пологим, но стандартное отклонение σ в данном примере достаточно велико (см. на синие точки) и на самом деле такая высота «гармонична». Поэтому эксцесс нормального распределения (любого) принимают за «отправную» нулевую точку.
Асимметрия характеризует меру скошенности полигона или гистограммы влево / вправо относительно самого высокого участка, и во многих случаях для «прикидки» асимметрии достаточно взглянуть на соответствующие чертежи.
Посмотрим на полигон частот: график скорее симметричен, чем асимметричен. |
|
Простейшим критерием симметрии является равенство средней, моды и медианы: но в жизни такого идеального совпадения, конечно, не бывает (даже тело человека немного асимметрично), и поэтому у «почти симметричных» распределений эти показатели должны располагаться очень близко друг к другу.
Правосторонняя асимметрия характеризуется удлинённым правым «хвостом», смотрим на гистограмму следующего примера |
|
Простейшим признаком правосторонней асимметрии является тот факт, что , и это неудивительно – ведь справа находится значительное количество вариант, и поэтому средняя смещена вправо.
И поэтому английский статистик Карл Пирсон предложил следующую формулу для расчёта коэффициента асимметрии:
,
где σ – среднее квадратическое отклонение статистической совокупности. Что логично, ведь у разных распределений – разный «разброс» значений и разные представления о мере асимметрии.
Левостороння асимметрия, наоборот, характеризуются удлинённым левый «хвостом» и неравенством : |
|
Из формулы следует, что в левостороннем случае коэффициент асимметрии отрицателен (т.к. ), а в правостороннем – положителен (), и чем больше As по модулю – тем сильнее скос распределения.
Недостаток формулы Пирсона состоит в том, что она описывает лишь центральную часть распределения и практически не учитывает «периферию». Поэтому применяется формула, которая охватывает все варианты: , где – куб стандартного выборочного отклонения, а m3 – так называемый центральный эмпирический момент третьего порядка.
Для несгруппированной статической совокупности он рассчитывается так: ,( – выборочная средняя), а для сформированного вариационного ряда – так: , где xi – варианты дискретного ряда или середины частичных интервалов интервального ряда, а ni – соответствующие частоты.
Смысл знаков тот же самый: если , то распределение скошено вправо, если – то влево.
При этом принята следующая условная градация:
если полученное значение по модулю меньше, чем 0,25, то асимметрия незначительна, если , то умеренная, и если , то существенная.
И чем меньше по модулю As, тем рассматриваемое эмпирическое распределение ближе к нормальному распределению с параметрами .
Рассмотрим понятие эксцесс. Эксцесс характеризует высоту.
Коэффициент эксцесса эмпирического распределения рассчитывается по формуле:
, где – центральный эмпирический момент четвёртого порядка: – для несгруппированных данных, и – для сформированного вариационного ряда.
Если Ek>0, то эмпирическое распределение является более высоким («островершинным») – относительно «эталонного» нормального распределения с параметрами . Если же Ek<0 – то более низким и пологим. И чем больше Ek по модулю, тем больше изменяется высота в ту или иную сторону.
Контрольные вопросы
1. Задача математической статистики.
2. Выборка. Генеральная совокупность.
3. Вариационный ряд. Частоты и относительные частоты.
4. Статистическое распределение для дискретной и непрерывной случайных величин.
5. Выборочное и генеральное средние значения.
6. Статистическая дисперсия и среднеквадратическое отклонение.
7. Асимметрия и эксцесс