Главная > Математика > Выборочный метод
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.2. ОЦЕНИВАНИЕ ДОЛЕЙ И ЧИСЛА ЕДИНИЦ С ОПРЕДЕЛЕННЫМ ПРИЗНАКОМ

5.2.1. ПОНЯТИЯ И ОБОЗНАЧЕНИЯ

Пусть дана совокупность объемом в N единиц, причем единиц этой совокупности обладают некоторым определенным свойством. Например, N — количество всех магазинов большого города, — количество магазинов с самообслуживанием. Естественно, можно было бы выбрать и другие подмножества, обследование которых представляет интерес.

Количество единиц, обладающих некоторым признаком (объем интересующего нас подмножества), может быть определено путем их пересчета, оно является важной статистической характеристикой, позволяющей судить о структуре реальной совокупности. Долю единиц, обладающих определенным признаком, тогда получают по формуле

    (5.2.1)

Часто доля признака задается также в процентах. Она равна

Пример. Среди N = 400 экзаменовавшихся студентов получили отличную оценку. Тогда или

Если же рассматривается гипотетическая совокупность, то бесконечны, а параметр Р в этом случае представляет собой вероятность того, что наблюдаемая или отбираемая единица обладает интересующим нас признаком (принадлежит интересующему нас подмножеству). И при конечных совокупностях Р также представляет собой вероятность отбора единицы совокупности из некоторого интересующего нас подмножества. Так, например, при однократном бросании игральной кости есть вероятность выпадения «шестерки».

Обе характеристики, , могут быть определены только при обследовании всех единиц совокупности. Если извлекается выборка объема и в ней оказывается единиц с интересующим нас свойством, то — или , называется выборочной долей, а представляют собой реализации случайных величин.

Таблица 5.1. Сводка обозначений

5.2.2. ОЦЕНКИ И ИХ СВОЙСТВА

С помощью обследования единиц выборки нужно оценить параметры совокупности. Так как соотношения между этими параметрами весьма просты (см. табл. 5.1, а также 5.2.1), то мы будем рассматривать проблемы их оценки совместно. Сначала поясним это на примере.

Пример. Пусть имеется совокупность, состоящая из человек. С помощью выборочного обследования должны быть определены число и доля Р людей, желающих в будущем году провести свои отпуск заграницей. Для этой цели извлекается 2%-ная выборка, т. е. отбирается и опрашивается 1000 человек. Из них человек отвечают положительно. Таким образом, выборочная доля

Естественно рассматривать найденную долю как приближенную оценку доли Р. Правомерность этого шага мы докажем позднее. Так как пли 24%, есть результат опроса случайно отобранных люден, то это значение представляет собой случайную величину, которая, как правило, не совпадает с параметром Р.

Итак, если 0,24 — «приблизительная» доля людей, которые ко времени опроса намерены в будущем году провести отпуск заграницей, то есть «приблизительное» число, т. е. оценка неизвестного действительного числа этих людей. Значение также представляет собой случайную величину (этот пример будет по мере надобности обсуждаться и в дальнейшем).

Оценки параметров на основании результатов выборки вычисляются так:

    (5.2.2)

и

    (5.2.3)

Мы должны решить, целесообразно ли выбрать эти функции в качестве функций оценок параметров Для этого сначала нужно найти распределение этих оценок. В качестве непосредственного результата обследования единиц выборки получаем — число единиц, обладающих интересующим нас признаком. — дискретная случайная

величина; вероятность того, что случайная величина примет конкретное значение зависит от объема совокупности N, объема подмножества и от объема выборки .

В соответствии с классическим определением вероятности можно определить вероятность того, что при заданных при отборе без возвращения в выборку объема попадет единиц, обладающих интересующим нас признаком. Эта вероятность равна:

    (5.2.4)

Такое распределение называется гипергеометрическим. Формула (5.2.4) редко непосредственно применяется для вычисление вероятности определенного результата выборки. Затраты на вычисление весьма значительны, тем более что количество возможных значений для которых по формуле (5.2.4) вычисляется соответствующая вероятность, равно (и так как может принимать значения различных численных значений.

С помощью формулы (5.2.4) можно найти выражение математического ожидания случайной величины (см. сноску на с. 25):

    

Окончательно получим:

    (5.2.6)

Формула (5.2.6) очень наглядна, она показывает, что при простом случайном отборе «в среднем» получают единиц интересующего нас подмножества, если в (конечной) совокупности доля этих единиц равна Р. Предположим в нашем примере, что действительная доля людей, собирающихся провести свой отпуск заграницей, равна тогда в выборке объема математическое ожидание числа этих людей равно:

Если объем N совокупности неограниченно возрастает или если производится отбор с возвращением, то члены гипергеометрического распределения стремятся к членам биномиального распределения, и вероятность того, что выборка содержит единиц с интересующим нас свойством, принимает вид:

    (5.2.7)

При совокупности большого объема математическое ожидание числа единиц с интересующим нас признаком в выборке объема также будет

Знание математического ожидания случайной величины позволяет определить математическое ожидание собственно интересующих нас оценок (5.2.2) и (5.2.3) доли Р и числа Так как

то

или

    (5.2.8)

Таким образом, доля в выборке есть несмещенная оценка доли в совокупности.

Из (5.2.3) получаем ,

    (5.2.9)

Оценка есть несмещенная оценка числа единиц совокупности, обладающих определенным признаком.

Можно легко показать, что функции оценки (5.2.2) и (5.2.3) также состоятельны. Действительно, если увеличивать объем выборки, то в пределе получим:

    (5.2.10а)

и, следовательно,

    (5.2.106)

Функции оценки, следовательно, выбраны правильно, при переборе всей совокупности они дают истинные значення искомых параметров .

— реализации случайных величин, поэтому в силу (5.2.4) и (5.2.7) соответственно они принимают частные значения только с определенной вероятностью.

Пример. В табл. 5.2 и 5.3 приведены вероятности возможных значений величины а также оценки для выборок объема из совокупности объема в которой содержится т. е. при

Таблица 5.2

для

Объем выборки, естественно, очень мал, поэтому истинные значения вообще не могут быть получены как результат оценки. Каждому значению соответствует одна и только одна оценка которые поэтому могут ожидаться с вероятностью, равной Разброс оценок очень велик, следовательно, описанный метод оценивания для данного случая, очевидно, не подходит. При объеме выборки количество возможных результатов выборки 1, ..., 100 равно 101. Однако вероятность появления значения настолько мала, что на практике ею можно пренебречь. Наибольшую вероятность имеет результат, соответствующий математическому ожиданию, т. е.

Таблица 5.3

На рис. 7 и 8 изображены распределения вероятностей для обеих выборок в одинаковом масштабе. Виден больший разброс результатов выборки объема по сравнению с разбросом результатов выборки объема

Результаты выборки объема приданных условиях едва ли применимы для оценки параметров из-за большого разброса результатов рассматриваемый способ оказывается мало точным.

Рис. 7.

Рис. 8.

Для количественной характеристики точности оценивания необходимо знать стандартные ошибки оценок Если мы рассматриваем число единиц обладающих определенным признаком, среди единиц, полученных с помощью случайного отбора без возвращения, то оно имеет гипергеометр ическое распределение с математическим ожиданием и дисперсией

    (5.2.11)

или со стандартной ошибкой

По формулам (5.2.11) и (5.2.12) вычисляются дисперсия и стандартная ошибка величины . В рассмотренном примере при совокупности объема человек, из которых намерены провести свой отпуск заграницей, число таких людей в выборке объема есть случайная величина с математическим ожиданием дисперсией

и стандартной ошибкой

Стандартная ошибка показывает порядок величины возможного отклонения результата выборки от математического ожидания, т. е. характеризует точность метода оценивания.

С помощью формул (5.2.11), (5.2.12) легко получить дисперсию и стандартную ошибку оценок параметров Принимая во внимание, что для любой случайной величины Z и константы а выполняется соотношение

    (5.2.13)

(среднее квадратическое отклонение произведения случайной величины 2 и константы а равно произведению среднего квадратического отклонения a (Z) случайной величины Z на эту константу), мы сразу получим, что

и

Если объем совокупности достаточно велик, то можно считать, что Тогда формулы (5.2.14) и (5.2.15) можно переписать в виде:

    (5.2.16)

    (5.2.17)

Стандартные ошибки оценок для нашего примера равны соответственно:

Результат оценивания доли и числа единице определенным признаком может быть представлен с помощью оценки и стандартной ошибки оценки:

оценивание доли: , т. е. 0,24 ± 0,0136, оценивание количества: т. е. 12 000 ± 680. Наряду со стандартной ошибкой как средней мерой абсолютного отклонения оценки от математического ожидания применяется коэффициент вариации оценки (относительная стандартная ошибка)

или

    (5.2.18)

как мера относительного разброса; она показывает порядок величины отклонения оценки в процентах от оцениваемого значения. Легко видеть, что и

    (5.2.19)

Стандартные ошибки зависят от:

доли отбора

объема выборки ;

доли Р в совокупности.

Множитель называется поправкой на конечность совокупности или корректирующим множителем (см. табл. 5.4). Для него выполняется двойное неравенство:

В табл. 5.4 приведены значения корректирующего множителя в зависимости от доли отбора.

Таблица 5.4

Рис. 9

Из табл. 5.4 и рис. 9 видно, что при доле отбора т. е. не более 5% совокупности, корректирующий множитель лишь незначительно отличается от 1. При малой доле отбора (при больших N) или же при отборе с возвращением стандартная ошибка гипергеометрического

распределения переходит в стандартную ошибку биномиального распределения:

Оценивание при отборе без возвращения, следовательно, более точное, чем при отборе с возвращением; по формуле (5.2.20) всегда получают большее значение стандартных ошибок, чем по формулам (5.2.16) и (5.2.17).

Объем выборки п — единственная выбираемая статистиком величина, которая влияет на стандартную ошибку оценки. Из (5.2.20) видно, что при увеличении объема выборки стандартная ошибка уменьшается. Ее величина обратно пропорциональна квадратному корню из объема выборки.

Пример. Для примера на с. 37 рассчитаем стандартную ошибку выборочной доли при объеме выборки .

По формуле (5.2.14) получаем:

Для рассчитывается аналогично.

Из табл. 5.5 видно, что при увеличении объема выборки в четыре раза стандартная ошибка уменьшается наполовину.

Таблица 5.5

Помимо объема выборки и доли отбора стандартная ошибка оценки зависит от параметра Р, точнее, от произведения . Табл. 5.6 содержит величины для значений рис. 10 дает графическое изображение этой зависимости. Можно заметить, что при значениях Р, не близких к 0 и 1, численное значение мало меняется при изменении Р. Например, при изменении Р от 0,5 до изменяется от 0,50 до 0,49.

Упомянутое выше свойство относительной инвариант, и ости выражения по отношению к Р имеет большое практическое значение. В формулах стандартных ошибок (5.2.14), (5.2.15) и (5.2.20) участвует значение параметра Р. Этот параметр, однако, неизвестен, цель выборочного обследования как раз и заключается в оценке его численного значения.

Таблица 5.6

Рис. 10

Теоретически правильные формулы, таким образом, не годятся для вычисления дисперсии оценок, В результате выборочного обследования получается лишь оценка , близкая к параметру Р. Поэтому вполне правомерна замена неизвестного выражения на в формулах стандартных ошибок оценок. Возникающей при этом погрешностью можно пренебречь.

Таким образом, формулы содержат лишь известные величины: объем совокупности, N, объем выборки, а, и результат выборки, . Для того чтобы отличать эти значения стандартных

Таблица 5.7

ошибок от теоретических значений, их обозначает не , а буквой s.

В табл. 5.7 приведены параметры, их оценки и формулы для вычисления стандартных ошибок и коэффициентов вариации оценок.

Математическое ожидание и стандартная ошибка — важные характеристики распределения оценки. Они, однако, не дают полного представления о распределении оценки.

Рис. 11.1. Область нормального/распределения оценки в зависимости от и Р

В соответствии с распределения оценок при приемлемы, а при хорошо аппроксимируются нормальными распределениями с математическими ожиданиями и стандартными ошибками соответственно. Согласно этому правилу, например, при доля выборке при имеет распределение приемлемо близкое, а при — весьма близкое к нормальному.

На свойстве гипергеометрического и биномиального распределения сходиться по вероятности к нормальному распределению основывается приведенный в этой работе способ расчета доверительных интервалов для параметров

<< Предыдущий параграф Следующий параграф >>
Оглавление