Главная > Математика > Выборочный метод
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.2.3. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ ДОЛЕЙ И ЧИСЛА ЕДИНИЦ С ОПРЕДЕЛЕННЫМ ПРИЗНАКОМ

5.2.3.1. Симметричные интервалы

В практических исследованиях обычно предполагается, что оценки для доли Р и числа единиц с интересующим нас признаком нормально распределены. Тогда можно определить вероятность того, что отклонение оценки от своего математического ожидания (от истинного значения параметра) не превзойдет определенную величину, выраженную в долях от стандартной ошибки (см. 4.2), т.е.

    (5.2.21)

Таблицы нормального распределения позволяют для каждого значения а определить соответствующее значение .

Если а достаточно мало, то с большой вероятностью (1—а) можно утверждать, что наибольшее отклонение значения оценки , полученное по выборке (и, следовательно, обусловленное случаем), от своего математического ожидания равно Назовем величину предельной ошибкой выборки, гарантируемой с вероятностью 1—а. Не надо, однако, забывать, большее отклонение, хотя и с очень маленькой вероятностью, все-таки может произойти.

Пример. Из совокупности объема извлекается выборка объема Совокупность содержит единиц с определенным признаком. Требуется определить стандартную ошибку оценки доли, предельную ошибку выборки, гарантируемую с вероятностью интервал, в котором с вероятностью 0,99 находится оценка.

Тогда

и

Следовательно, предельная ошибка выборки

Итак, можно считать, что оценка отклоняется от истинного значения не более чем на 0,0516, т. е. на 5,16% (только в одном случае из 100 выборок отклонение будет больше, чем 0,0516). Интервал, в котором может находиться оценка, будет следующим:

или

Соотношение (5.2.21) предполагает, что параметр Р известен и указывает интервал возможных значений случайной величины . Теперь преобразуем это соотношение. Вначале вычтем Р из обеих частей неравенства. Получим:

Это соотношение показывает, что максимальное отклонение составляет . Умножение каждого из указанных в (5.2.22) неравенств на —1 приведет к следующему:

(При умножении на —1 знаки неравенства меняются. Так, но Для двойного неравенства это не имеет значения.) Далее, прибавляя , мы получаем:

Соотношение (5.2.24) содержит неравенство для неизвестного параметра Р:

    (5.2.25)

Построенный таким образом интервал называется доверительным интервалом для параметра Р, соответствующим уровню доверительной вероятности (1 — а); границы интервала называются доверительными границами, называют доверительным коэффициентом.

Границы доверительного интервала — случайные величины; интервал, таким образом, является случайным интервалом, с вероятностью (1 —а) он «покрывает» истинное значение параметра. Только в редких случаях, точнее, с вероятностно а, утверждение о том, что параметр находится внутри доверительного интервала, не соответствует истине.

Двойное неравенство (5.2.25) в данной форме не может использоваться, так как для расчета стандартной ошибки [см. (5.2.16), (5.2.17)] необходимо знать неизвестный параметр Р, который может быть оценен лишь с помощью выборки. Согласно табл. 5.7. заменяется на Тогда получаем:

    (5.2.26)

и

    (5.2.27)

(5.2.27) получается непосредственно из (5.2.26) умножением на N. Величины вычисляются по формулам из табл. 5.7.

Пример. При опросе 1000 человек было установлено, что 240 из них намерены провести отпуск заграницей. Эти данные следует статистически интерпретировать для совокупности объема N = 50 000 человек, если предположить, что опрошенные представляют собой случайную выборку из этой . Нужно оценить .

Оценки:

Стандартные ошибки:

Предельные ошибки выборок:

выберем , тогда

Доверительные интервалы для параметров

Интерпретация: с вероятностью 95% доля (число) лиц, желающих провести отпуск заграницей, в исследуемой совокупности лежит между 21,4 и 26,6% (между 10 685 и 13 315).

5.2.3.2. Несимметричные интервалы

Способ расчета симметричных интервалов для оценок по формулам (5.2.26) и (5.2.27) приводит к неверным результатам, если доля Р сильно отклоняется от 0,5 (в ту или в другую сторону). Предварительное задание вероятности ошибок в этом случае не дает желаемых результатов.

Мы приводим здесь другой способ расчета доверительных интервалов для долей и числа единиц с определенным признаком. Он приводит к удовлетворительным результатам иногда, когда значение Р близко к 0 или 1. При этом мы предполагаем, что совокупность достаточно велика (точнее, что

В результате обследования единиц выборки получают значения и, следовательно, . Доля может отличаться от истинной доли Р [при уровне доверительной вероятности (1—а)] на величину иаар — таким образом, есть максимальное «удаление» оценки от параметра Р. Исходя из этого самое большое численное значение, которое может иметь неизвестный нам параметр Р, равно:

или

    (5.2.28)

Единственное неизвестное в равенстве (5.2.28) — это значение Р т. е. верхняя граница доверительного интервала. Аналогичное равенство можно записать для нижней границы доверительного интервала

или

    (5.2.29)

которое также содержит одну неизвестную величину Интервал — это множество всех возможных значений параметра Р, вокруг которых случайно колеблется результат выборки .

Рис. 12. Графическое изображение доверительного интервала при заданном значении выборочной доли

Решая уравнения (5.2.28) и (5.2.29) относительно получаем:

    (5.2.30)

теперь не равноудалены от оценки ; асимметрия тем больше, чем ближе Р к 0 или 1.

Пример. Был произведен опрос человек, случайно отобранных из определенной группы; из них положительно ответили на вопрос, живут ли они

более 15 лет в своей нынешней квартире. Каковы границы доли таких людей в исследуемой группе, определенные с надежностью 0,955? Дано , или . Так как , то . Отсюда

Вывод: с вероятностью 0,955 можно утверждать, что доля соответствующих люден в исследуемой совокупности лежит между т. с. 7,8%, и т. е. 14%.

С помощью формулы (5.2.30) можно рассмотреть интересный частный случай, в котором неприменимы формулы из 5.2.31. Приведенная там формула (5.2.26) не годится при нулевом результате выборки, т. е. при и, следовательно, . С возможностью такого результата статистик должен считаться всегда, когда он исследует редкий признак и не может по своему желанию увеличивать объем выборки. Он должен уметь интерпретировать подобный результат и, исходя из объема выборки, сделать вывод о максимально возможном значении доли признака в совокупности.

Если в выражение (5.2.30) подставить то получается выражение для верхней границы возможных значении доли Р:

    (5.2.31)

Однако эта формула дает лишь приближенно порядок величины которая при точном расчете неустойчива. (Здесь этот вопрос не рассматривается.) Точные величины всегда лежат ниже [13, с. 57].

Пример. При проверке на предприятии случайно отобранных справок не было обнаружено ни одной ошибочной, хотя возможность появления ошибочных справок следует учитывать. Требуется указать интервал,

в котором с вероятностью 0,955 лежит доля ошибочных справок. или 0,79% (в [13] эта величина составляет ).

5.2.3.3. Табличные и графические методы

В случае конечных совокупностей границы доверительных интервалов зависят от четырех величин: . Табулирование доверительных интервалов по этой причине потребовало бы таблицы «с четырьмя входами», что практически невозможно. Если же совокупность бесконечная или проводится отбор с возвращением, то таблицы должны были бы содержать доверительные границы (долей) для каждого возможного результата выборки и объема выборки , вычисленные хотя бы для двух обычно применяемых вероятностей ошибки а (например, Если учесть, что для объема выборки (например, ) возможны результатов выборки и, следовательно, доверительных интервалов, то становится понятным, что таблицы могут быть составлены только для относительно ограниченного количества объемов выборки. Так как в социально-экономической статистике малые выборки применяются редко, мы отсылаем читателя к соответствующей литературе.

У Е. Вебера [31] приведены доверительные интервалы для . Для при по этим таблицам находим, что

В таблицах Д. Б. Оуэна для шести значений вероятности ошибки приведены доверительные границы от до полностью, а от до частично.

Проще определять доверительные интервалы с помощью графических методов. Если по оси абсцисс откладывать значения возможных результатов выборки по оси ординат значения параметра Р. генеральной совокупности, то при заданном значении и уровне доверительной вероятности (1 — а) каждому значению можно поставить в соответствие границы . Эти точки лежат (для одного объема выборки и значения а) на двух кривых (см. рис. 13).

Полный график содержит семейство кривых, соответствующих различным объемам выборки для каждой вероятности ошибки а должен быть составлен свой график.

Графики Коллера [13] позволяют получить те же результаты, хотя они построены несколько иначе. С их помощью можно находить и доверительные интервалы для конечных совокупностей.

Недостаток графического метода, ограничивающий его применение, состоит в том, что этот метод дает возможность непосредственно определить доверительный интервал только для конечного числа объема выборки.

Рис. 13а. Графическое определение интервала значений при заданном параметре Р совокупности

Значения границ доверительных интервалов для промежуточных объемов выборок могут быть получены лишь путем интерполяции или оценены приблизительно. На рис. 13б, например, нет кривой, соответствующей значению ближайшие к ней соответствуют значениям Расчетные границы доверительного интервала при составляют

Рис. 136. График для определения доверительных границ для доли Р (вероятности) в совокупности и граничных значении для выборочной доли и зависимости от объема выборки

в то время как из графика получаем приближенно . В подобных случаях все же предпочтение должно быть отдано прямому расчету.

<< Предыдущий параграф Следующий параграф >>
Оглавление