Главная > Математика > Выборочный метод
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.3.4. ОПРЕДЕЛЕНИЕ ОБЪЕМА ВЫБОРКИ ПРИ ОЦЕНИВАНИИ СРЕДНИХ И СУММАРНЫХ ЗНАЧЕНИИ ИССЛЕДУЕМЫХ ПРИЗНАКОВ

Как уже указывалось в 5.2.4, на стадии планирования выборочного обследования важно избрать такой объем выборки, который помогал бы избежать:

получения из-за слишком большого объема выборки чрезмерной и не требующейся точности результатов ценой больших затрат при подготовке и проведении обследования;

получения из-за слишком малого объема выборки неточных оценок, которые оказываются практически неприменимыми.

При прямом оценивании, средних и суммарных значений с помощью простого случайного отбора объем выборки — единственная влияющая на точность оценки величина которая находится во власти статистика. В 5.3.2 и 5.3.3 объем выборки считался заданным и выводились формулы для количественных характеристик точности оценивания в зависимости от . Теперь мы будем решать обратную, проблему: при заданном показателе точности оценивания определить объем выборки так, чтобы достигнуть желаемой степени точности.

5.3.4.1. Показатель точности оценивания средних и суммарных значений исследуемых признаков

Существуют следующие допускающие содержательную интерпретацию показатели точности оценивания средних и суммарных значений:

стандартные ошибки среднего и соответственно суммарного значении Они дают порядок величины возможного отклонения оценок от истинных значении (параметров). Вероятность получить отклонения больше стандартной ошибки (т. е. вероятность того, что или ) в силу нормального распределения оценок равна 0,317;

предельные ошибки выборки соответственно при уровне доверительной вероятности . Они представляют собой максимально возможное отклонение оценки от истинного значения, которое может быть превышено лишь с небольшой вероятностью а;

относительные стандартные ошибки (коэффициенты вариации оценок):

они показывают порядок возможного отклонения оценок в процентах от величины соответствующего параметра. Как было показано ранее,

относительные предельные ошибки выборок:

они показывают, на сколько процентов соответствующего параметра) оценки могут максимально (при уровне доверительной вероятности отклоняться от оцениваемого параметра.

При задании значения показателя точности обращают внимание на то, чтобы объем выборки обеспечивал степень точности, не меньшую (можно большую), чем требуемая. Поскольку с увеличением объема выборки точность возрастает, получаемое расчетное значение его должно рассматриваться

как нижняя граница возможного объема. Результат любой выборки объема расчетное удовлетворяет заданным требованиям к степени точности.

5.3.4.2. Определение объема выборки при заданной абсолютной точности

Стандартные ошибки оценок средних и суммарных величин признака единиц совокупности объема N соответственно равны:

В 5.3.2 и 5.3.3 обсуждались эти стандартные ошибки как меры точности оценивания. С их помощью строились доверительные интервалы для неизвестных параметров . При исследовании определенного признака единиц совокупности среднее квадратичное отклонение значений признака в совокупности и объем совокупности N - величины постоянные. Объемом же выборки можно варьировать, что дает возможность воздействовать на точность оценивания.

Теперь мы исходим из предпосылки, что требование к точности задано в виде величин или и ищется такой объем выборки , при котором стандартные ошибки примут значения или . Уравнения (5.3.34) и (5.3.35) могут быть разрешены относительно п. Поскольку мы вправе предположить, что после некоторых преобразований получим формулы:

    (5.3.36)

и соответственно

    (5.3.37)

Эти формулы наряду с задаваемыми в качестве требований к точности значениями содержат также объем совокупности N и среднее квадратичное отклонение S признака в совокупности.

Особую трудность на стадии планирования выборочного обследования вызывает отсутствие точных данных о величине S. Поэтому в формулы нужно ввести оценки для 5 или воспользоваться какими-нибудь разумными предпосылками об этой величине. Это можно сделать, если:

специально с целью определения среднего квадратичного отклонения проводится предварительное пробное обследование результатов выборки с малым объемом (например, );

используются данные о среднем квадратичном отклонении из предыдущих или подобных обследований;

оценивают среднее квадратичное отклонение, принимая гипотезу об определенном распределении признака у всех единиц совокупности (см. 5.3.4.4).

Неизвестное значение среднего квадратичного отклонения S мы заменяем в формулах на s, показывая этим, что точное значение для практических расчетов не используется. Чтобы в формулах были единообразные обозначения, мы заменяем также на

Формула (5.3.36) тогда принимает вид:

    (5.3.38)

или

    (5.3.39)

или

    (5.3.40)

Из формулы (5.3.40) видно, что при прочих равных условиях есть монотонно возрастающая функция N и при она стремится к пределу

    (5.3.41)

Из (5.3.38)-(5.3.41) можно непосредственно получить аналогичные формулы для определения объема выборки , когда задается предельная ошибка выборки

Заменив в на получим:

    (5.3.42)

или

    (5.3.43)

или

    (5.3.44)

или

    (5.3.45)

Нели нет точных данных об N, то в формулы можно подставить число, заведомо большее, чем неизвестное истинное значение N. Тогда получают значение , которое больше, чем собственно необходимое. Подобную верхнюю границу объема совокупности в большинстве случаев можно задать. Если же об N нет никакой информации, то следует воспользоваться максимальными предельными значениями объема выборки, вычисляемыми по формулам (5.3.41) и (5.3.45). При этом требования к степени точности будут выполнены.

Суммарное значение признака может быть оценено лишь для конечной совокупности с известным объемом N. Необходимый

объем выборки при заданной стандартной ошибке может быть определен по формулам

    (5.3.46)

и

    (5.3.47)

а при заданной предельной ошибке оценки — по формулам

и

    (5.3.49)

Пример. Вернемся к примеру из 5.3.2. Какого объема должна быть выборка, чтобы предельная ошибка оценки среднего вклада составляла 3 марки ? При этом мы предположим, что значение среднего квадратичного отклонения для всей совокупности марок известно.

Применяя (5.3.43), получаем:

Таким образом, нужно обследовать 1521, или 19%, вкладчика на предмет величины их вкладов. Относительно большое число получилось здесь потому, что была потребована довольно высокая точность.

5.3.4.3. Определение объема выборки при заданной относительной точности

Уравнение для определения коэффициента вариации оценок среднего v- и суммарного значений

    (5.3.50)

можно разрешить относительно п. Предполагая, как и раньше, что получаем следующие формулы:

    (5.3.51)

и

Так эти формулы применимы и тогда, когда задан коэффициент вариации оценки суммарного значения. Достаточно заменить в них на

При работе с формулами (5.3.51)-(5.3.53) мы сталкиваемся со знакомым затруднением: коэффициент вариации v признака для всех единиц совокупности неизвестен. Здесь также следует (см. 5.3.4.2 и 5.3.4.4) попытаться оценить его численное значение или найти верхнюю границу, которые могут быть подставлены в формулы.

Если показатель точности задан в виде относительной предельной ошибки то, поскольку получаем:

    (5.3.54)

и

Преимущество относительных показателей точности состоит в том, что они являются безразмерными величинами, поэтому с их помощью можно сравнивать точность оценок различных признаков.

Общего правила для того, чтобы можно было считать определенные значения коэффициента вариации результата выборки приемлемыми и поэтому пользоваться ими для расчета объема выборки, естественно, нет. Выбор значений коэффициентов вариации зависит от характера обследования и предъявляемых к нему требований. Чрезмерные требования к точности зачастую свидетельствуют о недостаточном понимании статистических методов и статистических выводов. Результаты выборочного обследования с коэффициентом вариации (т. е. меньше 1%) могут рассматриваться как весьма пригодные, а с коэффициентом вариации напротив, — как мало пригодные.

Пример (см. пример в 5.3.2). Какого объема должна быть выборка, чтобы (с уровнем доверительной вероятности 0,955) относительная предельная ошибка составляла не более 1%, если известно, что коэффициент вариации v признака для всей совокупности составляет 0,125, т. е. 12,5%?

Применяя (5.3.55), получаем:

5.3.4.4. Способы оценивания среднего квадратичного отклонения совокупности при некоторых законах распределения признака

Если нельзя провести пробное предварительное обследование малого числа единиц для определения среднего квадратичного отклонения s и если нет никаких данных из предыдущих или подобных обследований о возможном значении среднего квадратичного отклонения, то иногда можно вычислить вполне пригодную его оценку, приняв на основе имеющихся сведений о характере совокупности предположение о том, что интересующий нас признак имеет некоторое простое распределение. При этом существенным

является требование, чтобы величина среднего квадратичного отклонения выбранного распределения была не меньше неизвестного среднего квадратичного отклонения значений интересующего нас признака в совокупности. Подставив такое значение s в формулы для определения объема выборки, мы получим значение которое не меньше собственно необходимого значения. Этим выполняются установленные требования к уровню точности.

Предпосылкой такого определения среднего квадратичного отклонения при далее рассматриваемых распределениях является знание нижней и верхней границ значений исследуемого признака:

Как правило, знание предмета исследования всегда позволяет указать значения и . Например, при исследовании денежных доходов домохозяйств определенной группу населения в качестве нужно взять значение, несколько меньшее, чем минимальный доход, а в качестве — значение, несколько большее, чем максимальный в этой группе (так, для домохозяйств с одним работником можно принять марок, марок).

Дальнейшее улучшение оценок среднего квадратичного отклонения возможно, если дополнительно задать границу для значения среднего, такую, что

    (5.3.60)

или

    (5.3.61)

Интерпретация такова: «среднее больше, чем или «среднее меньше, чем Подобные границы зачастую также могут быть указаны в соответствии с физической сущностью изучаемого явления.

Двухточечное распределение. Среднее квадратичное отклонение признака, распределенного в интервале принимает наибольшее значение, если признак принимает только два крайних значения: причем

на каждое из этих значений приходится по половине единиц совокупности. Среднее квадратичное отклонение в этом случае равно:

    (5.3.62)

«Чисто» двухточечное распределение (см. рис. 17) редко применимо для оценивания среднего квадратичного отклонения действительного распределения признака. Оно может применяться лишь тогда, когда значения признака у единиц совокупности сосредоточены на концах интервала.

Рис. 15. Двухточечное распределение с нецентральным расположением математического ожидания

Равенство (5.3.62) дает формулу для оценки среднего квадратичного отклонения, если каждое из значений признака встречается одинаково часто, поэтому среднее лежит в середине интервала. Если же они встречаются с разной частотой, то среднее расположено не в середине интервала (см. рис. 15). Легко показать, что в этом случае среднее квадратичное отклонение следует вычислять по формуле

    (5.3.63)

Оно имеет максимум при и этот максимум равен величине (5.3.62). Итак, если возможно указать границу таким образом, чтобы она лежала ближе к середине интервала, чем истинное среднее значение исследуемого признака, т. е. когда

или

то формула (5.3.63) дает подходящую оценку среднего квадратичного отклонения, которая может быть использована для расчета объема выборки.

Равномерное распределение (см. рис. 17). Если можно принять, что значения признака примерно равномерно распределены между и т. е. каждое значение признака; встречается приблизительно одинаково часто, то среднее квадратичное отклонение равномерного распределения можно считать подходящей оценкой для среднего квадратичного отклонения интересующего нас признака и с его помощью рассчитывать необходимый объем выборки.

Рис. 16. Двухинтервальное равномерное распределение

Среднее квадратичное отклонение равномерного распределения равно:

или

    (5.3.64)

Среднее значение равномерного распределения, как и двухточечного распределения, равно

Если здесь, как и в предыдущем случае, можно задать границу для среднего значения X [см. (5.3.60) и (5.3.61)], то среднее квадратичное отклонение можно вычислить

для двухинтервального равномерного распределения (см. рис. 16). Оно рассчитывается по формуле

    (5.3.65)

Эта функция [как и функция (5.3.63)] имеет максимум при

Формула (5.3.64) есть, очевидно, частный случай (5.3.65). (Выбор границы до рассмотрен при обсуждении двухточеч ного распределения.)

Треугольное распределение (см. рис. 17). Если распределение признака таково, что частота появления его значений увеличивается при приближении к одному из концов интервала (безразлично к или ) и уменьшается до нуля при приближении к другому, то для расчета объема выборки из совокупности с таким распределением в качестве приемлемого приближения может служить среднее квадратичное отклонение треугольного распределения. Оно равно:

    (5.3.66)

Равнобедренно-треугольное распределение (см. рис. 17). Если есть основание предполагать, что частота появления значений исследуемого признака стремится к нулю при приближении к обоим концам интервала, то для оценки действительного среднего квадратичного отклонения признака и, следовательно, для определения необходимого объема выборки можно использовать среднее квадратичное отклонение равнобедренно-треугольного распределения. Оно равно:

    (5.3.67)

Нормальное распределение. Наконец, если можно предположить, что распределение интересующего нас признака близко к нормальному, то

    (5.3.68)

Рис. 17

где R — ширина интервала, в котором содержится 99% значений признака.

На рис. 17 сопоставлены основные типы распределений. Пример. Определенной группе рабочих выплачивается премия в размере 80 и 140 марок. Как оценить среднее

квадратичное отклонение для всей группы, если: а) о среднем значении ничего неизвестно, б) известно, что среднее значение марок? в) каков должен быть объем выборки, чтобы стандартная ошибка была бы не больше 3 марок, а изучаемая группа охватывала бы человек?

а) марок (двухточечное распределение);

б) марки;

в) но формуле (5.3.40) получим:

Таким образом, если бы выборочное обследование проводилось с выборкой объема , то все требования к степени точности были бы заведомо выполнены, так как объем удовлетворяет требованию к точности, заданному в виде марки.

Пример. Нужно оценить среднее квадратичное отклонение веса студентов мужского пола. Можно предположить, что ни один из них не весит менее 50 кг или более 100 кг (хгаах а также, что частота появления определенного веса стремится к нулю при приближении к границам интервала. Поэтому мы вправе принять равнобедренно-треугольное распределение значений данного признака согласно (5.3.67) и тогда получить

Пример. Сколько семей, состоящих из двух человек, следует опросить, чтобы определить средине расходы на газ и электричество за месяц с предельной ошибкой в 2 марки. Есть основание предполагать, что эти расходы лежат в пределах 20—90 марок и чем меньше значение, тем чаще оно встречается. Количество семей из двух человек

Принимая треугольное распределение, согласно (5.3.66) получаем:

По формуле (5.3.43) (при уровне доверительной вероятности т. е. находим необходимый объем выборки:

Итак, необходимо случайно отобрать и опросить 266 семей. Полученные при этом средние расходы будут отличаться от действительных средних значений расходов самое большее на 2 марки.

5.3.4.5. Графический метод определения объема выборки

Рассматривая равенства (5.3.17), (5.3.23) и (5.3.28), легко заметить, что можно выделить отношения — или соответственно которые оказываются одинаковыми и равны

Очевидно, что можно построить графики при различных N. Получится семейство кривых (см. рис. 18).

Если заданы значения или (соответственно или ) и известны значения , т. е. известно численное значение G, то можно но графику определить объем выборки, необходимый для проведения обследования при заданном уровне точности. Можно видеть, что при объеме выборки приблизительно до значение почти не зависит от объема совокупности N. Для совокупностей с при объеме выборки до влиянием объема совокупности можно в первом приближении пренебречь.

Если, например, коэффициент вариации совокупности а коэффициент вариации оценки суммарного или

(см. скан)

Рис. 18

среднего значения то для обследования совокупности объема N = 1000 необходим объем выборки Наибольший объем выборки при соблюдении той же степени точности при N со составляет а для совокупности N = 500 необходима выборка объема

С помощью рис. 18 можно легко определить значения или и при заданных или .

<< Предыдущий параграф Следующий параграф >>
Оглавление