Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.6.4. Оценивание с помощью «взвешенных» статистик; цензурирование, урезание выборок и порядковые статистики как частный случай взвешивания.

Выборочные моменты всегда являются состоятельными оценками соответствующих теоретических моментов если последние существуют (см. § 7.2). Однако не во всякой генеральной совокупности они являются наиболее эффективными оценками. Так, например, мы видели (см. п. 8.6.1 и 8.6.2), что эффективность оценки среднего значения исследуемой случайной величины с помощью выборочного среднего существенно зависит от типа анализируемой генеральной совокупности: для нормальной генеральной совокупности она равна единице (см. пример 8.3 в п. 8.6.1), а для совокупности, подчиненной равномерному закону распределения, существенно меньше единицы и в сравнении, например, с эффективностью оценки

имеет (асимптотически по ) порядок (см. пример 8.5 в п. 8.6.1, 8.6.2). Для построения оценки (8.41) нами использованы только два наблюдения из имеющихся — наименьшее и наибольшее, т. е. оценка (8.41) относится к классу «взвешенных» порядковых статистик где по величине (в порядке возрастания) наблюдение, а его «вес» (очевидно, в статистике (8.41) принято сосоп а все остальные со равны нулю).

В реальной ситуации исследуемое распределение может не укладываться (в точности) ни в одну из используемых моделей, описанных, например, в гл. 6, а занимать в некотором смысле «промежуточное» положение. Один из вариантов формального описания такого промежуточного положения для симметричных (относительно параметра группирования 0) распределений предложен Дж. Тьюки (см. [141], а также п. 6.1.11):

где — плотность вероятности исследуемой случайной величины; — плотность нормального закона со средним значением а и дисперсией — плотность некоторого другого («засоряющего») закона распределения, симметричного относительно того же самого центра

группирования и зависящего, быть может, от какого-то еще параметра доля «засорения», т. е. доля тех наблюдений в исследуемой общей генеральной совокупности, которые подчинены закону «засоряющего» распределения

В табл. 8.1 представлены значения эффективностей оценок (выборочного среднего) и (выборочной медианы) параметра а в зависимости от характера и степени засорения анализируемого распределения. Расчеты произведены с помощью сочетания аналитического метода, использующего знание вида распределения в различных генеральных совокупностях (см. п. 5.6.4) — и метода

Таблица 8.1

статистического моделирования на ЭВМ (см. § 6.3) на достаточно больших выборках из обсуждаемых генеральных совокупностей

Мы видим, что, чем «тяжелее хвосты» засоряющего распределения (т. е. чем медленнее стремится к нулю плотность ) по мере удаления от центра группирования а), тем резче ослабевает эффективность оценки в то время как выборочная медиана демонстрирует удивительную устойчивость своих хороших свойств. Выборочная медиана относится к классу «взвешенных» порядковых статистик, т. е. статистик вида Для ее получения в качестве частного случая статистик этого класса достаточно положить нулю все веса кроме одного если нечетно) или кроме двух если четно).

Далее, в п. 10.4.4, 10.4.5 и 10.4.6, а также в § 11.5, рассматриваются некоторые конкретные задачи статистического оценивания неизвестных параметров, при решении которых используются различные варианты взвешенных статистик. Здесь же мы коротко остановимся лишь на описании основных подходов, связанных с использованием взвешенных статистик, и на классификации их типов.

Взвешивание выборочных данных . В общем случае наблюдению приписывается вес который определяется как некоторая функция от его текущего значения. Обычно веса подчиняют условию нормировки . В частности, можно рассматривать взвешенные моменты случайной величины с плотностью как выборочные , так и теоретические

Возможности и сущность этого подхода рассматриваются в п. 10.4.6.

Если имеют дело с результатами наблюдения одномерной случайной величины то часто вес наблюдения определяют в зависимости от его порядкового номера в упорядоченном (по возрастанию) ряду наблюдений, т. е. располагают наблюдения в вариационный ряд (см. п. 5.6.4) и каждому члену вариационного ряда ставят в соответствие некоторый вес .

Примеры такого рода взвешивания (которое приводит к так называемым порядковым статистикам) приведены выше. Некоторые другие варианты оценок этого типа рассмотрены в п. 10.4.4 и 10.4.5.

Цензурирование выборки. Этот прием заключается в приписывании ряду «хвостовых» членов вариационного ряда нулевых весов, а остальным — одинаковых положительных. Если приписывание нулевых весов производится по признаку выхода текущих значений наблюдений за пределы заданного диапазона , т. е.

то говорят о цензурировании типа I. Очевидно, в этом случае число v оставшихся в рассмотрении наблюдений есть величина случайная

Если же нулевые веса приписываются фиксированной доле а крайних малых значений и фиксированной доле крайних больших значений, то говорят, что производится цензурирование типа II уровня . В этом случае число v оставшихся в рассмотрении наблюдений является величиной заранее заданной и равной, в частности,

Исследователь может прибегнуть к цензурированию вынужденно или добровольно. Вынужденное цензурирование обусловлено соответствующими условиями эксперимента: например, мы ставим на разрушающие испытания изделий, но можем производить эксперимент в течение ограниченного времени Т. Очевидно, мы будем вынуждены произвести в данном случае одностороннее цензурирование типа I, при котором из дальнейшего рассмотрения исключаются точные значения долговечностей (времени до разрушения) всех тех изделий, которые не разрушились за время Т. С другой стороны, в классе оценок, построенных по цензурированным выборкам, часто можно найти оценки, хотя и не

являющиеся наилучшими в жестких рамках генеральной совокупности определенного типа, но обладающие выгодными свойствами устойчивости своих хороших качеств по отношению к тем или иным отклонениям от априорных допущений (см. выше пример со сравнением выборочного среднего и медианы).

Урезание распределения. Это понятие связано с ситуациями, когда исследуемый признак просто не может быть наблюдаем в какой-либо части области его возможных значений. Так, например, если мы исследуем распределение семей по доходу, но по условиям выборочного обследования лишены возможности наблюдать семьи со среднедушевым доходом, меньшим некоторого заданного уровня а , то в подобных случаях говорят, что распределение урезано слева в точке а. В отличие от цензурированных выборок в выборках из урезанных распределений мы не имеем возможности оценить даже доли наблюдений, располагающихся за пределами порога урезания.

Весьма подробные сведения об использовании в задачах статистического оценивания параметров взвешенных и, в частности, порядковых статистик и статистик, построенных по цензурированным выборкам, с обсуждением различных вопросов устойчивости получаемых при этом оценок читатель найдет, например, в [40, гл. 32]) и [29].

<< Предыдущий параграф Следующий параграф >>
Оглавление