Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.6.4. Вариационный ряд и порядковые статистики.

Выше отмечалось, что выборка, т. е. совокупность имеющихся у нас наблюденных значений исследуемой случайной величины 1, является той исходной информацией, той статистической базой, на основании которой исследователь строит свои выводы о свойствах изучаемой генеральной совокупности в целом и, в частности, составляет представление о функции и полигоне распределения или плотности анализируемого закона распределения вероятностей (см. § 5.5, 10.3 и 10.4). Оказывается, и каждый член выборки в отдельности может доставлять важную информацию о характере анализируемого закона распределения, если наблюдения предварительно расположить в порядке возрастания. Так, например: наименьшее и наибольшее выборочные

значения (соответственно ) дают приближенное представление о диапазоне изменения возможных значений исследуемого признака, а их разность о степени случайного разброса его наблюдаемых значений; средний член упорядоченного ряда наблюдений — медиана характеризует центр группирования наблюдений изучаемой случайной величины и т. д. Все это говорит о целесообразности специального рассмотрения ряда наблюдений, расположенных в порядке возрастания.

Итак, пусть — выборка, состоящая из независимых наблюдений исследуемой случайной величины с непрерывной функцией распределения и плотностью вероятности (ограничимся здесь, как обычно, рассмотрением только таких непрерывных случайных величин).

Если все расположены в порядке возрастания и члены такой возрастающей последовательности обозначены т. е.

то каждый из называется порядковой статистикой, а соответствующая возрастающая последовательность

— вариационным рядом случайной величины

Аппарат порядковых статистик широко используется как в теории и практике статистического оценивания неизвестных параметров и статистических критериев (особенно при построении устойчивых и «свободных от распредежния оценок и критериев, см. п. 8.6.4, § 10.3, а также § 11.1-11.3), так и непосредственно при моделировании реальных систем и процессов (см., например, [2], [3]). Однако при исследовании качества оценок, критериев и моделей, полученных с использованием порядковых статистик, необходимо иметь представление об их поведении при возможных повторениях выборки, т. е. надо уметь описывать законы их распределения вероятностей в схеме гипотетического варианта интерпретации выборки, когда члены вариационного ряда интерпретируются не как конкретные числовые значения, а как случайные величины. И хотя члены вариационного ряда (5.27) в отличие от членов исходной выборки уже не являются взаимно независимыми (по причине своей предварительной упорядоченности) и соответственно их частные распределения уже не являются одинаковыми, описываемыми, в частности, одной и той же плотностью , однако они легко могут быть описаны в терминах этой плотности и соответствующей функции распределения

Несложно подсчитать, в частности, что плотность распределения порядковой статистики вариационного ряда (5.27) определяется соотношением

(при доказательстве этого факта используется модель полиномиального закона распределения, см. § 6.1).

Исчерпывающие сведения о поведении членов вариационного ряда доставляются, естественно, совместным законом распределения Вычисление такой плотности (в терминах ) не вызывает

принципиальных трудностей, однако реализуется в виде весьма громоздких выражений, сводящихся, вообще говоря, к квадратурам некоторых интегралов. Приведем здесь лишь несколько примеров распределений порядковых статистик и функций от них, являющихся наиболее актуальными с прикладной точки зрения.

Совместное распределение порядковых статистик описывается плотностью

где коэффициент определяется по формуле

В частности, при т. е. для совместного распределения крайних членов вариационного ряда получаем плотность вероятности

Одной из важных функций от порядковых статистик, встречающейся во многих приложениях, является размах используемый, в частности, наряду с рассмотренными в п. 5.6.3 выборочной дисперсией, среднеквадратическим отклонением и коэффициентом вариации в качестве эмпирической характеристики степени случайного рассеивания исследуемого признака. Формула позволяет получить функцию распределения размаха

интегрирование в правой части (5.30) производится по области всех возможных значений случайной величины ?.

Приведем пример использования аппарата порядковых статистик при вероятностно-статистическом моделировании экономических явлений. В работе 13] этот аппарат используется для построения прогностических моделей распределения семей и их членов по величине среднедушевого дохода и, в частности, для модельного исследования структуры и характера взаимосвязей между распределениями: по заработной плате всех работников только первых,

только вторых и т. д. работников в семьях, содержащих работающих членов (здесь ) по величине заработная плата в семье); и семей по среднедушевому доходу Описанные в [3] модели позволили, в частности, весьма точно восстанавливать распределения по известному распределению всех работников по размерам их заработной платы, а также вычислять различные характеристики статистической связи между заработной платой работника в семье и среднедушевым доходом с одной стороны, и заработной платой наугад выбранного работника — с другой, не проводя специальных статистических обследований в генеральных совокупностях работников) и (семей). Так, например, в пределах совокупности семей, имеющих двух работающих членов, функции плотности для распределений заработной платы отдельно первых и отдельно вторых работников могут быть восстановлены по закону распределения заработной платы всех работников с помощью формул:

<< Предыдущий параграф Следующий параграф >>
Оглавление