Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.5. Способы задания закона распределения: функция распределения, функция плотности и их выборочные (эмпирические аналоги)

5.5.1. Функция распределения вероятностей одномерной случайной величины.

Как установлено выше (см. § 5.4), всякая генеральная совокупность (случайная величина) определяется своим законом распределения вероятностей Поскольку интересующие нас области могут быть в общем случае подмножествами общей природы, то возникает вопрос: каковы те способы задания числовых функций , определенных на подмножествах , которые были бы достаточно удобны в плане конструктивном, практическом?

Оказывается, для описания распределений одномерных случайных величин достаточно задать способ вычисления вероятностей лишь для подмножеств некоторого специального вида, а именно лишь для полузамкнутых слева интервалов вида

где минимально возможное значение исследуемой случайной величины (оно может быть равно и ), а х - любое «текущее» (т. е. задаваемое нами) возможное значение Вероятность же однозначно определяется заданием правого конца интервала, т. е. числа а потому может интерпретироваться как обычная функция от одного числового аргумента

Функцией распределения вероятностей (накопленной частотой) случайной величины называют функцию, ставящую в соответствие любому заданному значению величину вероятности события т. е.

В дальнейшем, если это не будет вызывать недоразумении, будем опускать нижний индекс у функции F и называть ее просто «функцией распределения».

Рассмотрим поведение функции распределения. Во-первых, отметим, что в дискретном случае событие состоит из всех элементарных событий таких, что Поэтому в соответствии с определением вероятности составного события (см. п. 4.1.3) имеем

(суммирование в правых частях (5.5) проводится по всем тем i, для которых

Из (5.5) видно, что значения функции изменяются при увеличении аргумента скачками, а именно при «переползании» величины через очередное возможное значение функция скачком увеличивает свое значение на величину

Несколько иную картину мы будем наблюдать, анализируя поведение функции распределения в случае непрерывного исследуемого признака Подавляющее большинство представляющих практический интерес непрерывных случайных величин обладают тем свойством, что для любого отрезка вероятности стремятся к нулю по мере стремления к нулю длины этого отрезка, и, следовательно, вероятности принятия отдельных возможных значений равны нулю (конкретный пример такого рода приведен в п. 4.2.2 в задаче с экспертным оцениванием вероятности интересующего нас события). Нетрудно понять, что для таких случайных величин их функции распределения

оказываются непрерывными. На рис. 5.4, а-г представлены графики функций распределения случайных величин, рассмотренных соответственно в примерах 4.1, 4.2, 4.5 (с учетом табл. 5.2) и в примере с экспертным оцениванием вероятности интересующего нас события (п. 4.2.2).

Рис. 5.4. Графики функций распределения для: а — оцифрованного результата подбрасывания монеты (нуль соответствует аверсу, единица — реверсу); б — числа очков, выпадающих при бросании правильной игральной кости; в — числа дефектных изделий, обнаруженных в наугад выбранной партии, состоящей из 30 изделий (см. табл. 5.2); г — экспертной оценки вероятности интересующего нас события (при полной некомпетентности экспертов), см. примеры п. 2.1.3 и 4.2.2

Из определения функции распределения непосредственно вытекают следующие ее основные свойства:

а) — неубывающая функция аргумента х;

б) для всех

в) для всех соответственно минимальное и максимальное возможные значения исследуемой случайной величины ;

г) для любых заданных значений а и b (для доказательства последнего свойства следует воспользоваться теоремой сложения вероятностей (см. п. 4.1.3), а также тем обстоятельством, что события связаны между собой соотношением

В практике статистической обработки данных точный вид функции распределения, как правило, бывает неизвестен. Эмпирическим (или выборочным, т. е. построенным по выборке объема ) аналогом теоретической функции распределения является функция определяемая соотношениями:

или, в случае группированных данных (см. п. 5.4.2),

где — число наблюденных значений исследуемой случайной величины в выборке меньших — число наблюденных значений в выборке, попавших в интервал группирования, — номер самого правого из интервалов группирования, правый конец которых не превосходит Из определения эмпирической функции распределения непосредственно следует объяснение часто используемого ее другого названия — «накопленная частота». Свойство статистической устойчивости относительных частот (см. § 7.2) является основанием использования в качестве приближенного значения неизвестной теоретической функции распределения и того факта, что по мере роста объема выборки (т. е. при ) ошибка этой аппроксимации неограниченно убывает. Такая оценка значений т. е. оценка, не связанная с предварительным выбором общего модельного вида этой функции, называется непараметрической. Более подробные сведения, относящиеся к статистическому изучению эмпирических функций распределения, даны в § 10.3 и 11.1.

5.5.2. Функция плотности вероятности одномерной случайной величины. В классе таких непрерывных случайных величин, функции распределений которых всюду непрерывны и дифференцируемы как уже отмечалось, этот класс охватывает подавляющее большинство представляющих практический интерес непрерывных случайных величин), другой удобной формой задания генеральной совокупности (исследуемой случайной величины ) является функция плотности вероятности определяемая как предел

или, что то же,

— это производная функции распределения в точке Из эквивалентных соотношений (5.7) и (5.7), определяющих функцию плотности вытекают непосредственно следующие ее свойства:

а) так как функция неубывающая;

б) Для малых отрезков А (следует из сравнения первых двух членов тождества );

в) для любых х;

г) для любых ;

Прокомментируем некоторые из этих свойств функции плотности.

Свойство б) позволяет пояснить вероятностный смысл функции плотности. Так, предположив для определенности область возможных значений исследуемой случайной величины конечной и разбив ее на одинаковые и достаточно мелкие интервалы группирования с центрами

и т. д., мы можем поставить в соответствие каждому

интервалу вероятность осуществления событий

приближенно равную в соответствии со свойством б) величине . Таким образом, по своему смыслу значения функции пропорциональны вероятности того, что исследуемая случайная величина примет значение где-то в непосредственной близости от точки Этот факт, в частности, может служить основанием к тому, что дискретным аналогом функции плотности в случае дискретной случайной величины является полигон частот, т. е. последовательность точек с координатами . Отсюда же следует, что наиболее вероятным (модальным) значением исследуемой непрерывной случайной величины является такое ее возможное значение , в котором функция плотности достигает своего максимума, т. е.

Рис. 5.5. Функции (а) распределения норм и (б) плотности h норм нормального закона

Геометрическая интерпретация свойства г) состоит в том, что вероятность события оказывается (при любых заданных равной площади «столбика» под кривой плотности с основанием

На рис. 5.5 показаны функции распределения и плотности одного из распространенных законов распределения — нормального (подробнее см. § 6.1 и 7.3). Заштрихованная площадь на рис. 5.5, б дает геометрически наглядное представление о величине вероятности

Располагая лишь выборочными данными (выборкой) мы должны суметь составить по ним приближенное представление о неизвестной теоретической функции плотности . Если нас интересует малый отрезок и мы подсчитали, что в этот отрезок попало наблюдений нашей выборки, то, очевидно, выборочным аналогом величины

будет величина

Очевидно, значение характеризует плотность наблюдений исследуемой случайной величины в окрестности точки т. е. относительную частоту этих наблюдений, приходящуюся на единицу длины интервала ее возможных значений. Поэтому функцию определенную соотношением (5.8), называют эмпирической (или выборочной) функцией плотности. Это же обстоятельство может служить основанием выбора такой терминологии и применительно к теоретической плотности так как в соответствии со свойством статистической устойчивости частот (см. § 7.2) эти две характеристики неограниченно сближаются в процессе увеличения объема выборки и сужения длины интервала

Для построения эмпирической функции плотности на всей области ее определения (т. е. для всех возможных значений исследуемой величины) используют предварительно сгруппированные данные (см. п. 5.4.2) и полагают

где — порядковый номер того интервала группирования, который накрывает точку как и прежде, число наблюдений, попавших в этот интервал, и его длина соответственно. Геометрическое изображение таким образом определенной эмпирической функции плотности носит название гистограммы.

Пример 5.2. Объект (совокупность единиц) обследования — 995 телефонных абонентов города Буффало,

штат Нью-Йорк. Цель обследования — фиксация общего числа телефонных разговоров за год на каждом абоненте. Таким образом, в данном случае число телефонных разговоров в году на обследованном абоненте. В табл. 5.4 приведены выборочные данные, сгруппированные методом, описанным в п. 5.4.2.

Таблица 5.4

Были выбраны число интервалов группирования и соответственно длина интервала группирования Графики соответствующих эмпирической (гистограмма) и теоретической плотностей приведены на рис. 5.6 (для построения теоретической кривой плотности в нормальную модель распределения, см. § 6.1, подставлялись вместо неизвестных параметров — среднего а и дисперсии значения соответствующих выборочных характеристик а и см. § 10.4).

Более подробные сведения о методах построения эмпирических функций плотности и их статистического анализа приводятся в § 10.3, 10.4, 11.1 и 11.2.

<< Предыдущий параграф Следующий параграф >>
Оглавление