Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.5. Анализ резко выделяющихся наблюдений

11.5.1. Постановка задачи.

В этом параграфе рассматриваются методы выделения наблюдений, которые сильно отклоняются от центра распределения. Иногда такие большие отклонения возникают в результате случайного просчета, неправильного чтения показаний измерительного прибора, случайного сдвига запятой в десятичной записи числа и т. д., т. е. в результате действительной ошибки. Иногда же они отражают более тонкие моменты, такие, как несоответствие в отдельных точках действительности используемой математической модели, незамеченное исследователем изменение

условий эксперимента и т. п. В любом случае с математической точки зрения речь идет о выделении наблюдений, величина которых не согласуется с распределением основной массы данных. Идентификация выделяющихся наблюдений позволяет обычно еще раз проверить условия их регистрации и процессирования и тем самым подчас выявить и устранить ошибку. Если же ошибку устранить не удается, то наблюдение обычно просто исключается из дальнейшей обработки как нетипичное.

Рассматриваемая задача разделяется на два этапа: выявление «подозрительных» наблюдений и проверка статистической значимости их отличия от основной массы данных.

Естественно, что оба этапа основываются на определенных предположениях о распределении как основной («незасоренной») части наблюдений, так и «выбросов» («засорений»). Обычно предполагается, что наблюдения незасоренной части имеют одномерное или многомерное нормальное распределение с неизвестными параметрами. При анализе отклонений наблюдений от математической модели иногда дополнительно предполагается, что среднее распределения отклонений равно нулю, т. е. что модель в среднем не вносит смещения. Относительно моделей для засорения единства предположений нет. Иногда предполагается, что выбросы имеют такую же дисперсию, что основная часть выборки, но заметно сдвинутое среднее. Иногда, что среднее не сильно отличается от среднего основной части, но зато дисперсия значительно больше. Для удобства дальнейших ссылок запишем эти предположения в более формальном виде. Пусть — результаты наблюдения, — наборы индексов из множества соответствующие незасоренной и засоренной частям выборки. Предположение о незасоренной части выборки:

    (11.77)

где от — неизвестные параметры.

Предположения о засоренной части случай сдвига среднего:

    (11.78)

и случай большой дисперсии:

    (11.79)

В случае когда из априорных соображений можно считать, что среднее основной части выборки равно нулю, (11.77) переходит в

    (11.80)

а предположения относительно засоренной части — в

Прежде чем приступить к описанию конкретных методов выделения выбросов, отметим, что чисто статистический подход к проблеме идентификации и удаления нестандартных наблюдений, развиваемый в этом параграфе, требует определенной осторожности при интерпретации данных. Предположение однородности, лежащее в основе статистических процедур, в действительности может не иметь места, и выбросы могут оказаться наиболее важными наблюдениями, проливающими свет на то, как собирались данные.

11.5.2 Графические методы.

Назовем -нормальной (half-normal) вероятностную бумагу, которая получается из нормальной вероятностной бумаги следующим образом: от нормальной бумаги отрезается нижняя полуплоскость, соответствующая значениям ординат, меньшим 0,5, и числовые значения ординат заменяются на . На -нормальной бумаге функция распределения , где изображается в виде прямой линии, выходящей из начала координат с угловым коэффициентом , т. е. с тем же угловым коэффициентом, с каким на нормальной бумаге была бы изображена функция распределения

Рассмотрим теперь случай, когда имеют место предположения (11.80) для основной части выборки и (11.81) или (11.82) — для засоренной. Если построить на -нормальной бумаге функцию распределения то полученный график должен в своей левой части хорошо аппроксимироваться прямой линией, выходящей из начала координат. Правый конец графика будет отклоняться от прямой вправо и точка его отрыва даст возможность оценить долю засорения.

В общем случае, когда имеют место модели (11.80), (11.81), (11.82), сначала любым устойчивым методом оценивают параметр (см. § 10.4) и далее наносят на -нормальную бумагу разности Свойства и интерпретация

графика такие же, что и в рассмотренном только что частном случае.

В многомерном случае, когда предполагается, что основная часть выборки имеет приближенно нормальное распределение , параметры этого закона оцениваются с помощью -моментов (см. § 10.4) при таком значении X, чтобы влияние засорения на оценку было небольшим и вместе с тем оценки имели хорошие выборочные свойства. Далее строится гистограмма распределения

    (11.83)

При сделанных предположениях эта величина должна приближенно иметь -распределение с степенями свободы. Заметное утяжеление правого конца гистограммы говорит о засорении выборки. Этот способ, хотя и носит приближенный характер, удобен на практике, так как при подсчете -моментов для каждого параметра одновременно оценивается по (11.83) и вес, с которым наблюдение входит в оценка

11.5.3. Аналитический метод исключения одного экстремального наблюдения.

Не нарушая общности, будем считать, что речь идет о максимальном наблюдении. Пусть — вариационный ряд выборки. Решающее правило для исключения экстремального члена вариационного ряда основано на статистике где и s определяются обычным образом. Распределение и процентные точки изучались К. Пирсоном [130], Н. В. Смирновым], Ф. Граббсом [113]. Таблица критических значений рассчитанная Граббсом, может быть найдена в [16]. Если больше соответствующего критического значения, то гипотеза о наличии выброса принимается, если же меньше критического значения, то со статистической точки зрения нет оснований говорить о наличии выброса.

Отмеченная в § 10.4 неустойчивость оценок и s к отклонениям распределения от нормальности снижает практическую ценность изложенного критерия. Опираясь на устойчивые оценки параметров сдвига и масштаба, можно сконструировать более устойчивые критерии типа

Если в выборке подозревают несколько экстремальных значений, то критерий сначала применяется к максимальному из них. Если оно признается выбросом, то его удаляют из выборки, и критерий, применяется к следующему по величине и т. д. до тех пор, пока не будет признано, что выбросов

больше нет. Одна из трудностей такого итерационного подхода состоит в том, что подозрительные наблюдения часто группируются близко друг к другу, образуя группу в стороне от основной массы наблюдений, что делает итерационную процедуру, основанную на использовании и s, нечувствительной к ним. Так же, как и в п. 11.5.2, здесь можно рекомендовать заменить и s на соответствующие моменты (см. § 10.4 и [56], [57]).

11.5.4. Аналитический критерий одновременного исключения нескольких экстремальных наблюдений.

Излагаемый ниже критерий принадлежит Г. Титьену и Г. Муру [138]. Нулевая гипотеза, как обычно, состоит в том, что выборка извлечена из нормальной совокупности. Решающее правило для исключения k наибольших членов вариационного ряда основано на статистике

    (11.84)

где — среднее первых членов вариационного ряда, среднее всей совокупности. При наличии выбросов статистика должна быть меньше критического предела, рассчитанного для нормального распределения. Таблицы критических значений для можно найти в [76].

Если в выборке возможны выбросы и влево, и вправо, то для оценки их значимости изложенное выше правило должно быть модифицировано. Модификация близка к приему, описанному в п. 11.5.2, и состоит в следующем. Сначала по выборке вычисляется затем абсолютные отклонения . Построим вариационный ряд из абсолютных отклонений и обозначим его элементы Пусть — средняя арифметическая из первых членов вариационного ряда, тогда модифицированный критерий имеет вид:

    (11.85)

Недостатком изложенного критерия является то, что он опирается на статистики, сильно зависящие от предположений нормальности, а также и то, что в практической работе k никогда заранее не известно, а оценивается по тем же данным, к которым затем применяется статистика и s. Последнее обстоятельство, как было показано Г. Титьеном и Г. Муром, существенно влияет на фактический критический уровень критерия, что лишний раз является аргументом в пользу «наивных» графических методов.

<< Предыдущий параграф Следующий параграф >>
Оглавление