Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.4. Методы статистической обработки при наличии «стертых» (пропущенных) наблюдений

В настоящем разделе описываются методы обработки матрицы данных вида X в случае, когда в ней отсутствует часть измерений (см. § 1.1). Мы будем полагать, что отсутствие значения какого-либо признака у некоторого объекта (столбца матрицы данных) связано с причинами технического характера, например с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение признака стало неизвестным и т. д., но не с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных значений, либо оценить сами пропущенные значения, либо то и другое вместе. Две последние задачи требуют больше исходных допущений, чем задача оценки параметров. Методы их решения основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.

Введем для дальнейшего следующие определения и обозначения. Комплектным объектом (столбцом) назовем объект, у которого измерены значения всех признаков. Аналогично комплектным признаком (комплектной строкой) назовем признак, который измерен у всех объектов. Множество объектов с измеренным признаком будем обозначать через , а число таких объектов — через Для множества объектов, у которых измерены признаки используется обозначение и для числа таких объектов —

Простой подход к обработке пропущенных данных состоит в выделении максимально возможного фрагмента исходной матрицы данных, в котором все строки и столбцы будут комплектными. Когда выборка содержит достаточное число комплектных объектов и задача заполнения пропусков не является целью обработки, этот подход следует признать наиболее целесообразным. Однако в условиях выборок малых и средних объемов и высокой стоимости измерений естественно попытаться использовать всю имеющуюся информацию.

11.4.1. Оценивание неизвестных параметров при наличии пропущенных данных.

Один из самых старых и простых способов обработки данных с пропусками состоит в замене

пропущенных значений признака его средним арифметическим значением, которое оценивается по имеющимся реализациям. Далее заполненная матрица данных обычным образом используется, например, для оценивания элементов ковариационной матрицы (см. 10.21). Получаемая при этом оценка ковариационной матрицы будет, очевидно, смещенной, в частности, диагональные элементы (дисперсии) будут смещены в сторону уменьшения. Смещение дисперсий легко устраняется оцениванием их только по измеренным значениям соответствующих признаков. С другой стороны, смещение недиагональных элементов нельзя учесть без дополнительных предположений о распределении пропусков в матрице данных.

Приведем один результат в этом направлении, полученный В. П. Булыгиным [32].

Предположим, что возникновение пропуска значения признака есть случайное событие, статистически независимое от измерения других признаков у данного объекта и от измерения на других объектах. Пусть есть оценка элемента ковариационной матрицы, полученная после подстановки средних значений. Тогда несмещенная оценка для элемента будет:

Однако независимость возникновения пропусков редко имеет место в практических ситуациях. Поэтому более надежным является оценивание вектора средних значений и матрицы ковариаций только по имеющимся измерениям. В качестве оценки среднего значения и дисперсии признака как и ранее, используются среднее арифметическое и средний квадрат отклонения, оцененные пр имеющимся измерениям этого признака, а недиагональные элементы ковариационной матрицы оцениваются по всем объектам, у которых измерена соответствующая пара признаков

    (11.68)

Очевидно, для получения оценки недиагонального элемента необходимы по крайней мере два объекта с измеренной парой значений признаков Оценка (11.69) несмещена и будет состоятельна, если все стремятся к бесконечности с ростом п.

Важной величиной, характеризующей достоверность и точность оценок (11.68), (11.69), являются числа степеней свободы соответствующих этим оценкам. Число можно интерпретировать как эффективный объем выборки, по которому оценена матрица ковариаций, т. е. можно сказать, что оценка (11.69) имеет такую же точность, как оценка матрицы ковариаций, полученная по выборке объема без пропущенных значений. Аналогичный смысл имеет величина для вектора средних значений.

В [99] предложено использовать следующие значения для

т. е. величины, обратные среднему геометрическому числу объектов из Величины (11.70) следует подставлять, например, в критерии проверки гипотез согласия и однородности в многомерном случае (см. п. 11.2.7).

Как оценка (11.67), так и оценка (11.69) для матрицы ковариаций в отличие от стандартной оценки (10.21) могут не быть неотрицательно определенными при малых объемах выборок. В частности, они могут иметь отрицательные ственные числа.

Другие оценки матрицы ковариаций и вектора средних значений, получающиеся одновременно с заполнением пропусков, рассмотрены в п. 11.4.3.

<< Предыдущий параграф Следующий параграф >>
Оглавление