Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.1.3. Основные этапы статистической обработки исходных данных.

Попытаемся теперь описать общую логическую схему статистического анализа исходных данных. Для пояснения роли и места основных приемов статистического моделирования и методов первичной статистической обработки исходных данных удобно разложить эту схему на основные этапы исследования. Подобное разложение носит, конечно, условный характер. В частности, оно не означает, что этапы осуществляются в строгой хронологической последовательности один за другим. Более того, многие из этапов (например, этапы 4, 5 и 6) находятся, в плане хронологическом, в соотношении итерационного взаимодействия: результаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом новой информации) предыдущих этапов.

Этап 1: исходный (предварительный) анализ исследуемой реальной системы. В результате этого анализа определяются: а) основные цели исследования на неформализованном, содержательном уровне; б) совокупность единиц, представляющая предмет статистического исследования; в) перечень отобранных из представленного специалистами априорного набора показателей, характеризующих состояние (поведение) каждого из обследуемых объектов, который предполагается использовать в данном исследрвании; г) степень формализации соответствующих записей при сборе данных; д) общее время и

трудозатраты, отведенные на планируемые работы, и коррелированные с ними временная протяженность и объем необходимого статистического обследования; е) моменты, требующие предварительной проверки перед составлением детального плана исследования (например, не всегда априори ясна возможность идентификации единиц наблюдения, в медицинских исследованиях не всегда может быть получено согласие больного следовать определенным рекомендациям медперсонала и т. п.); ж) формализованная постановка задачи, по возможности включающая вероятностную модель изучаемого явления, и природа статистических выводов, к которым должен (или может) прийти исследователь в результате переработки массива исходных данных; з) формы, используемые для сбора первичной информации и для введения ее в ЭВМ.

По затратам сил наиболее квалифицированного персонала, участвующего в работе, трудоемкость первого этапа работы весьма значительна и бывает даже сравнима с суммарной трудоемкостью всех остальных этапов при условии, что обработка проводится с помощью подходящего пакета программ. Поэтому максимального развития заслуживают методы машинного ассистирования в проведении этой части работы. Оно может заключаться в подсказке (с одновременной оценкой) форм документации для сбора первичной информации, методов построения контрольной или «псевдоконтрольной» групп при изучении какого-либо воздействия (что особенно актуально для медицинских приложений), подходящих моделей, в ведении тезауруса исследования и т. п.

Этап 2: составление детального плана сбора исходной статистической информации. При составлении этого плана необходимо, по возможности, учитывать полную схему дальнейшего статистического анализа, о чем часто забывают. Априорное представление о том, как и для чего данные будут анализироваться, может оказать существенное влияние на их сбор. При планировании особого внимания заслуживают случаи, когда: а) используется аппарат общей теории выборочных обследований (см., например,

[43]), т. е. определяется, какой должна быть выборка — случайной, пропорциональной, расслоенной и т. п.; б) производится расчет «разрешающей силы» исследования заданного объема и продолжительности (см., например, [127], где оценивается сверху число возможных статистически значимых ассоциаций между риск-факторами и частотой заболеваний, или [102], где предлагается простейшая модель для феноменологического описания действия лечебного фактора); в) хотя бы для части входных переменных эксперимент носит активный характер: переменные допускают фиксацию в каждом конкретном наблюдении на определенном уровне, и выбор плана обследования осуществляется с привлечением методов планирования (регрессионных) экспериментов (см., например, ). В некоторых руководствах по общей теории статистики (см., например, [64, с. 274]) этот этап называют этапом «организационно-методической подготовки». Как уже сказано выше, вопросы разработки методологии определения априорной системы показателей, характеризующих исследуемый объект или процесс, вынесены за рамки описываемых здесь этапов и должны быть отнесены к области конкретно-содержательной статистики (экономической, медицинской и т. п.).

Этап 3: сбор исходных статистических данных и их введение в ЭВМ. Одновременно в ЭВМ вносятся полные и краткие (для автоматизированного воспроизводства в таблицах) определения используемых терминов. В пакете должны быть предусмотрены специальдые меры, исключающие или резко уменьшающие возможность появления расчетов не с тем подмножеством данных или не для той подгруппы объектов.

Таким образом, независимо от того, производится ли исследователем выбор метода и плана статистического обследования или он уже располагал результатами так называемого пассивного эксперимента, к моменту определения основного инструментария статистического исследования исследователь в общем случае располагает в качестве массива исходных статистических данных временной последовательностью матриц наблюдений вида

где значение k-го признака, характеризующего состояние t-го объекта в момент времени t. Однако бывают случаи, когда случайны для каждого объекта. Так, например, может быть в медицинских исследованиях, когда

вектор, характеризующий то, как протекает обострение больного, и за один и тот же промежуток времени у различных больных может быть разное число обострений. В этом случае матрицы будут иметь для разных больных (т. е. для разных ) разную размерность. Более того, в медицинских исследованиях отдельные координаты могут быть записаны не с помощью цифр, а текстом. Подобные особенности в представлении исходных данных характерны и для социологических и, в меньшей степени, для экономических исследований.

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состояние объекта в момент а характеристика попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами отнесенная к моменту времени t. В этом случае исследователь располагает в качестве массива исходных статистических данных временной последовательностью матриц размера (если рассматриваются характеристики попарной близости объектов) или (если рассматриваются характеристики попарной близости признаков) вида

Очевидно, что от формы запису (1.4) можно непосредственно перейти к (1.4) (при наличии заданной метрики

в пространстве объектов и в пространстве признаков). Однозначный обратный переход от (1.4) к (1.4) без дополнительных предположений и специальных методов (скажем, многомерного шкалирования, см. [122]), в общем, невозможен. Возможны и другие формы представления геометрической структуры исходных данных, однако мы не будем здесь на них останавливаться.

В целях упрощения обозначений в наших дальнейших рассуждениях, если специально не оговорено противное, мы будем рассматривать статический вариант схемы, т. е. ситуацию, в которой нас будет интересовать массив исходных данных (1.4) или (1.4), отнесенный лишь к одному какому-то фиксированному моменту времени обозначение которого будем опускать.

Этап 4: первичная статистическая обработка данных. В ходе первичной статистической обработки данных обычно решаются следующие задачи: а) отображение переменных, описанных текстом, в номинальную (с предписанным числом градаций) или ординальную (порядковую) шкалу; б) статистическое описание исходных совокупностей с определением пределов варьирования переменных; в) анализ резко выделяющихся наблюдений; г) восстановление пропущенных наблюдений; д) проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных; е) унификация типов переменных, когда с помощью различных приемов добиваются унифицированной записи всех переменных; ж) экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация сведений о природе изучаемых распределений (иногда этот этап называют процессом составления сводки и группировки [64, с. 274—275]). Кроме того, этап 4 включает в себя вычислительную реализацию решения следующих вопросов: учет размерности и алгоритмической сложности задачи и одновременно возможностей используемой ЭВМ; формулировку задачи на входном языке пакета и т. п. (см. подробнее об этом в описании этапа 6).

Остановимся на некоторых из затронутых вопросов подробнее.

Анализ резко выделяющихся наблюдений.

Часто даже беглый предварительный просмотр (визуальный или автоматизированный) исходных данных (1.4) или (1.4) может вызвать у исследователя сомнения в истинности (или правомерности) отдельных наблюдений, слишком резко

выделяющихся на общем фоне. В этих случаях возникает вопрос: вправе ли мы объяснить обнаруженные резкие отклонения в исходных данных (аномальные выбросы) лишь обычными случайными колебаниями выборки (которые обусловлены природой анализируемой генеральной совокупности) или здесь дело в существенных искажениях стандартных условий сбора статистических данных, а возможно, и в прямых ошибках регистрации (записи)? В последних двух случаях «подозрительные» наблюдения, очевидно, следует исключить из дальнейшего рассмотрения.

Единственным абсолютно надежным способом решения вопроса об исключении резко выделяющихся результатов наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях проведение такого содержательного анализа объективно затруднительно или принципиально невозможно. Тогда необходимо обратиться к соответствующим формальным (статистическим) методам. Общая логическая схема этих методов следующая: отправляясь от исходных допущений о природе анализируемой совокупности данных, исследователь задается функцией

от всех имеющихся наблюдений X, характеризующей степень аномальности (меру удаленности от основной массы наблюдений) «подозрительных» наблюдений а затем подставляет в (1.5) реальные значения наблюдений и сравнивает величину с некоторым пороговым значением если то подозрительные наблюдения или полностью исключаются из дальнейшего рассмотрения, или их вклад уменьшается с помощью весовой функций, убывающей по мере роста степени аномальности наблюдений.

С различными вариантами методов анализа резко выделяющихся наблюдений читатель познакомится в § 11.5 (см. также [6], [76]).

Восстановление пропущенных (стертых) наблюдений.

В матрицах исходных статистических данных (1.4) или

(1.4) по разным причинам (в том числе и в результате исключения резко выделяющихся наблюдений) могут быть пропуски отдельных элементов или каких-то частей строк или столбцов. Исключать по этой причине из дальнейшего рассмотрения весь объект (столбец, в котором обнаружены пропуски) или признак (строку, в которой обнаружены пропуски) слишком расточительно с точки зрения потери полезной информации. Поэтому возникает задача наилучшего в некотором смысле восстановления пропущенных (стертых) данных. Конкретизация критерия качества восстановления стертых данных производится в зависимости от характера последующей обработки исходных данных, т. е. в зависимости от окончательных целей исследования (см. § 11.4, а также [35], [66], [95]).

Проверка однородности нескольких порций исходных данных.

Объективные условия сбора исходных статистических данных, особенно в ситуациях пассивного эксперимента, могут быть такими, что общая (-матрица наблюдений (см. (1.4)) получается составлением -матриц (частных) наблюдений соответственно где каждая из частных матриц задает порцию исходных данных, относящихся к некоторой подсовокупности, состоящей из объектов. При этом процессы (моменты) обследования этих совокупностей могут быть разделены в пространстве (во времени).

Очевидно, перед тем как подвергать исходные данные основной статистической обработке (т. е. применять к ним те или иные методы прикладного статистического анализа, выбор которых обусловлен конечными целями исследования), исследователь должен ответить на вопрос: правомерно ли объединение имеющихся в его распоряжении порций (выборок) в один общий массив или же каждая из порций имеет свою специфику и, следовательно, и обрабатывать их надо по отдельности? В рамках математикостатистических моделей этот вопрос сводится к выяснению помощью соответствующих статистических критериев), можно ли считать порции данных различными выборками из одной и той же генеральной совокупности (см., например, [12]). Очевидно, что если причиной дробления на порции массива была временная разделенность соответствующих порций, то речь идет о статистической проверке стационарности соответствующих многомерных временных рядов.

Проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных.

Применение многих статистических методов является правомерным лишь в ситуациях, когда справедливо допущение о статистической независимости обрабатываемого ряда наблюдений Этот же вопрос возникает и применительно к рядам Поэтому, перед тем как подвергнуть имеющиеся результаты наблюдения основной статистической обработке, необходимо выяснить (с помощью соответствующих статистических критериев (см. § 11.3)), являются ли они статистически независимыми или их следует рассматривать как последовательности взаимозависимых величин.

Унификация типа переменных. Одна из сложностей автоматизированного анализа информации заключается в том, что среди компонент анализируемого многомерного признака могут быть показатели трех разных типов: количественные, качественные (порядковые, ординальные) и классификационные (номинальные). Их определение и сущность, а также основные формы записи их наблюдаемых значений приведены в § 5.3 и 10.2.

В связи с этим возникает вопрос унификации записи единичного наблюдения, снятого с объекта i. В соответствии с одним из вариантов решения этого вопроса многомерное наблюдение в унифицированной записи представляется вектор-столбцом размерности где — число градаций (интервалов группирования, уровней качества или однородных групп) признака причем компонентами этого вектор-столбца могут быть только нули или единицы. При таком подходе к достижению единообразия записи наблюдений многомерного признака смешанной природы мы вынуждены мириться, во-первых, с элементами субъективизма в выборе способов разбиения диапазонов изменения анализируемых количественных признаков на интервалы группирования и, во-вторых, с определенной потерей информативности исходных данных, связанной с переходом от индивидуальных к группированным значениям по- количественным переменным.

В качестве альтернативного подхода к способу унификации записи исходных данных может быть использована идея, прямо противоположная той, на основании которой построен только что описанный прием. В частности, руководствуясь некоторыми дополнительными соображениями (и допущениями), исследователь пытается преобразовать

качественные и классификационные переменные в количественные, используя процесс так называемой «оцифровки», или шкалирования, неколичественных переменных, а также некоторые специальные модели (Терстоуна, Лазарсфельда и др.), см. § 10.2, а также [31], [57], [88], [134].

Экспериментальный анализ закона распределения исследуемой генеральной совокупности и вопрос ее подходящей параметризации.

Эта часть предварительной статистической обработки исходного массива данных, представленных в виде (1.4), включает в себя вычисление основных числовых характеристик распределения: среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, а в многомерном случае — и элементов выборочной ковариационной матрицы. Кроме того, исследователь проводит численный и графический анализ одномерных законов распределения рассматриваемых показателей, заключающийся в построении соответствующих полигонов частот, гистограмм, эмпирических функций распределения. Результаты этого экспериментального анализа, дополненные априорными сведениями о природе анализируемой генеральной совокупности, зачастую оказываются достаточными для формулировки одной или нескольких конкурирующих гипотез об общем (параметрическом) виде закона распределения вероятностей, задающего эту генеральную совокупность. Не следует пренебрегать такой возможностью, поскольку знание общего вида вероятностного распределения в исследуемой генеральной совокупности позволяет сделать наилучший выбор метода статистического оценивания параметров этого распределения, а также метода последующей основной статистической обработки массива исходных данных (из набора конкурирующих методов). Как известно, выяснение непротиворечивости высказанной исследователем гипотезы об общем виде распределения анализируемых наблюдений с природой и спецификой имеющихся в распоряжении исследователя конкретных исходных данных осуществляется с помощью тех или иных статистических критериев согласия (см. § 10.3 и 11.1).

Этап 5: составление детального плана вычислительного анализа материала. Этап начинается с составления справки по собранному материалу и результатам предварительного анализа. Определяются основные группы, для которых будет проводиться дальнейший анализ. Пополняется и уточняется тезаурус содержательных понятий.

Четко описывается блок-схема анализа с указанием привлекаемых методов. Формулируется оптимизационный критерий, на основании которого выбирается один из альтернативных методов (или одно из альтернативных семейств методов) основной статистической обработки исходных данных (см. § 1.2).

Этап 6: вычислительная реализация основной части статистической обработки данных. Основная забота исследователя на этом этапе — эффективное управление вычислительным процессом путем формулировки задачи обработки и описания данных на входном языке пакета. Учитываются размерность задачи, алгоритмическая сложность вычислительного процесса, возможности используемой ЭВМ (длина слова, быстродействие, объем оперативной памяти, организация базы данных и т. п.) и, наконец, особенности данных (степень обусловленности используемых при реализации линейных процедур матриц, надежность априорных оценок параметров и т. п.).

Этап 7: подведение итогов исследования. Этап начинается с построения формального статистического отчета о проведенном исследовании. При интерпретации результатов применения статистических процедур (оценка параметров, проверка гипотез, отображения в пространство меньшей размерности, классификация и т. п.) учитывается как место этих процедур в блок-схеме анализа, так и соотношение объемов используемых выборок, размерности пространства наблюдений, числа и значений параметров. Теоретически эти вопросы, несмотря на их крайнюю актуальность, разработаны довольно мало. Как исключение можно назвать работы [27], [58], [59]. В тех случаях, когда при интерпретации результатов вычислений нельзя опереться на теоретические утверждения, может оказаться полезным использование имитационного статистического моделирования (см. § 3.3 и 6.3).

Затем результаты исследования, его основные выводы формулируются в содержательных терминах. Если исследование проводилось в рамках математико-статистических методов и моделей, то его выводы формулируются в терминах оценок неизвестных параметров анализируемой системы или в видеответа на вопрос о справедливости проверяемой статистической гипотезы и сопровождаются гарантируемыми количественными оценками степени их достоверности. Если же исследование осуществлялось средствами

анализа данных (т. е. в рамках второго подхода), то его выводы не претендуют на вероятностную интерпретацию.

В заключение проверяется, в какой мере достигнуты намеченные на этапе 1 содержательные цели работы, и, если достигнуты не все из них, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

В некоторых руководствах по общей теории статистики (см., например, [64]) этапы 5, 6 и 7 объединены в одном этапе, названном «Обработка и анализ».

Резюмируя описание общей логической схемы статистического анализа исходных данных, отметим, что основные приемы статистического моделирования и методы первичной статистической обработки являются главными в ходе реализации важнейших этапов 1, 4 и 7, а также по мере необходимости могут привлекаться при реализации этапов 3, 5 и 6.

<< Предыдущий параграф Следующий параграф >>
Оглавление