Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Раздел IV. ПЕРВИЧНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

Глава 10. ОПИСАТЕЛЬНАЯ СТАТИСТИКА

10.1. Документирование исследования; организация ввода и хранения данных в ЭВМ; просмотр данных

10.1.1. Документация.

Даже для малых по объему разовых статистических исследований полностью окупаются усилия, затраченные на своевременное и полное описание используемых массивов, входящих в них переменных и всех шагов статистического анализа. Раннее и тщательное изготовление документации снимает много недоразумений. Большие статистические исследования выполняются коллективно, состав участников работы частично меняется в процессе ее осуществления, обработка собранных материалов растягивается во времени и проводится итеративно, когда вновь и вновь обращаются к данным для проверки возникающих по ходу анализа гипотез. Во многих исследованиях (например, медицинских) часто к тому же происходит постоянное пополнение данных новыми сведениями. В этих условиях продуманное и тщательное ведение документации становится просто необходимым как важнейшее условие обеспечения преемственности в осуществлении исследования. Остановимся кратко на отдельных аспектах этого процесса.

Паспортизация исследования, массивов, переменных, способов анализа. Для каждого из указанных выше объектов желательно в ЭВМ иметь следующее: 1) краткое имя, обязательно появляющееся во всех выдачах; 2) полное имя, идущее в основном в отчеты, но иногда и в выдачи, когда краткого имени недостаточно для однозначного понимания их смысла; 3) описание, которое для исследований кратко раскрывает содержание работы и указывает связь между массивами; для массивов уточняет условия их сбора или формирования; для переменных дает способ их получения, измерения или регистрации; для способа анализа — ссылки на источники, где может быть найдено точное описание метода. Описания используются в основном при формировании

отчетов и иногда в качестве вспомогательного комментария, облегчающего понимание отдельных выдач; и только для переменных 4) указание пределов изменения или принимаемых значений, которые обязательно должны использоваться для контроля при вводе данных, а также при построении выходных таблиц.

Если по ходу анализа выделяются отдельные массивы или вводятся новые вспомогательные переменные, то их необходимо описывать столь же подробно, как и основные массивы и переменные.

Описанная выше автоматизация документирования исследования достигается при современном уровне развития математического обеспечения довольно простыми средствами, но позволяет решать очень важные задачи: осуществляет контроль переменных при вводе; обеспечивает «автономную читаемость» всех выдаваемых таблиц; повышает вероятность обнаружения неточностей и ошибок в описаниях; облегчает составление отчетов.

Кроме того, желательно ведение в ЭВМ или с помощью специальных картотек учета: какие виды анализа (программы) и к каким подмассивам применялись; какова при этом была выявленная мера зависимости между признаками, успешности прогноза, адекватности отображения объектов в пространство меньшей размерности и т. п.; адресов, где хранятся в ЭВМ или на полках соответствующие выдачи, а также ведение разноцелевых текстовых комментариев как по логике и ходу анализа, так и к отдельным распечаткам.

10.1.2. Ввод и хранение данных.

Для ввода обычно используются либо перфокарты, либо дисплей с высвечиванием шаблона, в который вписываются кодированные значения, либо дисплей с высвечиванием списка возможных значений переменной — так называемого «меню». Последние два способа позволяют сразу же обнаруживать грубые ошибки при вводе. Использование «меню» требует большего времени на ввод. «Меню» должно настраиваться автоматически по описанию переменных. Хранение данных должно быть организовано так, чтобы их можно было легко редактировать и пополнять.

10.1.3. Просмотр данных.

Очень существенно, чтобы собранные в статистическом исследовании данные были тщательно просмотрены и отредактированы прежде, чем к ним будет применена основная статистическая техника. Ошибки

в данных могут привести к неожиданным результатам, иногда интерпретируемым, иногда нет, но всегда неверным.

Просмотр данных преследует следующие цели:

1) обнаружение грубых ошибок в словаре исследования, а также ошибок, допущенных при кодировании, перфорации и вводе данных в ЭВМ;

2) указание возможных выбросов или аномальных, т. е. резко выделяющихся по своей величине наблюдений, которые могут быть нерепрезентативными для изучаемой популяции (более подробно см. § 11.5);

3) получение первого, грубого представления об одномерных и, частично, двумерных распределениях.

Укажем некоторые приемы, облегчающие проведение просмотра данных, или, как иногда говорят, скрининга.

Распечатка введенных в ЭВМ данных в табличной форме по объектам, иногда с их предварительной сортировкой по величине какого-либо признака. При этом проверяются наличие грубых ошибок при задании формата данных, правильность и удобочитаемость названия исследования и имен переменных, полнота введенного материала и отсутствие лишних данных, а также попадание численных значений переменных или их кодов в предусмотренный диапазон. Просмотр расположенных по столбцам переменных позволяет обычно сразу же выделить грубые ошибки. При желании столбцы можно просмотреть и на экране дисплея. Однако хорошо оформленная бумажная распечатка является удобным справочным документом и по другим вопросам, которые могут возникнуть на последующих стадиях анализа.

Построение одномерных распределений. Если ЭВМ строит гистограмму (см. § 10.3), то ее столбцьгудобно заполнять номерами наблюдений. В крайнем случае если наблюдений слишком много, то указывать отдельно номера наблюдений, вышедших за -ные квантили.

Указание номеров наблюдений удобно использовать и при построении двумерных распечаток. Если в одну точку попадает несколько наблюдений, на графике ставится специальный знак, а номера наблюдений печатаются ниже. Двумерные широкоформатные распечатки очень удобны для формирования предварительных содержательных гипотез о связи переменных. Математические вопросы построения эмпирических распределений рассматриваются в § 10.3.

<< Предыдущий параграф Следующий параграф >>
Оглавление