Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.1.2. Два варианта интерпретации исходных данных и два подхода к их статистической обработке.

Рассмотрим два примера. Цель статистического анализа в первом примере — исследование возможностей массового производства по исходным данным, представляющим результаты контроля (по альтернативному признаку) ограниченного ряда изделий, случайно отобранных из продукции этого производства. Если было проконтролировано изделий, то результаты контроля могут быть, в общем виде представлены в виде последовательности чисел

где результат контроля i-го изделия полагается равным единице, если изделие оказалось дефектным, и нулю — в противном случае. Если производство отлажено и действует в стационарном режиме (т. е. его технологические возможности остаются на постоянном уровне), то ряд наблюдений (1.1) естественно интерпретировать как ограниченную выборку из соответствующей бесконечной совокупности, которую мы бы имели, если бы осуществляли сплошной контроль всех изделий, производимых на этом

производстве. В этом случае саму выборку мы рассматриваем как составную часть, как представителя «стоящей за ней» бесконечной совокупности, т. е. всего массового производства, а ее основные статистические характеристики, например ее среднюю арифметическую, являющуюся, как легко видеть, долей брака дефектных изделий в ней, — как некое приближение к истинной доле брака, характеризующей все производство. В подобных ситуациях имеется принципиальная возможность, хотя бы мысленно реально представимая, многократного повторения нашего наблюдения (или эксперимента) в рамках одного и того же реального комплекса условий, включающего в себя «мешающее» влияние большого числа не поддающихся учету случайных факторов (которые и являются причиной стохастического, т. е. не предопределенного заранее, результата каждого отдельного наблюдения). Такие ситуации могут быть описаны в рамках той или иной вероятностной модели (см. § 1.2 и 1.3). Соответственно ряд наблюдений (1.1) интерпретируется как случайная выборка из некоторой генеральной совокупности, т. е. как экспериментальные (или наблюденные) значения анализируемой случайной величины, и для его статистической обработки применяются классические математико-статистические методы (методы статистического оценивания неизвестных параметров, методы проверки статистических гипотез и т. п., см. разд. III)

При подобной (вероятностной) интерпретации исходных статистических данных в поле зрения исследователя одновременно попадают две совокупности объектов: реально наблюдаемая, статистически представленная рядом наблюдений типа (1.1) (т. е. выборка), и теоретически домысливаемая (так называемая генеральная совокупность). Основные свойства и характеристики выборки, называемые эмпирическими (или выборочными), могут быть проанализированы и вычислены по имеющимся статистическим данным (1.1). Основные свойства и характеристики генеральной совокупности, называемые теоретическими, не известны исследователю, но назначение математико-статистических методов как раз в том и состоит, чтобы с их помощью получить как можно более точное представление об этих теоретических свойствах и характеристиках по соответствующим свойствам и характеристикам выборок.

Для демонстрации второго возможного варианта интерпретации исходных статистических данных рассмотрим

следующий пример (упрощенный вариант задачи, приведенной в [8, с. 2231). Была статистически обследована совокупность из 74 средних городов РСФСР (с численностью населения от 100 до 500 тыс. чел.). По каждому городу регистрировались значения 32 признаков , характеризующих этот город по уровню образования его жителей, половозрастному и социальному составу, структуре занятости жителей города Таким образом, здесь исходные статистические данные могут быть представлены в виде последовательности 32-мерных векторов

где результат обследования города является вектором

компоненты которого определяют числовые значения анализируемых признаков по данному городу. Цель статистического анализа исходных данных (1.2) — выявление числа и состава различных типов городов, где под типом понимается класс городов обследованной совокупности, однородных (сходных) по структуре уровня образования их жителей, половозрастному составу и характеру занятости.

Если допустить, что геометрическая близость двух точек — городов вида (1.3) в соответствующем 32-мерном пространстве означает их однородность (сходство) по анализируемым признакам и является соответственно основанием для их отнесения к одному типу, то для решения поставленной выше задачи нам придется привлечь подходящие методы кластер-анализа (распознавания образов «без учителя») и снижения размерности. И хотя математический аппарат этих методов предусматривает необходимость счета таких статистических характеристик, как средние, дисперсии, ковариации и т. п., однако, в данном случае они будут характеризовать природу и структуру только реально анализируемых данных, т. е. только статистически обследованную совокупность из 74 анализируемых городов. В отличие от предыдущего примера со статистическим анализом результатов контроля изделий, произведенных в режиме стационарно действующего массового производства, в данном примере мы столкнемся с серьезными методическими трудностями при:

интерпретации исходных статистических данных (1.2) в качестве выборки из некоторой (теоретически домысливаемой) генеральной совокупности;

использовании вероятностных моделей для построения и выбора наилучших методов статистической обработки;

вероятностной интерпретации выводов, основанных на статистическом анализе исходных данных.

В этом и заключается главное различие двух возможных подходов к статистическому анализу исходных данных. Однако и в том и в другом подходе выбор наилучшего из всех возможных методов обработки данных производится в соответствии с некоторым функционалом качества метода. Различие описываемых подходов проявляется здесь в способе обоснования выбора этого функционала качества метода, а также в интерпретации самого функционала и получаемых статистических выводов: в первом случае исследователь основывает свой выбор на допущениях о

вероятностной природе исходных данных и использует эти же допущения при вероятностной интерпретации своих выводов; во втором случае исследователь не располагает никакими априорными сведениями о вероятностной природе исходных данных и при обосновании выбора оптимизируемого критерия качества опирается на соображения содержательного (физического) плана — как именно и для чего получены обрабатываемые данные. Но после того, как выбор конкретного вида оптимизируемого критерия качества метода осуществлен, математические средства решения задачи статистической обработки данных оказываются общими для обоих подходов: и в том, и в другом случае исследователь использует методы решения экстремальных задач. Правда, на заключительном этапе — на этапе осмысления и интерпретации полученных статистических выводов — каждый из подходов снова имеет свою специфику.

Таким образом, общим для обоих описываемых подходов является наличие исходной статистической информации на «входе» задачи и необходимость наилучшей (в смысле оптимизации некоторого функционала качества метода) статистической обработки этой информации с целью получения научных или практических выводов «на выходе».

Итак, принимаясь за статистический анализ исходных данных, исследователь должен прежде всего определить, в рамках какой из двух описанных выше схем следует проводить этот анализ. Другими словами, он должен сделать принципиальный выбор типа модели. И с этой точки зрения предостережения некоторых авторов (см. [10], [80]) по поводу вреда от чрезмерного (а порой бездумного) использования вероятностно-статистических методов в качестве главного инструмента статистической обработки исходных данных нам представляются уместными и полезными. Однако нельзя отбивать всякую охоту пользоваться этими методами: именно такую цель, похоже, ставил перед собой автор [10] и именно к такому выводу (о прикладной никчемности и неэффективности вероятностно-статистических методов) пришли многие читатели работы [80], хотел того ее автор или нет.

В действительности же приходится исходить из следующей ситуации. Будем отправляться от момента, когда исследователь уже располагает исходными статистическими данными, характеризующими те или иные стороны интересующего его процесса или явления. Вопрос состоит в том, как наилучшим (в определенном смысле) образом

обработать эту информацию с целью получить из нее научные или практические выводы определенного характера об исследуемом явлении. Для того чтобы уточнить понятие «наилучшим образом», исследователь должен формализовать задачу, выбрать модель. Всякая модель является упрощенным (математическим) представлением изучаемой действительности (см. § 3.1). Очевидно, мера адекватности выбранной модели и изучаемой действительности является решающим фактором, определяющим эффективность и действенность используемых затем методов статистической обработки. Поскольку ни одна из жестко определенных моделей не может на практике идеально соответствовать изучаемой реальной действительности, то можно только приветствовать желание исследователя многократно обработать свои исходные данные, проводя каждую новую статистическую обработку в рамках несколько измененного варианта модели (см. развитие этого тезиса в § 1.2).

<< Предыдущий параграф Следующий параграф >>
Оглавление