Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.2. Шкалы измерений

Каждое измерение над объектом производится в определенной шкале. Различные координаты одного вектора наблюдений могут быть выражены в разных шкалах. Так, в § 5.1 приведен пример вектора наблюдений (табл. 5.1), у которого первые координаты носят характер условных меток (социальная принадлежность семьи, пол и профессия главы семьи, качество жилищных условий), в то время как остальные выражаются числами (число членов семьи, количество детей, среднегодовой доход и т. п.). Свойства этих шкал сильно различаются между собой. Так, про пол главы семьи можно сказать только, что он или мужской или женский и что пол мужской отличается от пола женского; про жилищные условия — что они совпадают или отличаются и что в отдельных случаях одни жилищные условия лучше других; про расходы можно сказать, что расходы на питание одной семьи меньше, равны, больше расходов другой, можно оценить разность в расходах между семьями и подсчитать, во сколько раз расходы одной семьи отличаются от расходов другой.

Ниже описываются основные типы шкал и математические приемы унификации данных, выраженных в разных шкалах, которые обычно предшествуют применению методов многомерного анализа.

10.2.1. Номинальная шкала.

Эта шкала используется только для того, чтобы отнести индивидуум, объект в определенный класс. Если описаны заранее возможные классы и правила отнесения объекта в них, то говорят о категоризованной шкале, если нет, то о некатегоризованной. Примером категоризованной шкалы является пол. В исследовании индивидууму приписывается одно из двух значений: буква М или Ж, специальный знак или число 1 или 2. В принципе можно было бы приписывать и другие буквы и цифры, важно только, чтобы сохранялось взаимнооднозначное соответствие между кодами. Для ввода категоризованных данных удобно использовать «меню», т. е. перечень возможных категорий с их кодами. Примерами некатегоризованных номинальных переменных являются имя, фамилия, место рождения.

Другой важный источник некатегоризованных номинальных данных указан в § 5.3. Это случай, когда наблюдение задается над парой объектов, и переменная указывает только, принадлежат ли объекты, к одному классу

или нет, и не указывает, к каким классам они принадлежат. Последнее обстоятельство не надо рассматривать в качестве курьеза. Конечно, если классы заранее определены и нетрудно каждый объект отнести в определенный класс, то это следует сделать и записать, к какому классу объект принадлежит. Но иногда классы заранее не описаны, создание их полной классификации как раз и является целью работы, а вместе с тем оценить принадлежность объектов одному классу можно. Например, можно говорить о «близком», «похожем» течении болезни у двух больных, хотя все варианты течения заболевания и не описаны. Более того, выделение эмпирически близких вариантов течения болезни может служить отправным пунктом для выделения и описания всех возможных вариантов развития патологического процесса. То же относится к выделению социально-экономических групп и т. п.

Одна и та же переменная может в зависимости от цели использования выступать в разных качествах. Так, например, некатегоризованная номинальная переменная — имя программы — служит только для индивидуализации программы и, если программ немного, может быть найдена прямым просмотром списка программ. Вместе с тем если имена программ в списке каким-либо образом упорядочить (например, в алфавитно-цифровом порядке), то имя программы как поисковый образ несет в себе элементы порядковой величины. Про каждые два имени можно сказать, что они или совпадают, или одно из них предшествует другому при принятом способе упорядочивания. При изменении способа упорядочивания меняется и отношение следования.

Арифметические операции над величинами, измеренными в номинальной шкале, лишены смысла. Следовательно, и медиана, и среднее арифметическое не могут быть использованы в качестве осмысленной меры центральной тенденции. Более подходящая статистика здесь мода.

10.2.2. Порядковая (ординальная) шкала.

В дополнение к функции отнесения объектов в определенный класс эта шкала также упорядочивает классы по степени выраженности заданного свойства. Каждому классу приписывается свой собственный символ таким образом, чтобы заранее установленный порядок символов соответствовал порядку классов. Так, если классам будут приписаны числовые значения, то классы будут упорядочены согласно числовой последовательности; если буквы, то классы будут упорядочены в алфавитном порядке, а если слова, то классы будут

упорядочены согласно значениям этих слов. Например, в § 5.3 приводится пример порядковой шкалы для описания качества жилищных условий с четырьмя градациями (классами): «плохое», «удовлетворительное», «хорошее», «очень хорошее». Естественно, что эти классы могли бы быть занумерованы числами 1,2,3,4, или 4,3,2,1, или буквами а,б,в,г и т. п.

Другими известными примерами порядковых шкал являются: в медицине — шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско — Василенко — Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии — шкала Мооса (тальк —1, гипс — 2, кальцит — 3, флюорит — 4, апатит — 5, ортоклаз — 6, кварц — 7, топаз — 8, корунд — 9, алмаз — 10), по которой минералы классифицируются согласно критерию твердости; в географии — бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т. д.).

Структура порядковой шкалы не разрушается при любом взаимно-однозначном преобразовании кодов, которое сохраняет порядок. Так же, как и в случае номинальной шкалы, арифметические операции не сохраняют своего смысла при преобразовании порядковых шкал, поэтому желательно ими не пользоваться. Нетрудно показать, что если опираться только на свойства шкал и не привлекать дополнительных, внешних по отношению к шкалам соображений, то единственными разрешенными статистиками при использовании порядковых шкал являются члены вариационного ряда [65].

10.2.3. Количественные шкалы.

Шкала, в которой можно отразить, на сколько по степени выраженности заданного свойства один из объектов отличается от другого, называется интервальной. Для того чтобы задать интервальную шкалу, надо определить объекты, соответствующие начальной точке и единице измерения. И далее при измерении ставить в соответствие каждому объекту число, показывающее, на сколько единиц измерения этот объект отличается от объекта, принятого за начальную точку. Простейшим примером интервальной шкалы является температура в градусах Цельсия, где 0° — начальная точка и 1° — единица измерения.

Структура интервальной шкалы не меняется при линейных преобразованиях вида Эффект такого преобразования заключается в сдвиге начальной точки на b единиц и умножении единицы измерения на а. Например,

путем преобразования , где температура можно перейти к температуре в градусах Фаренгейта.

Если начало в интервальной шкале является абсолютной нулевой точкой, то возникает возможность отразить в шкале, во сколько раз одно измерение отличается от другого. Соответствующая шкала называется шкалой отношений. Шкала отношений допускает преобразования вида Большинство шкал, используемых в физике, являются либо интервальными (для измерения температуры, потенциальной энергии), либо шкалами отношений (для измерения времени, массы тела, заряда, расстояния).

Поскольку количественные шкалы допускают арифметические преобразования, среднее арифметическое может использоваться для описания интегральной тенденции в группировке данных.

10.2.4. Унифицированное представление разнотипных данных.

Каждому типу шкалы соответствует своя статистическая техника. Так, для переменных, измеренных в номинальной шкале, можно использовать -критерий для полиномиальных распределений, -критерий для проверки отсутствия ассоциаций в таблицах сопряженности, критерии для проверки гипотез о вероятности в биномиальном распределении. Порядковой шкале отвечают методы, основанные на использовании рангов (ранговая корреляция, непараметрические критерии для проверки гипотез типа и т. п.). При интервальной шкале может быть использован весь арсенал статистических методов.

Более того, разработаны статистические процедуры для случаев, когда наблюдаются векторы, одни координаты которых измерены в одной шкале, а другие — в другой. Типичным примером является обычный дисперсионный анализ (см. § 3.5), в котором факторы измеряются в номинальной шкале, а соответствующие их комбинациям отклики — в интервальной.

Тем не менее в целом ряде статистических методов, особенно в современных методах многомерного анализа, предполагается, что данные измерены в однотипных шкалах. Чтобы иметь возможность применять эти методы в общем случае разнотипных данных, были предложены различные приемы унификации данных. Познакомимся с важнейшими из них.

Сведение к двоичным переменным. В основе этого метода лежит введение вместо каждой исходной случайной переменной

серии случайных величин, принимающих только два значения: 0 и 1. Для номинальной величины имеющей k градаций вводится k таких величин что когда когда

Этот же прием иногда используют и при сведении к двоичным переменным случайной величины, измеренной в порядковой шкале. Однако в ряде случаев оказывается удобным выделять не событие а событие Для сравнения относительных достоинств этих двух способов рассмотрим следующую модельную задачу. Пусть — равномерно распределенная на отрезке [0, 1] случайная величина, — малое число;

Функция моделирует, очевидно, первый способ перехода к двоичным переменным, а функция — второй. После несложных подсчетов получаем:

Из формул (10.1), (10.2) следует, что корреляция между зависит от величины . Коэффициент корреляции имеет разный знак в левой и правой половинах отрезка [0, 1], а при обращается в нуль. Корреляция между не зависит от взаимного расположения х и у. При втором способе перехода к двоичным переменным знак корреляции между неизменен на всем отрезке и корреляция наибольшая при (формула (10.3)). Корреляция между всегда положительна и тем больше, чем ближе к у (формула(10.4)), что весьма естественно. Таким образом, при втором способе перехода к двоичным

переменным в большей степени сохраняется интерпретация корреляционных связей.

В том случае, когда имеют дело с непрерывной количественной переменной, ее значения сначала квантуют, объединяют в несколько градаций и далее поступают так же, как в случае порядковой шкалы.

Основной недостаток изложенной техники — это введение большого числа новых переменных и частичная потеря информации, содержащейся в данных, как из-за квантования, так и из-за искусственного снижения уровня используемой шкалы.

Оцифровка номинальных и порядковых переменных. Этот метод прямо противоположен только что изложенному, в нем все переменные поднимаются, подтягиваются до уровня количественных путем приписывания их градациям числовых значений. Иногда приписываемые значения называют метками.

Выбор меток существенно зависит от цели, с которой производится оцифровка. Так, если изучается величина связи между двумя номинальными признаками, то метки можно выбрать из условия максимизации коэффициента корреляции между ними [33], [123]. Если речь идет об отнесении наблюдений к одному из заранее определенных классов (дискриминантный анализ), то выбор меток можно связать с условием максимизации нормированного расстояния в многомерном выборочном пространстве между центрами изучаемых популяций (расстояния Махаланобиса). Иногда эту задачу упрощают и метки приписываются покоординатно так, чтобы максимизировать только нормированное расстояние между средними значениями данной координаты. Статистическое сравнение на примере одной частной задачи эффективности глобального и покоординатного подхода к оцифровке в дискриминантном анализе может быть найдено в [57, 59].

Изложенные приемы оцифровки, когда метки выбираются из условия максимизации соответствующим образом подобранного функционала, укладываются в рамки упомянутого в § 1.2 экстремального подхода к формулировке основных проблем математической статистики.

В целом оцифровка качественных переменных является задачей сложной как в вычислительном, так и в чисто статистическом плане. Отдельные аспекты этой проблемы обсуждаются в работах [31, 33, 40, 47, 123].

<< Предыдущий параграф Следующий параграф >>
Оглавление