Главная > Методы обработки данных > Кластерный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.4. Меры сходства

измерений могут быть представлены в виде матрицы данных размером

Аналогичным образом расстояния между парами векторов могут быть представлены в виде симметричной матрицы расстояний:

Заметим, что диагональные элементы для .

Понятием, противоположным расстоянию между является понятие сходства между двумя объектами

Определение 1.2. Неотрицательная вещественная функция называется мерой сходства, если:

Пары значений мер сходства можно объединить в матрицу сходства:

Величину будем просто называть коэффициентом сходства. Если каждый вектор измерения состоит из нулей и единиц, эту величину называют коэффициентом ассоциации, или парным коэффициентом сопряженности.

Существует несколько видов коэффициентов ассоциации, значения которых лежат в пределах от —1 до +1. К этой группе принадлежит -коэффициент, известный также под названием «четырехпольный коэффициент корреляции». В дальнейшем мы остановимся только на коэффициентах, удовлетворяющих определению 1.2.

Предположим, что каждый вектор наблюдений содержит только нули и единицы, т. е. бинарные данные. Для заданных векторов обозначим через число характеристик, которые соответствуют единицам в векторах через — число характеристик, соответствующих нулям в этих векторах; через — число характеристик, дающих нуль единицу в сходным образом определяется . Таким образом, есть число единиц в — число нулей в . В табл. 1.2 приводятся примеры коэффициентов сходства, выраженных в терминах определенных выше величин. Обсуждение коэффициентов сходства табл. 1.2, а также другие коэффициенты читатель найдет в работе [336].

Статистики постоянно пользуются мерой линейного сходства, называемой коэффициентом корреляции, который обычно обозначается и вычисляется по формуле

Таблица 1.2. Коэффициенты сходства для бинарных данных

В формуле (1.2) предполагается, что

Коэффициент занимает важное место в статистике и употребляется, зачастую ошибочно, почти каждым. Важно подчеркнуть, что если рассматривать как координаты двух точек в пространстве являющиеся концами двух векторов с началом в начале координат, то [7]

где — угол между этими двумя векторами. Поэтому, как следует из уравнения (1.3), . Будем говорить, что объекты сходны положительным образом (положительно), если гц «близок» к 1, отрицательно сходны, если «близок» не сходны, если «близок» к нулю. Заметим, что не является функцией сходства с точки зрения определения 1.2.

Лемма 1.1. Коэффициент корреляции тогда и только тогда, когда , где k — неотрицательное число.

Доказательство этой леммы следует непосредственно из формулы (1.2). Заметим, что две точки могут быть сравнительно далекими друг от друга и в то же время сходство, измеряемое может оказаться равным 1. Рассмотрим, в частности, следующий пример (график с числовыми значениями представлен на рис. 1).

Рис. 1. Две точки в

Пользуясь метриками (1), (2) и (3) табл. 1.1 и (уравнение (1.2)), найдем:

Заметим, что хотя , т. е. объекты и с точки зрения такого критерия будут считаться сходными. Заметим также, что

что лишний раз иллюстрирует теорему 1.1 из параграфа 1.3.

Важно заметить, что, выбирая соответствующее преобразование, можно исходя из различных мер расстояния, приведенных в параграфе 1.3, построить соответствующие меры сходства. Поэтому если предпочтительнее

работать с мерами сходства, то необходим соответствующий переход.

Воспользуемся теперь введенным понятием расстояния для вычисления меры рассеяния или разнородности множества объектов .

Определение 1.3. Пусть обозначает множество наблюдений, произведенных над множеством объектов Величина

называется общим рассеянием, соответствующим данной функции расстояния .

Определение 1.4. Величина , где называется средним рассеянием множества

Обоснование определений 1.3 и 1.4 следует из рассмотрения матрицы расстояний о учетом того, что, во-первых, для всех

а, во-вторых, из следует для всех .

Отсюда величина представляет собой сумму расстояний, из которых равны нулю, и вообще говоря, различны и неотрицательны. Поэтому есть арифметическое среднее ненулевых расстояний между парами элементов из X, или, что то же, из I. Матрица D является компактной записью расстояний всех пар элементов из множества I.

Статистики применяют аналогичную меру рассеяния (см., например, Уилкс [391 с. 591—614]).

Определение 1.5. Матрица

называется матрицей рассеяния множества X, причем

есть вектор арифметических средних.

Матрицу также иногда называют матрицей суммы квадратов.

Определение 1.6. След матрицы называется статистическим рассеянием множества X и обозначается

Мера равна сумме квадратов расстояний точек от средних по группе X и представляет собой сумму (внутреннюю по группе) квадратов отклонений. Можно показать, что

Таким образом, когда оперируют следом имеют в виду расстояние в евклидовом смысле.

Определение 1.7. Определитель матрицы называется статистическим рассеянием, соответствующим определителю, и обозначается

Матрица коэффициентов корреляций может быть получена из матрицы определенной уравнением (1.5). Найдем диагональную матрицу . Тогда

Лемма (нулевой матрице) тогда и только тогда, когда для некоторого

<< Предыдущий параграф Следующий параграф >>
Оглавление