Главная > Методы обработки данных > Кластерный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4.2. Сравнения дендограмм и матриц сходства

Мы уже отмечали, что в некоторых случаях матрица расстояний содержит всю информацию о соответствующей дендограмме, и наоборот (например, матрица (4.2) и дендограмма на рис. 3). Однако подобная идеальная ситуация не всегда встречается на практике. Поэтому было бы целесообразным иметь объективный способ определения, насколько хорошо дендрграмма представляет свою метрику сходства или расстояния. В работе Сокала и Рольфа [335] предлагается мера соответствия между матрицей сходства и ее аппроксимацией, полученной из дендограммы. Они также предлагают метод сравнения двух дендограмм с помощью обычного коэффициента корреляции между множествами значений, которые получаются на основе этих дендограмм. Это в свою очередь приводит к методу сравнения процедур кластеризации.

Поскольку дерево или дендограмма содержит не всю информацию о матрице сходства, мы сталкиваемся с проблемой определёния такого дерева, которое содержит максимум информации о матрице сходства. Таким образом, перед нами стоит проблема построения такого дерева, которое «наилучшим образом подгоняется» под данную матрицу сходства. Эта проблема была решена Хартигеном [162]. В следующих двух параграфах приводятся его основные результаты.

<< Предыдущий параграф Следующий параграф >>
Оглавление