Главная > Методы обработки данных > Кластерный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.8. Другие вопросы кластерного анализа

Одним из важнейших вопросов при решении кластерной проблемы является выбор необходимого числа кластеров. В некоторых случаях число кластеров m может быть выбрано априорно, однако в общем случае это число определяется в процессе разбиения множества на кластеры. В этой книге мы не будем подробно останавливаться на этой сложной проблеме.

Хорошо известно, что в некоторых задачах с большим числом наблюдений для практических целей пользуются методом случайного отбора. Фортьер и Соломон исследовали эти методы [119] и нашли, что законы простого случайного отбора могут быть применены для вычисления числа кластеров, которое должно быть принято для достижения вероятности а того, что найдено наилучшее разбиение. Таким образом, оптимальное число разбиений является функцией заданной доли «наилучших» или в некотором смысле допустимых разбиений в множестве всех возможных. Общее рассеяние множества кластеров будет тем больше, чем выше доля «допустимых» разбиений. Фортьер и Соломон приводят таблицу, по которой можно найти необходимое число разбиений в зависимости от значений При этом в качестве меры разнородности рассматривается

ется не мера рассеяния, а «мера принадлежности», введенная Хользингером и Харманом [168] (см. табл. 1.6). Фортьер и Соломон пришли к выводу, что простой случайный отбор в общем случае не эффективен, если распределение показателя очень скошено и более вероятные его значения находятся на хвостах распределения. В то же время, как отмечают авторы, «модификация стратегии отбора может значительно улучшить ситуацию и эту возможность необходимо исследовать».

Таблица 1.6. Значения

При решении задачи кластерного анализа молчаливо принимается, что 1) выбранные характеристики в принципе допускают желательное разбиение, на кластеры, 2) единицы измерения (масштаб) выбраны правильно. Первая проблема называется проблемой выбора свойств или характеристик объектов; этому вопросу посвящены работы [229], [230] и [255]. Вообще предполагается, что проблема выбора характеристик решена до начала - процесса кластеризации. Однако следует предупредить, что этим вносится некоторый произвол, что в отдельных случаях требует дополнительного рассмотрения.

Другой вопрос, который всегда сопутствует измерению, — выбор масштаба — также играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклонение; так что дисперсия оказывается равной единице. В случае же, когда исходят из непосредственных (обычных) единиц измерения, возникает проблема интерпретации. Однако наиболее серьезная проблема возникает в связи с тем, что разбиение на кластеры зависит от выбора масштаба. Было бы желательно иметь такой метод кластеризации, который был бы инвариантен к изменению масштабов измерения.

<< Предыдущий параграф Следующий параграф >>
Оглавление