Главная > Методы обработки данных > Кластерный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ГЛАВА 6. ПРИЛОЖЕНИЯ

6.1. Приложение к регистрации отдаленных объектов

В исследовании проблемы регистрации отдаленных объектов [167], [226], [227] имеют дело с участком (экраном), который представляет собой прямоугольную область, площадь которой составляет строк (линий сканирования) и с столбцов (число различаемых элементов объектов) на одной сканируемой линии. Для каждой точки (объекта I) имеется вектор измерений (характеристик) . Для рекогносцировки участка необходимо «как можно эффективнее» решить задач на распознавание (участок рекогносцируется последовательно точка за точкой).

Для решения этой задачи, т. е. для кластеризации наблюдений отдаленных объектов (мультиспектральных данных сканирования) центр пилотируемых космических кораблей воспользовался программой Болла и Холла [15], [16], [18] ИСОМАН (ISODATA — Iterative Self-Organizing Data Analysis Technique) (итеративный самообучающийся метод анализа наблюдений). Цель процесса кластеризации двояка [194]: а) проверить однородность мультиспектральных данных сканирования, т. е. необходимость разделения класса различаемых элементов на несколько унимодальных подклассов и б) кластеризовать данные сканируемой линии, т. е. классифицировать объекты по группам.

Итеративная процедура Болла и Холла [15], [16], [18] была коротко описана в параграфе 1.6. Сначала

выбирается k кластеров, которые представляют собой k случайно выбранных точек; оставшиеся объекты приписываются к кластерам с ближайшим центром. Затем вычисляются центры кластеров и два кластера и I объединяются, если меньше заданного порогового значения . Кластер расщепляется, если внутригрупповая дисперсия кластера по любой характеристике превышает пороговое значение . Таким образом, дисперсия результирующего кластера ограничена неравенством , где — число характеристик. Вместо первоначальных центров подставляются новые и процесс продолжается до полной стабилизации (до полной сходимости). Описание программ ИСОМАН содержится у Холли [166]. Первоначальный вариант программы ИСОМАН основан на евклидовой метрике. Вариант программы, описанной в основан на применении взвешенной евклидовой метрики.

Кан и Холли [194] предложили окончательный вариант ИСОМАН. При распределении объектов по ближайшим кластерам (центрам кластеров) вместо евклидовой метрики они воспользовались метрикой . Мера вариации для каждой характеристики оставалась той же. Для вычисления бралось взвешенное евклидово расстояние.

Опишем применение окончательной рекомендации программы ИСОМАН Кана и Холли для мультиспектральных данных сканирования. Пример взят из работы Кана и Холли [194]. Имеется линий сканирования и столбцов или выборочных точек на каждой линии сканирования. Таким образом, имеем наблюдений. Существуют четыре источника (способа) получения мультиспектральных данных сканирования, т. е. Пороговое значение расщепления равно 4,5, а пороговое значение объединения 3,2. Это означает, что на некоторой итерации кластер расщепляется по измерению, если дисперсия по измерению превосходит значение 4,5. Наоборот, если два кластера находятся на расстоянии меньшем, чем 3, 2 единицы, то они объединяются в один кластер.

Программе потребовалось 12 итераций для образования семи кластеров с числом элементов, равным соответственно 565, 132, 219, 201, 180, 224 и 54.

Таблица 6.1. Итоговые статистики для каждого кластера

(см. скан)

В табл. 6.1 приводятся итоговые статистики для каждого кластера, а табл. 6.2 представляет собой матрицу межкластерных расстояний на конец 12-й итерации. Данные для примера Кана и Холли были взяты из [409]. Остальные детали рассмотрены в [194].

Таблица 6.2. Таблица межкластерных расстояний

<< Предыдущий параграф Следующий параграф >>
Оглавление