Главная > Нечеткие вычисления > Нечеткие методы автоматической классификации
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4.3. Экспериментальное сравнение нечетких методов автоматической классификации

4.3.1. Исходные данные для проведения экспериментального сравнения алгоритмов

С гносеологической точки зрения, качество машинной классификации определяется ее соответствием классификации, проведенной человеком, так что при значительной «близости» человеческой и машинной классификации можно сделать самые общие выводы о корректности той или иной процедуры. Данное обстоятельство диктует

необходимость использования при сравнении алгоритмов искусственных данных с известной структурой. С другой стороны, оценить эффективность кластер-процедур при помощи только таких данных довольно затруднительно. Охарактеризовать алгоритмы классификации можно при их тестировании на реальных данных, так что имеет смысл обратиться к реальным данным с известной структурой.

Целью предпринятого в данном случае сравнительного анализа является сопоставление результатов работы некоторых нечетких методов автоматической классификации с классификацией, проводимой человеком, для чего вполне достаточным является проведение сравнения результатов работы кластер-процедур с экспертным разбиением искусственных данных с известной структурой.

Подобный подход к проведению сравнения обусловливает некоторые требования к процессу формирования данных, используемых для сравнения. Поскольку сущность сравнительного анализа в данном случае заключается в определении эффективности алгоритма на основании сопоставления результатов его работы с человеческой классификацией, то, с учетом того обстоятельства, что человек не может классифицировать большое количество объектов, описанных также большим количеством признаков, первое требование выдвигается к числу объектов и размерности признакового пространства. В силу приведенных соображений число классифицируемых объектов и признаков должно быть небольшим, чтобы эксперт мог составить разбиение, соответствующее реальной структуре исследуемой совокупности, однако, учитывая замечание И. Д. Манделя об отсутствии универсальности двумерной структуры, число признаков должно быть большим чем три. Небольшое количество объектов обладает также тем методическим преимуществом, что позволяет сравнивать алгоритмы, работа которых затрудняется при больших объемах данных, к примеру, иерархических кластер-процедурах и процедурах классификации на графах. Второе требование касается «реалистичности» используемых данных с целью избежать человеческого субъективизма при их формировании, что, в свою очередь, диктует необходимость подбора в качестве исходных данных характеристик реальных объектов.

Учитывая приведенные требования, в качестве данных для экспериментального сравнения были отобраны одиннадцать самолетов различного предназначения [43], а в качестве описывающих их признаков были отобраны пять достаточно информативных характеристик, позволяющих построить экспертное разбиение человеку, не

являющемуся специалистом в области авиации. Эти данные представлены в таблице 4.3.

Таблица 4.3. Некоторые характеристики самолетов ВВС США

Данные самолеты американской разработки имеют следующее назначение: модификация самолета F-104 «Старфайтер» F-104G и самолет F-16A «Файтинг Фолкон» являются многоцелевыми истребителями; модификация F-4E самолета F-4 «Фантом П» представляет собой истребитель дальнего проникновения; модификация F-5A самолета F-5 «Тайгер П», самолеты F-15A «Игл» и F-106A «Дельта Дарт» представляют собой истребители-перехватчики, а такие самолеты, как F-5E и F-4B, являющиеся модификациями F-5 и F-4 соответственно, представляют собой истребители-бомбардировщики; RA-5C «Виджи-лент» является палубным самолетом-разведчиком, SR-71A является стратегическим самолетом-разведчиком, а самолет В-58А «Хастлер» является стратегическим бомбардировщиком. Вместе с тем, представленные в таблице 4.3 технические характеристики позволяют условно сгруппировать эти самолеты в три класса: класс 1 — легкие самолеты — F-104G, F-5A, F-5E, F-16A; класс 2 — средние самолеты — F-15A, F-4B, F-4E, F-106A, RA-5C; класс 3 — тяжелые самолеты — SR-71A и В-5 8А. Таким образом, обозначая принадлежность объекта классу единицей, а ее отсутствие — нулем, оказывается возможным построить экспертное разбиение. Матрица экспертного разбиения представлена таблицей 4.4.

Таблица 4.4. Экспертное разбиение исследуемой совокупности объектов на три класса

При обозначении размаха крыла символом длины — символом высоты — символом номинальной взлетной массы — символом максимального радиуса действия — символом а самих самолетов — символами где символ i соответствует номеру самолета в таблице 4.3, и нормировке получившихся данных по формуле получится матрица «объект-признак» вида (1.1). При ее транспонировании она может быть представлена таблицей 4.5.

Таблица 4.5. Матрица нормированных данных

При таком подходе каждый объект представляя собой точку в пятимерном пространстве признаков, может быть интерпретирован как нечеткое множество на универсуме

признаков, так что каждое значение может быть представлено в виде функции принадлежности которая показывает степень выраженности признака объекта. Таким образом, оказывается возможным построить матрицу попарных расстояний между объектами, применяя к матрице «объект-признак», представленной таблицей 4.5, относительное обобщенное расстояние Хемминга или относительное евклидово расстояние (2.14).

Для иллюстрации работы алгоритмов в рассматриваемом случае достаточно применения какого-либо одного вида расстояния, для чего было использовано относительное евклидово расстояние, которое в данном случае может быть определено выражением

так что матрица попарных расстояний, оказывающаяся в данной ситуации матрицей нечеткого отношения несходства I, будет представлена таблицей 4.6.

Таблица 4.6. Матрица попарных расстояний между объектами

После применения к матрице попарных расстояний операции дополнения нечеткого отношения (2.31) получается нечеткая толерантность Т, матрица которой представлена таблицей 4.7.

Таблица 4.7. Матрица сходства между объектами

Таким образом, таблицы 4,5 — 4.7 представляют все основные типы матриц исходных данных, которые будут использоваться в процессе сравнительного анализа.

<< Предыдущий параграф Следующий параграф >>
Оглавление