Главная > Методы обработки данных > Кластерный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.2. Оценивание функции плотности вероятности

По вопросу оценивания функции плотности вероятности имеется много работ. Мы не ставим себе цели дать обзор методов оценивания функций плотности. За коротким обзором существующих методов отсылаем читателя к Брайену [40]. Брайен предлагает один метод оценивания многомерных функций плотности вероятности, который называет методом ядра; он также строит метод кластеризации, который основывается на оценке функции плотности.

Метод ядра оценивания функции плотности связан с линейным интегральным преобразованием

Это преобразование устанавливает соответствие между функциями . Функция называется ядром преобразования (см. [209]). Метод ядра также иногда называют оцениванием с взвешенным средним (см. [95], [283], [298]).

В методе ядра функция плотности вероятности f(x) оценивается по формуле

где — ядро, — эмпирическая функция распределения. Розенблат [298] предложил само ядро рассматривать как некоторую функцию плотности, т. е.

Сейчас мы рассмотрим основные моменты процедуры оценивания плотности вероятности, предложенной Брайеном [40].

Пусть обозначает случайную выборку объема из некоторой функции плотности f(x), имеющей невырожденную матрицу ковариаций . С помощью

рассматриваемого метода, который аналогичен методу Какоулоса [42], оценивается функция плотности в виде:

где К — ядро. В качестве ядра выбирается функция плотности многомерного нормального распределения с математическим ожиданием, равным нулю, а ковариационной матрицей S, т. е.

Оценкой тогда будет:

где обозначают векторы наблюдений, а — выборочная матрица ковариаций, которая предполагается невырожденной, откуда следует, что положительно определена.

Легко показать, что из (5.2) является функцией плотности вероятности, другими словами,

Квадратичная форма в экспоненте в (5.1) является расстоянием Махаланобиса между и 0. Вместо матрицы S можно привлечь матрицу это приведет к квадрату евклидова расстояния между . Выбор S и I эквивалентен выбору между расстоянием Махаланобиса и евклидовым расстоянием.

Евклидово расстояние проще и легче вычисляется. Однако расстояние Махаланобиса имеет много преимуществ. Например, как показано в параграфе 1,3, это расстояние инвариантно по отношению ко всем невырожденным преобразованиям. Это означает, что f(x)

совпадает с , где А — невырождено. Таким образом, выбор масштаба не влияет на f(x).. Это перестает быть верным для евклидова расстояния.

Другим, свойством расстояния Махаланобиса является то, что оно делает некоторые критерии кластеризации эквивалентными. Следующие три критерия кластеризации при пользовании расстоянием Махаланобиса эквивалентны: где T, В и W — соответственно матрицы полного, межгруппового и внутригруппового расстояния, которые обсуждались в параграфе 1.4. Критерии (2) и (3) были предложены Фридманом и Рубиным [122], ими же были исследованы свойства этих критериев. В следующем параграфе мы рассмотрим процедуру кластеризации, которая приводит к оптимальному, по меньшей мере в локальном смысле, разбиению на группы относительно критериев (2) и (3). Метод, который был рассмотрен в параграфе 1.5, приводит к оптимальному разбиению с точки зрения критерия (1).

Одной из проблем применения оценки f(x) в (5.2) является выбор значения а. Выбор того или иного значения очень важен, и в случае плохого выбора оценка будет неудовлетворительной.

Выбор а основан на неравенстве теории информацию

Кульбак [217] доказал, что равенство в (5.3) достигается тогда и только тогда, когда для почти всех Процедура заключается в том, чтобы минимизировать . Неравенство (5.3) можно переписать следующим образом:

причем равенство достигается в том и только в том случае, когда для почти всех . Как видим, минимизация эквивалентна максимизации . Процедура выбора заключается в максимизации не самого значения

, а его оценки. Если построено на

— другая выборка объема k, то оценка равна:

Если второй выборки не существует, то оценку для строят на основе в этом случае она равна:

Однако эта оценка будет смещена и может привести к: отрицательным значениям . Смещение оценки (5.4) может быть уменьшено методом складного ножа (jackk-nifing) [81], [141]. Пусть — оценка f(x) (допущен). Тогда

а определяется равенством:

Производная после преобразований равна:

где

Оптимальное значение находят из уравнения

Для решения этого уравнения могут быть применены различные методы, например метод Ньютона—Рафсона. Эти методы рассматриваются в главе 3, Изаксона и Келлера [172].

<< Предыдущий параграф Следующий параграф >>
Оглавление