Главная > Методы обработки данных > Основы моделирования и первичная обработка данных
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.5.3. Свойства наименьшего искажения геометрической структуры для главных компонент.

Приведем два утверждения о сохранении локальной геометрической структуры исходного множества точек при их проектировании на q первых компонент

1. Пусть L — произвольная -мерная гиперплоскость проходящая через начало координат, и пусть — проекции на эту гиперплоскость. Тогда величина равная сумме отклонений от L, достигает своего наименьшего значения, когда совпадает с гиперплоскостью С, натянутой на q первых главных компонент. При этом

    (10.24)

2. Рассмотрим далее матрицу Н размера () с элементами равными скалярному произведению векторов и пусть — аналогичная матрица, построенная по векторам . Геометрическая интерпретация этих матриц очевидна: — квадрат длины вектора а пропорционально косинусу угла между Оказывается, что

    (10.25)

где , т. е. гиперплоскость, натянутая на первых главных компонент, в наименьшей степени искажает длину и взаимные углы между проекциями.

Из (10.24), (10.25) следует, что в качестве меры сохранения геометрических свойств объектов при проектировании на L можно использовать либо величину

либо величину

Программы, обеспечивающие выполнение метода главных компонент, входят практически во все пакеты статистических программ. Основные недостатки метода главных компонент связаны с тем, что, во-первых, оценка 2 может быть искажена из-за больших незамеченных «выбросов» в данных («outliers») и, во-вторых, метод главных компонент ориентирован прежде всего на выявление линейных связей.

С первой из указанных проблем можно справиться путем перехода к различного рода устойчивым оценкам, например взвешенным оценкам (см. п. 10.4.6 и [49]), либо путем предварительного удаления выбросов с помощью тех же, например, диаграмм рассеивания. Возможно также оценивание не по всей выборке, а только по какой-либо ее части. Например, в медицинских исследованиях — по данным практически здоровых пациентов. Аналогично для улучшения обозримости диаграммы рассеивания в случае большого числа объектов целесообразно проектировать не все наблюдения, а только ту их часть, которая в первую очередь интересует исследователя.

Для того чтобы преодолеть второй недостаток, можно использовать один из нелинейных методов отображения данных б пространство малой размерности.

<< Предыдущий параграф Следующий параграф >>
Оглавление