Традиционные подходы 4


Проекционные методы можно разделить на два основных типа: линейные и нелинейные.

Линейные проекционные методы построены на том, что если n -мерный набор данных можно представить как n -мерное пространство, то двумерное пространство (т.е. плоскость) или одномерное пространство (т.е. прямая) будут представлять собой его подпространства.

Множество данных может быть представлено в виде подмножества векторов, которые образуют линейное подпространство меньшей размерности. Каждый вектор m—мерного линейного подпространства (где m  n ) есть линейная комбинация m независимых базисных векторов.

В качестве примера линейного проекционного метода рассмотрим метод анализа главных компонент (РСА . principal component analysis), являющийся стандартным методом изображения векторов данных большой размерности в виде линейной проекции на подпространство меньшей размерности. В соответствии с ним каждая компонента проецируемого вектора представляется как линейная комбинация компонент исходного элемента данных. Проекция получается посредством умножения каждой компоненты на определенный фиксированный скалярный коэффициент и сложения всех результатов. Существуют математические методы для нахождения оптимальных коэффициентов, таких, что дисперсия данных после проецирования сохраняется. Данный метод содержит наиболее интуитивно понятные и эффективные алгоритмы для вычисления проекций.

Если данные в наборе имеют большую размерность, а их распределение отличается значительной асимметрией, то визуальное представление структур распределения такого набора данных с использованием линейных проекций на изображение малой размерности может оказаться затруднительным. Существует несколько подходов для отображения нелинейных структур данных большой размерности в пространствах малой размерности. Самые популярные из них воспринимают каждый элемент данных как точку в пространстве меньшей размерности, пытаясь затем оптимизировать отображение таким образом, чтобы расстояния между образами точек были бы сходны настолько, насколько это возможно при имеющихся исходных расстояниях между соответствующими исходными элементами данных. Разные методы отличаются лишь способом взвешивания различных расстояний и оптимизации отображения.

В качестве примера нелинейного проекционного метода рассмотрим многомерное масштабирование (MDS . multi-dimensional scaling). Целью MDS является геометрическое представление набора данных. При помощи многомерного масштабирования формируется графическое представление, состоящее из точек, нанесенных на несколько плоскостей, которые, в свою очередь, позволяют обобщить основные признаки данных, будучи очень простыми в интерпретации. MDS относится к группе методов, которые широко используются в эконометрике для анализа субъективных оценок попарно сходных признаков объектов. Метод MDS начинается с рассмотрения матрицы, состоящей из попарных неоднородностей (различий) объектов. Здесь рассматриваются только ясно выраженные расстояния между элементами данных. Однако в MDS различия не являются расстояниями в чисто математическом смысле слова. MDS наиболее часто используется для создания пространств, объекты в которых могут быть представлены в виде векторов даже тогда, когда в наличии имеются лишь некоторые оценки различий между объектами. Он не только позволяет создать пространство, в котором были бы достоверно представлены соотношения данных, но дает возможность сократить размерность набора данных до достаточно малой величины, которая допускала бы визуальную оценку этого набора.