Другой нелинейный проекционный метод, тесно


Другой нелинейный проекционный метод, тесно связанный с многомерным масштабированием представляется с помощью отображения Сэммона (Sammon’s mapping).

Данный алгоритм также пытается подогнать попарные расстояния в отображении малой размерности элементов данных к их исходным расстояниям. Разница между отображением Сэммона и метрическим MDS состоит в том, что при отображении Сэммона малые расстояния сохраняются в большей степени. В метрическом MDS большим расстояниям придается относительно больший вес при вычислении проекции, в то время как в отображении Сэммона все вклады нормируются.

Как указывалось в предыдущем разделе, обычно анализ финансового состояния компаний на предмет прогнозирования банкротства проводится на основании коэффициентов, получаемых из финансовых данных, публикуемых самими компаниями. К этим данным применяются традиционные методы, основанные на одномерном или многомерном статистическом анализе. Наиболее популярными среди них являются такие многомерные статистические методы, как дискриминантный анализ и логистическая регрессия. Общим в этих методах является то, что все они имеют целью получение некоторой оценки, которую можно было бы легко интерпретировать как показатель платежеспособности компании. Хотя такие оценки и показатели часто полезны, они не свободны от недостатков, причиной которых является информация, на которой они основываются. Разные компании могут обладать различной финансовой структурой и одновременно иметь при этом одинаковые значения показателя платежеспособности. Поэтому однозначно определить финансовые признаки, характеризующие компанию или стоящие перед ней проблемы, на основании одного только показателя платежеспособности нельзя.

С математической точки зрения все методы визуального представления сложных многомерных данных призваны снизить их размерность, т.е. сжать массивы финансово-экономических параметров предприятий с минимальной потерей информации. Иными словами, нужно определить наименьшее число переменных, которые являлись бы функциями исходных данных, с целью повышения их содержательности. При наличии ограничения, согласно которому новые переменные должны представлять собой линейные комбинации старых, для решения подобной задачи часто используется метод главных компонент (МГК), реализуемый с помощью компьютерных программ.

Геометрически МГК имеет целью нахождение гиперплоскости, которая наилучшим образом описывала бы входные данные. МГК аналогичен максимизации содержания информации в рассмотренных выше алгоритмах, осуществляющих разделение на классы с помощью гиперплоскостей. Преимущество МГК перед обычной статистической процедурой состоит в отсутствии необходимости производить расчет полной корреляционной матрицы. В данном методе первые собственные вектора этой матрицы вычисляются с помощью электронного алгоритма адаптивно и исходя непосредственно из входных данных. Это дает существенную экономию вычислительных ресурсов при значительном сжатии данных. Данный метод позволяет находить комбинации первых собственных векторов без поиска этих векторов как таковых. Линейный МГК дает возможность ясно судить о качестве сжатия данных. Ошибка, минимизированная с помощью МГК, представляет собой сумму расстояний между точками входных данных и их проекциями на некоторую гиперплоскость. Будучи выровненной по дисперсии, данная величина указывает на относительное несоответствие данных, образовавшееся в результате сжатия. Дополнительная величина . отношение дисперсии данных, спроецированных на гиперплоскость, к исходной дисперсии входных данных . максимизируется посредством МГК.

Содержание раздела