Выбор или определение оптимального объема данных в связи с целями исследования является важным этапом любого анализа. Такие преимущества алгоритма АНС, как конкурентное обучение и высокая способность к выявлению структурных особенностей данных, могут подвести исследователя к решению использовать все имеющиеся данные вместо того, чтобы произвести их тщательный отбор, исходя из целей исследования. Однако такой подход повышает уровень информационных помех. Чтобы выделить только необходимые данные, важно понять смысл имеющейся информации. С этой целью может быть использованы заключения экспертов в соответствующих областях. После определения общего круга и объема необходимых данных следует провести отбор переменных, которые будут использоваться в ходе анализа. При этом должны оставляться лишь те переменные, которые имеют смысл с точки зрения целей исследования. При отборе показателей необходимо иметь в виду, что невозможно извлечь из данных то, чего в них не содержится.
При большом числе возможных переменных должны отбираться только те, которые с наибольшей вероятностью могут повлиять на результат. В ряде случаев целесообразно рассмотреть возможность использования различных типов переменных, таких как отношения, временные инварианты, комбинации различных переменных и т.д. Часто добавление одной или нескольких переменных, несущественных с точки зрения технологии анализа, может сильно повлиять на формирование кластеров. В то же время, если не принять во внимание хотя бы одну или несколько существенных переменных, результаты могут значительно исказиться.
Допустимым приемом для построения промежуточной АНС является начальный выбор лишь самых существенных параметров, например основных балансовых показателей для предприятий-эмитентов. Впоследствии круг используемых данных должен последовательно расширяться за счет включения менее важных показателей.
Это процесс необходимо завершить добавлением рыночных показателям по ценным бумагам эмитентов.
Как правило, входная информация содержится в текстовых файлах или электронных таблицах Excel. При построении АНС эти входные данные представляются в виде строк и столбцов, например, строки содержат данные по отдельным компаниям, а столбцы . по перечисленным выше показателям. В первой строке таблицы входных данных содержатся также сокращенные обозначения показателей, а в последнем столбце . метки или сокращенные названия компаний. Если название показателя не определено, компоненты можно именовать следующим образом: «Компонента 1», «Компонента 2» и т.д.
Пропущенные данные следует отметить знаками «..» или «х».