Поддерживаются также другие, сторонние источники:
• текстовый файл с разделителями;
• Microsoft Excel;
• Microsoft Access;
• Dbase;
• CSV-файлы;
• ADO-источники -позволяют получить информацию из любого ODBC-источника (Oracle, MS SQL, Sybase и прочее).
Обычно в программу загружаются не все данные, а какая-то выборка, необходимая для дальнейшего анализа.
После получения выборки можно получить подробную статистику по ней, посмотреть, как выглядят данные на диаграммах и гистограммах.
После такого разведочного анализа можно принимать решения о необходимости предобработки данных. Например, если статистика показывает, что в выборке есть пустые значения (пропуски данных), можно применить фильтрацию для их устранения.
Предобработанные данные далее подвергаются трансформации. Например, нечисловые данные преобразуются в числовые, что необходимо для некоторых алгоритмов.
К трансформированным данным применяются методы более глубокого анализа. На этом этапе выявляются скрытые зависимости и закономерности в данных, на основании которых строятся различные модели. Модель представляет собой шаблон, который содержит формализованные знания.
Последний этап - интерпретация - предназначен, чтобы из формализованных знаний получить знания на языке предметной области.