Мы рассмотрели процесс Data Mining с двух сторон: как последовательность этапов и как последовательность работ, выполняемых исполнителями ролей Data Mining.
Существует еще одна сторона - это стандарты, описывающие методологию Data Mining. Последние рассматривают организацию процесса Data Mining и разработку Data Mining-систем.
CRISP-DM [100] (The Cross Industrie Standard Process for Data Mining - Стандартный межотраслевой процесс Data Mining) является наиболее популярной и распространенной методологией. Членами консорциума CRISP-DM являются NCR, SPSS и DаimlerChrysler.
В соответствии со стандартом CRISP, Data Mining является непрерывным процессом со многими циклами и обратными связями.
Data Mining по стандарту CRISP-DM включает следующие фазы:
1. Осмысление бизнеса (Business understanding).
2. Осмысление данных (Data understanding).
3. Подготовка данных (Data preparation).
4. Моделирование (Modeling).
5. Оценка результатов (Evaluation).
6. Внедрение (Deployment).
К этому набору фаз иногда добавляют седьмой шаг - Контроль, он заканчивает круг. Фазы Data Mining по стандарту CRISP-DM изображены на рис. 21.2.