Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.
Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.
Цель Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining
Предварительные знания Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.
"За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности -горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота".
В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени.
Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.
Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний.
Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.
Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining [1].
Data Mining 2
Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлял...
Понятие Статистики
Статистика - это наука о методах сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению. Статистика является совокупностью методов планирования эксперимент...
Понятие Машинного обучения
Единого определения машинного обучения на сегодняшний день нет. Машинное обучение можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал такое определение: М...
Развитие технологии баз данных
1960-е гг. В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM. 1970-е гг. В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных Con...
Понятие Data Mining
Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации) [3]. Технологию Data Mining достаточно точно определяет Григорий П...
Классификация аналитических систем
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин Business Intelligence (BI), деловой интеллект или бизнес-интеллект. Этот термин предлож...
Мнение экспертов о Data Mining
Приведем несколько кратких цитат наиболее влиятельных членов бизнес-сообществ, которые являются экспертами в этой относительно новой технологии. Руководство по приобретению продуктов Data Mining (...
Квалификация пользователя
Различные инструменты Data Mining имеют различную степень дружелюбности интерфейса и требуют определенной квалификации пользователя. Поэтому программное обеспечение должно соответствовать уровню п...
Извлечение полезных сведений невозможно без хорошего понимания сути данных
Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной обла...
Сложность подготовки данных
Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего Data Mining-процесса. Так...
Отличия Data Mining от других методов анализа данных
Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на грубый разведочный ан...
Перспективы технологии Data Mining
Потенциал Data Mining дает зеленый свет для расширения границ применения технологии. Относительно перспектив Data Mining возможны следующие направления развития: • выделение типов предметных облас...
Существующие подходы к анализу
Достаточно долго дисциплина Data Mining не признавалась полноценной самостоятельной областью анализа данных, иногда ее называют задворками статистики (Pregibon, 1997). На сегодняшний день определи...
Что такое данные?
В широком понимании данные представляют собой факты, текст, графики, картинки, звуки, аналоговые или цифровые видео-сегменты. Данные могут быть получены в результате измерений, экспериментов, ариф...
Набор данных и их атрибутов
В таблице 2.1 представлена двухмерная таблица, представляющая собой набор данных. По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы - объекты. Объект опи...
Набор данных и их атрибутов 2
В результате операционализации понятий [6], т.е. перехода от общих категорий к конкретным величинам, получается набор переменных изучаемого понятия. Переменная (variable) - свойство или характерис...
Измерения
Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки данных измеряется не сам объект, а его характеристики. Шкала - правило...
Шкалы
Существует пять типов шкал измерений: номинальная, порядковая, интервальная, относительная и дихотомическая. Номинальная шкала (nominal scale) - шкала, содержащая только категории; данные в ней не...
Шкалы 2
Дихотомическая шкала (dichotomous scale) - шкала, содержащая только две категории. Пример такой шкалы: пол (мужской и женский). Пример использования разных шкал для измерений свойств различных объ...
Данные, состоящие из записей
Наиболее часто встречающиеся данные - данные, состоящие из записей (record data) [7]. Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или оп...
Графические данные
Примеры графических данных: WWW-данные; молекулярные структуры; графы (рис. 2.2); карты. Рис. 2.2. Пример графа С помощью карт, например, можно отследить изменения объектов во времени и пространст...
Химические данные
Химические данные представляют собой особый тип данных. Пример таких данных: Benzene Molecule: C6H6 (рис. 2.4) Рис. 2.4. Пример химических данных Согласно опросу на сайте Kdnuggets, (апрель, 2004...
Форматы хранения данных
Одна из основных особенностей данных современного мира состоит в том, что их становится очень много. Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обр...
Базы данных. Основные положения
Для понимания организации данных в базе данных необходимо знание основных положений теории баз данных. Рассмотрим некоторые положения этой теории. База данных (Database) - это особым образом орган...
Системы управления базами данных, СУБД
Система управления базой данных - это программное обеспечение, контролирующее организацию, хранение, целостность, внесение изменений, чтение и безопасность информации в базе данных. СУБД (Database...
Классификация видов данных
Какими могут быть данные? Ниже приведено несколько классификаций. Реляционные данные - это данные из реляционных баз (таблиц). Многомерные данные - это данные, представленные в кубах OLAP. Измерен...
Метаданные
В завершение лекции о данных рассмотрим понятие метаданных. Метаданные (Metadata) - это данные о данных. В состав метаданных могут входить: каталоги, справочники, реестры. Метаданные содержат свед...
Выводы.
В лекции были рассмотрены понятие данных, объектов и атрибутов, их характеристики, типы шкал, понятие набора данных и его типы. Описаны возможные форматы хранения данных. Введены понятия базы данн...
Классификация стадий Data Mining
Data Mining может состоять из двух [8] или трех стадий [9]: Стадия 1. Выявление закономерностей (свободный поиск). Стадия 2. Использование выявленных закономерностей для предсказания неизвестных з...
Свободный поиск (Discovery)
На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются. Зако...
Прогностическое моделирование (Predictive Modeling)
Вторая стадия Data Mining - прогностическое моделирование - использует результаты работы первой стадии. Здесь обнаруженные закономерности используются непосредственно для прогнозирования. Прогност...
Анализ исключений (forensic analysis)
На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в найденных закономерностях. Действие, выполняемое на этой стадии, - выявление отклонений (deviation detection). Для...
Методы на основе уравнений.
Методы этой группы выражают выявленные закономерности в виде математических выражений - уравнений. Следовательно, они могут работать лишь с численными переменными, и переменные других типов должны...
Арсенал статистических методов Data Mining классифицирован на четыре группы методов:
1. Дескриптивный анализ и описание исходных данных. 2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ). 3. Многомерный статистический анализ (компонен...
Кибернетические методы Data Mining
Второе направление Data Mining - это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта. К этой группе относятся такие методы: • искусс...
Методы Data Mining также можно классифицировать по задачам Data Mining.
В соответствии с такой классификацией выделяем две группы. Первая из них - это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи...
Свойства методов Data Mining
Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристи...
Свойства методов Data Mining 2
Напомним, что в основу технологии Data Mining положена концепция шаблонов, представляющих собой закономерности. В результате обнаружения этих, скрытых от невооруженного глаза закономерностей решаю...
Задачи Data Mining
Классификация (Classification) Краткое описание. Наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют гр...
Классификация задач Data Mining
Согласно классификации по стратегиям, задачи Data Mining подразделяются на следующие группы: • обучение с учителем; • обучение без учителя; • другие. Категория обучение с учителем представлена сле...
Объяснение и описание
Пример задачи: характеристика клиентов по демографическим данным и историям покупок. Методы: деревья решения, системы правил, правила ассоциации, анализ связей. Если доход клиента больше, чем 50 у...
Связь понятий
Итак, в предыдущей лекции нами были рассмотрены методы Data Mining и действия, выполняемые в рамках стадий Data Mining. Только что мы рассмотрели основные задачи Data Mining. Напомним, что главная...
От данных к решениям
Для начала рассмотрим первый поток. На рис. 4.1.показана связь понятий данные, информация и решения, которая возникает в процессе принятия решений. Как видно из рисунка, данный процесс является ци...
От данных к решениям 2
Теперь подойдем к этому же процессу с другой стороны. Рассмотрим рис. 4.2. По словам авторов [17], он не претендует на полноту, зато отображает все уровни, которые затрагивает Data Mining. Следует...
От данных к решениям 3
Средний - уровень действий - по своей сути является уровнем информации, именно на нем выполняются действия Data Mining; на рисунке приведены такие действия: Нижний - уровень определения задачи Dat...
Информация
Сейчас остановимся на еще не рассмотренном понятии информации. Несмотря на распространенность данного понятия, мы не всегда можем точно его определить и отличить от понятия данных. Информация, по...
Свойства информации
• Полнота информации. Это свойство характеризует качество информации и определяет достаточность данных для принятия решений, т.е. информация должна содержать весь необходимый набор данных. Пример....
Требования, предъявляемые к информации
• Динамический характер информации. Информация существует только в момент взаимодействия данных и методов, т.е. в момент информационного процесса. Остальное время она пребывает в состоянии данных....
Знания
Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача. Итак, формирование информации происходит в процессе сбора и передачи, т.е. обр...
Сопоставление и сравнение понятий "информация", "данные", "знание"
Для того чтобы уверенно оперировать понятиями информация, данные, знание, необходимо не только понимать суть этих понятий, но и прочувствовать отличия между ними. Однако, одной интуитивной интерпр...
Задача классификации
Классификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Ввиду распространенности задач классификации необходимо четкое понимания сути этого понятия. При...
Задача классификации 2
Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, х...
Задача классификации 3
Задача. Определить, к какому классу принадлежит новый клиент и какой из двух видов рекламных материалов ему стоит отсылать. Для наглядности представим нашу базу данных в двухмерном измерении (возр...
Задача классификации 4
Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков. Для проведения классификации с помощью математических методов н...
Задача классификации 5
Процесс классификации, а именно, конструирование модели и ее использование, представлен на рис. 5.2. -5.3....
Задача классификации 6
Методы, применяемые для решения задач классификации
Для классификации используются различные методы. Основные из них: • классификация с помощью деревьев решений; • байесовская (наивная) классификация; • классификация при помощи искусственных нейрон...
Методы, применяемые для решения задач классификации 2
if X 5 then grey else if Y 3 then orange else if X 2 then grey else orange...
Методы, применяемые для решения задач классификации 3
Точность классификации: оценка уровня ошибок
Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое...
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик [21]: скорость, робастность, интерпретируемость, надежность. Скорость характеризует время, которое требуется на создание мод...
Задача кластеризации
Только что мы изучили задачу классификации, относящуюся к стратегии обучение с учителем. В этой части лекции мы введем понятия кластеризации, кластера, кратко рассмотрим классы методов, с помощью...
Задача кластеризации 2
В таблице 5.2 приведено сравнение некоторых параметров задач классификации и кластеризации....
Задача кластеризации 3
На рис. 5.7 схематически представлены задачи классификации и кластеризации....
Задача кластеризации 4
Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping) [22]. Схематическое изображение непересекающихся и пересекающихся кластеров д...
Задача кластеризации 5
На сегодняшний день разработано более сотни различных алгоритмов кластеризации. Некоторые, наиболее часто используемые, будут подробно описаны во втором разделе курса лекций. Приведем краткую хара...
Оценка качества кластеризации
Оценка качества кластеризации может быть проведена на основе следующих процедур: • ручная проверка; • установление контрольных точек и проверка на полученных кластерах; • определение стабильности...
Процесс кластеризации
Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров...
Применение кластерного анализа
Кластерный анализ применяется в различных областях. Он полезен, когда нужно классифицировать большое количество информации. Обзор многих опубликованных исследований, проводимых с помощью кластерно...
Практика применения кластерного анализа в маркетинговых исследованиях
Приведем некоторые известные статьи, посвященные применению кластерного анализа для маркетинговых исследований. В 1971 году была опубликована статья о сегментации клиентов по сфере интересов на ос...
Выводы
В этой лекции нами были подробно рассмотрены задачи классификации и кластеризации. Несмотря на кажущуюся похожесть этих задач, решаются они разными способами и при помощи разных методов. Различие...
Задача прогнозирования
Задачи прогнозирования решаются в самых разнообразных областях человеческой деятельности, таких как наука, экономика, производство и множество других сфер. Прогнозирование является важным элементо...
Сравнение задач прогнозирования и классификации
В предыдущей лекции нами была рассмотрена задача классификации. Прогнозирование сходно с задачей классификации. Многие методы Data Mining используются для решения задач классификации и прогнозиров...
Прогнозирование и временные ряды
Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов. Существует понятие Data Mining временных рядов (Time-Series Data Mining). На основе рет...
Прогнозирование и временные ряды 2
Приведем два принципиальных отличия временного ряда от простой последовательности наблюдений: • Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независим...
Тренд, сезонность и цикл
Основными составляющими временного ряда являются тренд и сезонная компонента. Составляющие этих рядов могут представлять собой либо тренд, либо сезонную компоненту. Тренд является систематической...
Тренд, сезонность и цикл 2
Таким образом, в процессе подготовки данных для прогнозирования аналитику следует определить, обладает ли ряд, который он анализирует, свойством сезонности. Определение наличия компоненты сезоннос...
Тренд, сезонность и цикл 3
Отличия циклической компоненты от сезонной: 1. Продолжительность цикла, как правило, больше, чем один сезонный период; 2. Циклы, в отличие от сезонных периодов, не имеют определенной продолжительн...
Точность прогноза
Точность прогноза, требуемая для решения конкретной задачи, оказывает большое влияние на прогнозирующую систему. Ошибка прогноза зависит от используемой системы прогноза. Чем больше ресурсов имеет...
Виды прогнозов
Прогноз может быть краткосрочным, среднесрочным и долгосрочным. Краткосрочный прогноз представляет собой прогноз на несколько шагов вперед, т.е. осуществляется построение прогноза не более чем на...
Методы прогнозирования
Методы Data Mining, при помощи которых решаются задачи прогнозирования, будут рассмотрены во втором разделе курса. Среди распространенных методов Data Mining, используемых для прогнозирования, отм...
Задача визуализации
Визуализация - это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определ...
Плохая визуализация
Результаты визуализации иногда могут вводить пользователя в заблуждение. Приведем простой пример плохой визуализации. Допустим, мы имеем базу Прибыль компании А за период с 2000 по 2005 года, она...
Плохая визуализация 2
Данный рисунок демонстрирует значительный рост прибыли компании А за период с 2000 по 2005 года. Однако, если мы обратим внимание на ось y, показывающую величину прибыли, то увидим, что эта ось пе...
Сферы применения Data Mining
В предыдущих лекциях мы рассмотрели задачи и методы Data Mining. Однако вводная часть не будет полной, если не рассмотреть, для каких конкретных задач и в каких сферах жизнедеятельности человека м...
Применение Data Mining для решения бизнес-задач
Банковское дело Технология Data Mining используется в банковской сфере для решения ряда типичных задач. Задача Выдавать ли кредит клиенту? Классический пример применения Data Mining в банковском д...
Страхование
Страховой бизнес связан с определенным риском. Здесь задачи, решаемые при помощи Data Mining, сходны с задачами в банковском деле. Информация, полученная в результате сегментации клиентов на групп...
Телекоммуникации
В сфере телекоммуникаций достижения Data Mining могут использоваться для решения задачи, типичной для любой компании, которая работает с целью привлечения постоянных клиентов, - определения лояльн...
Электронная коммерция
В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетителей Web-сайтов. Такая классификация позволяет компаниям выявлят...
Маркетинг
В сфере маркетинга Data Mining находит очень широкое применение. Основные вопросы маркетинга Что продается?, Как продается?, Кто является потребителем? В лекции, посвященной задачам классификации...
Розничная торговля
В сфере розничной торговли, как и в маркетинге, применяются: • алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно)...
Фондовый рынок
Вот список задач фондового рынка, которые можно решать при помощи технологии Data Mining [30]: • прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям; • п...
Применение Data Mining в CRM
Одно из наиболее перспективных направлений применения Data Mining - использование данной технологии в аналитическом CRM. CRM (Customer Relationship Management) - управление отношениями с клиентами...
Исследования для правительства
В планах правительства США стоит создание системы, которая позволит отслеживать всех иностранцев, приезжающих в страну. Задача этого комплекса: начиная с пограничного терминала, на основе технолог...
Data Mining для научных исследований
Биоинформатика Одна из научных областей применения технологии Data Mining - биоинформатика, направление, целью которого является разработка алгоритмов для анализа и систематизации генетической инф...
Молекулярная генетика и генная инженерия
В молекулярной генетике и генной инженерии выделяют отдельное направление Data Mining, которое имеет название анализ данных в микро-массивах (Microarray Data Analysis, MDA). Подробно с применением...
Химия
Технология Data Mining активно используется в исследованиях органической и неорганической химии. Одно из возможных применений Data Mining в этой сфере -выявление каких-либо специфических особеннос...
Примеры систем интеллектуальных агентов поиска:
• Harvest (Brown и др., 1994), • FAQ-Finder (Hammond и др., 1995), • Information Manifold (Kirk и др., 1995), • OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997), • ILA (Information Learni...
Text Mining
Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text -...
Call Mining
По словам Энн Беднарц [32], добыча звонков может стать популярным инструментом корпоративных информационных систем. Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mi...
Анализ данных в Microsoft Excel
Microsoft Excel имеет большое число статистических функций. Некоторые являются встроенными, некоторые доступны после установки пакета анализа. В данной лекции мы воспользуемся именно этим программ...
Описательная статистика
Описательная статистика (Descriptive statistics ) - техника сбора и суммирования количественных данных, которая используется для превращения массы цифровых данных в форму, удобную для восприятия и...
Описательная статистика 2
В состав описательной статистики входят такие характеристики: среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; асимметричность; интервал; минимум; ма...
Центральная тенденция
Измерение центральной тенденции заключается в выборе числа, которое наилучшим способом описывает все значения признака набора данных. Такое число имеет как свои достоинства, так и недостатки. Мы р...
Характеристики вариации данных
Наиболее простыми характеристиками выборки являются максимум и минимум. Минимум - наименьшее значение выборки. Максимум - наибольшее значение выборки. Размах - разница между наибольшим и наименьши...
Корреляционный анализ
Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Корреляционный анализ дает возможность установить, ассоциированы ли...
Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона r, который является безразмерным индексом в интервале от -1,0 до 1,0 включительно, отражает степень линейной зависимости между двумя множествами данных. Показатель т...
Коэффициент корреляции Пирсона 2
Таким образом, мы можем установить зависимость между переменными x и y. Рассчитаем коэффициент корреляции Пирсона между двумя массивами (x и y) при помощи функции MS Excel ПИРСОН(массив1;массив2)....
Регрессионный анализ
Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными. Последовательность эт...
Задачи регрессионного анализа
Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной. Установление формы зависимости....
Уравнение регрессии
Уравнение регрессии выглядит следующим образом: Y=a+b*X При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значен...
ВЫВОД ИТОГОВ
Таблица 8.3а. Регрессионная статистика Регрессионная статистика Множественный R 0,998364 R-квадрат 0,99673 Нормированный R-квадрат 0,996321 Стандартная ошибка 0,42405 Наблюдения 10 Сначала рассмот...
ВЫВОД ОСТАТКА
При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в нашем случае 1 9,610909091 -0,610909091 -1,528044662 2...
ВЫВОД ОСТАТКА 2
Следует учитывать, что рассматриваемый пример является достаточно простым и далеко не всегда возможно качественное построение регрессионной прямой линейного вида. Осталась нерассмотренной задача о...
ВЫВОД ОСТАТКА 3
Имея уравнение регрессии, задача прогнозирования сводится к решению уравнения Y= x*2,305454545+2,694545455 с известными значениями x. Результаты прогнозирования зависимой переменной Y на шесть шаг...
Выводы
В этой части лекции мы рассмотрели основные характеристики описательной статистики и среди них такие понятия, как среднее значение, медиана, максимум, минимум и другие характеристики вариации данн...
Выводы 2
В результате прохождения от корня дерева (иногда называемого корневой вершиной) до его вершины решается задача классификации, т.е. выбирается один из классов - играть и не играть в гольф. Целью по...
Выводы 3
В рассмотренном примере решается задача бинарной классификации, т.е. создается дихотомическая классификационная модель. Пример демонстрирует работу так называемых бинарных деревьев. В узлах бинарн...
Выводы 4
Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных. Эти атрибуты Каждая ветвь дерева, идущая от внутреннего уз...
Преимущества деревьев решений
Интуитивность деревьев решений. Классификационная модель, представленная в виде дерева решений, является интуитивной и упрощает понимание решаемой задачи. Результат работы алгоритмов конструирован...
Процесс конструирования дерева решений
Напомним, что рассматриваемая нами задача классификации относится к стратегии обучения с учителем, иногда называемого индуктивным обучением. В этих случаях все объекты тренировочного набора данных...
Критерий расщепления
Процесс создания дерева происходит сверху вниз, т.е. является нисходящим. В ходе процесса алгоритм должен найти такой критерий расщепления, иногда также называемый критерием разбиения, чтобы разби...
Остановка построения дерева
Рассмотрим правило остановки. Оно должно определить, является ли рассматриваемый узел внутренним узлом, при этом он будет разбиваться дальше, или же он является конечным узлом, т.е. узлом решением...
Сокращение дерева или отсечение ветвей
Решением проблемы слишком ветвистого дерева является его сокращение путем отсечения (pruning) некоторых ветвей. Качество классификационной модели, построенной при помощи дерева решений, характериз...
Алгоритмы
На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, C4.5, CHAID, CN2, NewId, ITrule и другие. Алгоритм CART Алгоритм CART (Classification and Regression Tre...
Алгоритм C4.5
Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классифи...
Выводы
В лекции мы рассмотрели метод деревьев решений; определить его кратко можно как иерархическое, гибкое средство предсказания принадлежности объектов к определенному классу или прогнозирования значе...
Метод опорных векторов
Метод опорных векторов (Support Vector Machine - SVM) относится к группе граничных методов. Она определяет классы при помощи границ областей. При помощи данного метода решаются задачи бинарной кла...
Метод опорных векторов 2
Метод отыскивает образцы, находящиеся на границах между двумя классами, т.е. опорные вектора; они изображены на рис. 10.3....
Метод опорных векторов 3
Опорными векторами называются объекты множества, лежащие на границах областей. Классификация считается хорошей, если область между границами пуста. На рис. 10.3.показано пять векторов, которые явл...
Линейный SVM
Решение задачи бинарной классификации при помощи метода опорных векторов заключается в поиске некоторой линейной функции, которая правильно разделяет набор данных на два класса. Рассмотрим задачу...
Линейный SVM 2
Наилучшей функцией классификации является функция, для которой ожидаемый риск минимален. Понятие ожидаемого риска в данном случае означает ожидаемый уровень ошибки классификации. Напрямую оценить...
Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
Следует сразу отметить, что метод ближайшего соседа (nearest neighbour) относится к классу методов, работа которых основывается на хранении данных в памяти для сравнения с новыми элементами. При п...
Преимущества метода
• Простота использования полученных результатов. • Решения не уникальны для конкретной ситуации, возможно их использование для других случаев. • Целью поиска является не гарантированно верное реше...
Недостатки метода "ближайшего соседа"
• Данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опыт, -в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, н...
Решение задачи классификации новых объектов
Эта задача схематично изображена на рис. 10.5. Примеры (известные экземпляры ) отмечены знаком + или -, определяющим принадлежность к соответствующему классу (+ или -), а новый объект, который тре...
Решение задачи классификации новых объектов 2
Теперь увеличим число используемых ближайших соседей до двух. На этот раз метод k-ближайших соседей не сможет классифицировать отклик точки запроса, поскольку вторая ближайшая точка имеет знак мин...
Решение задачи классификации новых объектов 3
Сначала рассмотрим в качестве примера метод k-ближайших соседей с использованием одного ближайшего соседа, т.е. при k, равном единице. Мы ищем набор примеров (зеленые прямоугольники) и выделяем из...
Оценка параметра k методом кросс-проверки
Один из вариантов оценки параметра k - проведение кросс-проверки (Bishop, 1995). Такая процедура реализована, например, в пакете STATISTICA (StatSoft) [39]. Кросс-проверка - известный метод получе...
Байесовская классификация
Альтернативные названия: байесовское моделирование, байесовская статистика, метод байесовских сетей. Ознакомиться детально с байесовской классификацией можно в [11]. Изначально байесовская классиф...
Байесовская классификация нашла широкое применение на практике.
Байесовская фильтрация по словам Не так давно баесовская классификация была предложена для персональной фильтрации спама. Первый фильтр был разработан Полем Грахемом (Paul Graham). Для работы алго...
Элементы нейронных сетей
Искусственный нейрон (формальный нейрон) - элемент искусственных нейронных сетей, моделирующий некоторые функции биологического нейрона. Главная функция искусственного нейрона - формировать выходн...
Элементы нейронных сетей 2
Каждый синапс характеризуется величиной синаптической связи (ее весом wi). Текущее состояние нейрона определяется как взвешенная сумма его входов: Выход нейрона есть функция его состояния: y = f(s...
Архитектура нейронных сетей
Нейронные сети могут быть синхронные и асинхронные. В синхронных нейронных сетях в каждый момент времени свое состояние меняет лишь один нейрон. Можно выделить две базовые архитектуры - слоистые и...
Обучение нейронных сетей
Перед использованием нейронной сети ее необходимо обучить. Процесс обучения нейронной сети заключается в подстройке ее внутренних параметров под конкретную задачу. Алгоритм работы нейронной сети я...
Переобучение нейронной сети
При обучении нейронных сетей часто возникает серьезная трудность, называемая проблемой переобучения (overfitting). Переобучение, или чрезмерно близкая подгонка - излишне точное соответствие нейрон...
Модели нейронных сетей
Рассмотрим наиболее простые модели нейронных сетей: однослойный и многослойный персептрон. Персептрон Большое количество моделей персептрона рассмотрено в основополагающей работе Розенблатта [47]....
Модели нейронных сетей 2
В этой модели персептрона должен быть хотя бы один скрытый слой. Присутствие нескольких таких слоев оправдано лишь в случае использования нелинейных функций активации. Пример двухслойного персептр...