ФЭНДОМ


Интеллектуальный анализ данных (англ. Data Mining ) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Подразделяется на задачи классификации, моделирования и прогнозирования и другие. Термин «Data Mining» введен Григорием Пятецким-Шапиро в 1989 году.[источник не указан 2975  дней]


Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД).

ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи, решаемые ИАД Править

  1. Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
  4. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis

) — вместе с пивом часто покупают орешки.

  1. Прогнозирование
  2. Анализ отклонений — Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
  3. Визуализация

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.

Алгоритмы обучения Править

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание здесь уделяется аппроксимации данных.

Этапы обучения Править

Можно выделить типичный ряд этапов решения задач методами ИАД:

  1. Формирование гипотезы;
  2. Сбор данных;
  3. Подготовка данных (фильтрация);
  4. Выбор модели;
  5. Подбор параметров модели и алгоритма обучения;
  6. Обучение модели (автоматический поиск остальных параметров модели);
  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

См. также Править

Литература Править


  • Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.





Ссылки Править





Обнаружено использование расширения AdBlock.


Викия — это свободный ресурс, который существует и развивается за счёт рекламы. Для блокирующих рекламу пользователей мы предоставляем модифицированную версию сайта.

Викия не будет доступна для последующих модификаций. Если вы желаете продолжать работать со страницей, то, пожалуйста, отключите расширение для блокировки рекламы.

Также на ФЭНДОМЕ

Случайная вики