Интеллектуальный анализ данных. Интеллектуальные технологии

Автор работы: Пользователь скрыл имя, 26 Сентября 2011 в 23:37, лекция

Краткое описание

Интеллектуальный анализ данных (англ. Data Mining) — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [1] . Подразделяется на задачи классификации, моделирования и прогнозирования, распознавания и др.

Содержимое работы - 1 файл

Лекция №1.docx

— 72.14 Кб (Скачать файл)

                                    Лекция № 1

              Интеллектуальный анализ данных.                                         Интеллектуальные технологии.

  1. От  набора данных к новым  знаниям. Логика эволюции.

    Интеллектуальный  анализ данных (англ. Data Mining) — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [1] . Подразделяется на задачи классификации, моделирования и прогнозирования, распознавания и др.

Одна из главных  тенденций на рынке учетно-управленческих систем - постоянное повышение спроса на применение средств аналитической  обработки данных, обеспечивающих принятие обоснованных решений. Характерный пример: система ПО "1С:Предприятие" с постоянным расширением возможностей экономической и аналитической отчетности. Однако сегодня заказчикам уже недостаточно традиционных инструментов, позволяющих формировать разнообразные отчеты, сводные таблицы и диаграммы, которые создаются на основе заранее определенных показателей и связей и которые можно анализировать вручную. Предприятиям все чаще нужны качественно иные средства, позволяющие автоматически искать неочевидные правила и выявлять неизвестные закономерности (рис. 1). Именно так можно генерировать качественно новые знания на основе накопленной информации и принимать нетривиальные решения для повышения эффективности экономической или хозяйственной деятельности, применяя методы интеллектуального анализа данных (ИАД).

    
    
    Рис. 1. Логика развития "интеллектуальности" решаемых аналитических задач.     

Выпуск летом 2003 г. новой версии технологической  платформы "1С:Предприятие 8.0" позволил существенно расширить возможности  бизнес-аналитики в системе. Однако тут нужно сделать одно важное замечание. Платформенное ПО "1С" развивается не только "шагами", от версии к версии, но постоянно совершенствуется и расширяется внутри одной версии, причем в двух направлениях - технологическом и прикладном.

Механизм  ИАД представляет собой набор  взаимодействующих друг с другом объектов встроенного языка, благодаря  чему разработчик может использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко  организовать интерактивную настройку  параметров анализа пользователем, а также выводить результат анализа  в удобной для отображения  форме в табличный документ. Применяя к исходным данным один из видов  анализа, можно получить результат, который будет представлять собой  некую модель поведения данных. Результат  анализа можно отобразить в итоговом документе или сохранить для  дальнейшего использования - на его  основе можно создать модель прогноза, позволяющую прогнозировать поведение  новых данных.

  1. Технология выявления знаний
    
    
    Рис. 2. Общая схема функционирования механизма интеллектуального анализа  данных.     

В текущей  версии подсистемы реализованы методы, получившие наибольшее коммерческое распространение  в мировой практике, а именно:

  • кластеризация - реализует группировку объектов, максимизируя внутригрупповое сходство и межгрупповые отличия;
  • дерево решений - обеспечивает построение причинно-следственной иерархии условий, приводящей к определенным решениям;
  • поиск ассоциаций - выполняет поиск устойчивых комбинаций элементов в событиях или объектах;
  • распознавание классов

Рассмотрим суть и возможности практического применения этих методов ИАД.

  1. Методы выявления знаний  

Кластеризация

Цель кластеризации - выделение из множества объектов одной природы некоторого количества относительно однородных групп (сегментов  или кластеров). Объекты распределяются по группам таким образом, чтобы внутригрупповые отличия были минимальными, а межгрупповые - максимальными (рис. 3). Методы кластеризации позволяют перейти от пообъектного к групповому представлению совокупности произвольных объектов, что существенно упрощает оперирование ими. Ниже описаны несколько возможных сценариев применения кластеризации на практике.

Сегментация клиентов по определенной совокупности параметров позволяет выделить среди них устойчивые группы, имеющие сходные покупательские предпочтения, уровни продаж и платежеспособности, что значительно упрощает управление взаимоотношениями с клиентами.

При классификации товаров очень часто используются достаточно условные принципы классификации. Выделение сегментов на основе группы формальных критериев позволяет определить действительно однородные группы товаров. В условиях широкой и довольно разнородной номенклатуры товаров управление ассортиментом на уровне сегментов по сравнению с управлением на уровне номенклатуры существенно повышает эффективность продвижения, ценообразования, мерчендайзинга, управления цепочками поставок.

Сегментация менеджеров позволяет эффективнее спланировать организационные изменения, улучшить мотивационные схемы, скорректировать требования к нанимаемому персоналу, что в конечном счете позволяет повысить управляемость компании и стабильность бизнеса в целом.       

факторов. Способ измерения расстояния зависит от метрики, которая указывает принцип  определения сходства/различия между  объектами выборки. Текущая реализация поддерживает следующие метрики:

  • "евклидова метрика" - это стандартное расстояние между двумя точками в N-мерном евклидовом пространстве атрибутов;
  • "евклидова метрика в квадрате" - усиливает влияние различия (расстояния) на результат кластеризации;
  • "метрика города" - снижает влияние выбросов;
  • "метрика доминирования" - определяет различие между объектами выборки как максимальную из существующих разницу между значениями их атрибутов, поэтому полезна для усиления различий между объектами по одному атрибуту.

Способ формирования кластеров на основе информации о  расстоянии между кластеризуемыми  объектами определяется методом  кластеризации. Например,в текущей версии "1С:Предприятие 8.0" реализованы следующие методы кластеризации:

  • "ближней связи" - объект присоединяется к той группе, для которой расстояние до ближайшего объекта минимально;
  • "дальней связи" - объект присоединяется к той группе, для которой расстояние до наиболее дальнего объекта минимально;
  • "центра тяжести" - объект присоединяется к той группе, для которой расстояние до центра кластера минимально;
  • метод "k-средних" - выбираются произвольные объекты, которые считаются центрами кластеров, затем все анализируемые объекты последовательно перебираются и присоединяются к ближайшему к ним кластеру. После присоединения объекта рассчитывается новый центр кластера, который вычисляется как среднее значение атрибутов всех объектов, входящих в кластер. Процедура повторяется до тех пор, пока изменяются центры кластеров.

Любой из реализованных  в платформе методов кластеризации  предполагает явное указание количества искомых кластеров. Для атрибутов  объектов можно вводить веса, что  позволяет расставлять приоритеты между ними.

В результате анализа с помощью кластеризации  получают следующие данные:

  • центры кластеров, представляющие собой совокупность усредненных значений входных колонок в каждом кластере;
  • таблицу межкластерных расстояний (расстояния между центрами кластеров), определяющих степень различия между ними;
  • значения прогнозных колонок для каждого кластера;
  • рейтинг факторов и дерево условий, определивших распределение объектов на кластеры.

Алгоритмы кластеризации  позволяют не только провести кластерный анализ объектов на множестве заданных атрибутов, но и спрогнозировать  значение одного или нескольких из них для актуальной выборки на основании отнесения объектов этой выборки к тому или иному кластеру.

Поиск ассоциаций

Этот метод  предназначен для выявления устойчивых комбинаций элементов в определенных событиях или объектах. Результаты анализа представляются в виде групп  ассоциированных элементов. Здесь  же, помимо выявленных устойчивых комбинаций элементов, приводится развернутая  аналитика по ассоциированным элементам.

Применительно к этому сценарию в качестве ассоциируемых  элементов, как правило, выступают  товарные группы или отдельные товары. А группирующим объектом, объединяющим элементы выборок, может быть любой  объект информационной системы, идентифицирующий сделку: например, заказ покупателя, акт об оказании услуг или кассовый чек.

Информация  о закономерностях в товарных предпочтениях покупателей повышает эффективность управления отношениями  с клиентами (в части рекламных  кампаний и маркетинговых акций), ценообразования (формирование комплексных  предложений и системы скидок), управления запасами и мерчендайзинга (распределение товаров в торговых залах). Другой пример использования  этого метода - определение предпочитаемых клиентами комбинаций рекламных  каналов, чтобы исключить их дублирование при проведении целевых рекламных  кампаний. Это позволяет существенно  снизить издержки на подобные мероприятия. .

Дерево  решений 

В результате применения этого метода к исходным данным создается иерархическая (древовидная) структура правил вида "если... то...", а алгоритм анализа обеспечивает вычленение на каждом этапе наиболее значимых условий и переходов  между ними. Данный алгоритм получил  наибольшее распространение при  выявлении причинно-следственных связей в данных и описании поведенческих  моделей. Типичная зона применения деревьев решений - оценка различных рисков, например, закрытия заказа клиентом или  его перехода к конкуренту, несвоевременной  поставки товара поставщиком или  просрочки оплаты товарного кредита. В качестве типичных входных факторов модели выступают сумма и состав заказа, текущее сальдо взаиморасчетов, кредитный лимит, процент предоплаты, условия поставки и иные параметры, характеризующие объект прогноза. Адекватная оценка рисков обеспечивает принятие информированных решений для оптимизации отношения доходность/риск в деятельности компании, а также полезна для увеличения реалистичности различных бюджетов.

Алгоритм "Дерево решений" формирует причинно-следственную иерархию условий, приводящую к определенным решениям. В результате применения этого метода к обучающей выборке  создается иерархическая (древовидная) структура правил расщепления вида "если... то...". Алгоритм анализа (обучения модели) сводится к итеративному процессу вычленения наиболее значимых условий  и переходов между ними. Условия  могут иметь как количественный, так и качественный характер и  формируют "ветви" этого абстрактного дерева. Его "листву" образуют значения прогнозируемого атрибута (решения), которые, как и условия переходов, допускают и качественную, и количественную трактовку. Совокупность этих условий, налагаемых на факторы, и структура  переходов между ними до конечного  решения и образуют модель прогноза.

Распознавание образов

Роль распознавания  образов при обработке данных. Цель и задачи РО, краткие исторические сведения о развитии методов распознавания образов. Общая характеристика  проблемы распознавания объектов и явлений. Понятие образа. Качественное описание задачи распознавания образов.  Типы задач распознавания и их характерные черты. Структура системы распознавания образов. Задача распознавания образов как одна из задач анализа даннях 

                                 

        Основные  задачи, возникающие  при разработке систем  распознавания.  Понятия  об алфавите классов, словаре признаков, описании классов на языке признаков, априорной и апостериорной информации. Методы распознавания образов. Cтатистические алгоритмы распознавания.  Методы распознавания основанные на сравнении с эталоном. Дискриминантный анализ и его роль в решении задач распознавания образов. Методы нечеткой логики в задачах распознавания образов.

        ЛИТЕРАТУРА

    Рузайкин  Г.И. Орудие Data Mining: успех в анализе данных // Мир ПК, 1997. - № 1. - С. 102-103.

    Аркадьев  А. Г., Браверман Э. М. Обучение машины классификации объектов. — М., 1971. — 192 с.

Горелик А.Л.,  Гуревич И.Б.,  Скрипкин В.А.  Современное  состояние    проблемы  распознавания. М.: Радио и связь, 1985, 160 с.

Бонгард М.М. Проблема узнавания. - М.: Наука, 1967.- 320 с.

Вапник  В.Н., Червоненкис А.Я. Теория распознавания  образов. М.: Наука, 1974.- 415 с.

Информация о работе Интеллектуальный анализ данных. Интеллектуальные технологии