Интеллектуальные технологии и представление знаний

Автор работы: Пользователь скрыл имя, 02 Июля 2012 в 21:59, реферат

Краткое описание

Интеллектуальные технологии – один из последних этапов развития аналитических технологий. Аналитическими называют технологии , которые на основе каких-либо моделей, алгоритмов, математических теорем позволяют по известным данным оценить значения неизвестных характеристик и параметров. Простейший пример аналитической технологии - теорема Пифагора, которая позволяет по длинам сторон прямоугольного треугольника определить длину его третьей стороны. Эта технология основана на известной формуле с2=а2+b2

Содержимое работы - 1 файл

Интелектуальные системы.docx

— 220.24 Кб (Скачать файл)

Концепция хранилищ данных.

Сегодня СОД, реализованные на самой различной основе, исправно работают и при этом исправно порождают и пополняют многочисленные многотомные электронные архивы. Основное назначение таких систем - оперативная обработка и они не могут себе позволить роскошь хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из оперативной БД.

В любой организации функционирует  несколько различных несвязанных или слабо связанных СОД, выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют и источники их получения.

Данные, порожденные в результате функционирования корпоративных СОД - это только часть информации необходимой для принятия корректного бизнес решения. Организация живет и функционирует в реальном мире. Включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы, позволяет по новому взглянуть на многие закономерности, выявленные в процессе анализа внутренних данных.

Автором концепции Хранилищ Данных (Data Warehouse) является Б.Инмон, который определил Хранилища Данных как: “предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления”, призванные выступать в роли “единого и единственного источника истины” обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.

В основе концепции Хранилищ Данных лежат две основополагающие идеи:

  • Интеграция ранее разъединенных детализированных данных, таких как 
    • исторические архивы,
    • данные из традиционных СОД,
    • данные из внешних источников
  • в едином Хранилище Данных, их согласование и возможно агрегация.
  • Разделение наборов данных, используемых для оперативной обработки и наборов данных используемых для решения задач анализа.

Основные требования к данным в Хранилище Данных:

    • Предметная ориентированность
    • Интегрированность
    • Неизменчивость
    • Поддержка хронологии

Для правильного понимания  данной концепции необходимо понимание  следующих принципиальных моментов:

  • Концепция Хранилищ Данных - это не концепция анализа данных, скорее это концепция подготовки данных для анализа.
  • Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.
  • Концепция Хранилищ Данных предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется). Она предполагает реализацию единого интегрированного источника данных.

Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования  и анализа тенденций. Но наиболее критичными и болезненными оказываются  вопросы, связанные с согласованием  данных. Основным требованием аналитика является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью.

OLAP –технологии

Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы. Обратите внимание, что несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Хотя методы добычи данных можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы добычи данных можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP.

Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных).

В основе концепции OLAP лежит  принцип многомерного представления  данных. В 1993 году в статье [11] E. F. Codd рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом».

Требования к  средствам оперативной аналитической  обработки. Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP :

  • 1.Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View): концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции "анализа вдоль и поперек" ("slice and dice"), вращения (rotate) и размещения (pivot) направлений консолидации.
  • 2.Прозрачность (Transparency): Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
  • 3.Доступность (Accessibility):

Аналитик должен иметь  возможность выполнять анализ в  рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. Инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.

  • 4.Устойчивая производительность (Consistent Reporting Performance): с увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя
  • 5. Клиент - серверная архитектура (Client-Server Architecture):

большая часть данных, требующих  оперативной аналитической обработки, хранится в мэйнфреймовых системах, а извлекается с персональных компьютеров. Поэтому одним из требований является способность продуктов OLAP работать в среде клиент-сервер. Главной идеей  является способность серверного компонента инструмента OLAP быть достаточно интеллектуальным и уметь строить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.

  • 6.Равноправие измерений (Generic Dimensionality):

все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным  измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению.

Базовая структура данных, формулы и форматы отчетов  не должны опираться на какое-то одно измерение.

  • 7.Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling):

инструмент OLAP должен обеспечивать оптимальную обработку разреженных  матриц. Скорость доступа должна сохраняться  вне зависимости от расположения ячеек данных и быть постоянной величиной  для  различных моделей.

  • 8.Поддержка многопользовательского  режима (Multi-User Support):

зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью  или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.

  • 9.Неограниченная поддержка кроссмерных операций (Unrestricted Cross-dimensional Operations): вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
  • 10.Интуитивное манипулирование данными (Intuitive Data Manipulation): переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
  • 11.Гибкий механизм генерации отчетов (Flexible Reporting): Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации
  • 12.Неограниченное количество измерений и уровней агрегации (Unlimited Dimensions and Aggregation Levels): настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели.

каждое из этих измерений  должно допускать практически неограниченное количество определенных пользователем  уровней агрегации по любому направлению  консолидации.

Классификация продуктов OLAP по способу представления данных . Все продукты OLAP делятся на три класса по типу исходной БД :

  • Многомерный OLAP (MOLAP) ;
  • Реляционный OLAP (ROLAP) ;
  • Гибридные системы (Hybrid OLAP, HOLAP)

Структуры данных в хранилище

Схема звезды является практически реляционным воплощением многомерного представления данных — основы OLAP. Такая модель наиболее адекватна представлениям о предметной области, которыми оперирует пользователь ИСАД — аналитик или управленец. Пространственная модель описывает данные о предметной области как n-мерный метакуб или n-мерную таблицу. В ячейках метакуба находятся количественные показатели (меры). Каждая ячейка описывается рядом атрибутов, образующих оси координат (измерения).

Модель данных состоит  из двух типов таблиц: одной таблицы  фактов (fact table) - центр “звезды” - и нескольких таблиц измерений (dimension table) по числу измерений в модели данных - лучи “звезды”.

Таблица фактов обычно содержит одну или несколько колонок типа DECIMAL, дающих числовую характеристику какому-то аспекту деятельности компании (например, объем продаж для торговой компании или сумма платежей для банка), и несколько целочисленных колонок-ключей для доступа к таблицам измерений.

Таблицы измерений расшифровывают ключи, на которые ссылается таблица  фактов; например, таблица “products” измерения “товары” может содержать сведения о названии товара, его производителе, типе товара. За счет использования специальной структуры таблицы измерений реализуется иерархия измерений, в том числе ветвящаяся.

Структуры данных в хранилище. Пример организации типа «звезда»:

Интеллектуальный анализ данных (ИАД) обычно определяют как  метод поддержки принятия решений, основанный на анализе зависимостей между данными. Процессы ИАД подразделяются на три большие группы: поиск зависимостей (discovery), прогнозирование (predictive modelling) и анализ аномалий (forensic analysis). Поиск зависимостей состоит в просмотре базы данных с целью автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое базы и делает правдоподобное предсказание относительно этих значений.

Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей. ИАД не имеет собственного матаппарата. В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений (Business Objects) до нейронных сетей (NeoVista).

Интеллектуальный анализ данных

Одним из эффективных инструментов ИАД являются экспертные системы.

Правила в базе правил, вырабатываются экспертным путем на основе опыта  в решении задач высококвалифицированными специалистами и представляются в формализме продукционной системы –в виде правил – продукций

Информация о работе Интеллектуальные технологии и представление знаний