Информационные поисковые системы

Автор работы: Пользователь скрыл имя, 22 Декабря 2011 в 21:35, реферат

Краткое описание

Под информационной системой понимается организованная совокупность программно – технических и других вспомогательных средств, технологических процессов и функционально – определенных групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений необходимых для удовлетворения информационных потребностей пользователей. Информационных системы являются основны

Содержимое работы - 1 файл

Информационные системы.doc

— 43.00 Кб (Скачать файл)

Информационные  системы

     Под информационной системой понимается организованная совокупность программно – технических  и других вспомогательных средств, технологических процессов и  функционально – определенных групп  работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений необходимых для удовлетворения информационных потребностей пользователей. Информационных системы являются основным средством, инструментарием решения задач информационного обеспечения различных видов деятельности и наиболее бурно развивающейся отраслью индустрии информационных технологий.

Структура информационной системы

     В составе информационной системы  можно выделить три подсистемы:

  • Организационно – технологическая подсистема сбора информации
  • Подсистема предоставления и обработки информации
  • Нормативно – функциональная подсистема выдачи информации

     Информационные  поисковые системы

Поисковые системы являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно – логического описания предметной области.

Основу  всех поисковых систем составляют базы.

Автоматизированная  поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.

Особенности поисковых систем

В работе поисковый  процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности).

     Система должна осуществлять индексацию всех документов пользователя. В процессе индексации все слова, содержащиеся в документах, разбиваются по следующим семантическим классам: стоп-слова; наиболее частотные слова бытового (разговорного) языка; общекультурная терминология; общенаучная терминология; известные системе термины предметной области; неизвестные слова. Разбиение осуществляется на основе соответствующих словарей, которые должны быть составной частью системы. К неизвестным словам будут отнесены в первую очередь многие специальные слова предметной области. Туда же попадут новообразованные термины и слова, содержащие ошибки.

Структура работы поисковых  систем

Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными  и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т.д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети.

     После копирования разысканных  Web-ресурсов на сервер поисковой системы начинается второй этап работы – индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных – это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

     На  третьем этапе  происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

     Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета  связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, «футбол», и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10–20 штук на отображаемой странице.

     Из  поисковых указателей в России сегодня действуют три «кита». Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).

     Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других, и долгое время лидировала по размеру поискового указателя  и качеству услуг поиска.

Самый большой  указатель лежит в основе системы  «Яндекс» – примерно 27 миллионов  Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы.

Система «Апорт»  выигрывает на третьем этапе: в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.

Проблемы и возможности поисковых систем

Работа многих поисковых машин считается вполне успешной. Однако все современные  поисковые системы страдают некоторыми серьёзными недостатками:

  1. поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны;
  2. огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки;
  3. методы индексирования баз данных, как правило, не связаны с информационным содержанием;
  4. часто выдаются ссылки на информацию, которой в Интернете уже давно нет;
  5. машины ещё не столь совершены, чтобы понимать естественный язык.

Некоторые положительные аспекты  поисковых систем:

Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами.

Простота использования  – можно тренировать агента используя  естественный язык.

Индивидуальный  подход – адаптация к предпочтениям  пользователей.

Интегрированность – непрерывное обучение применение уже имеющих знаний к новым  ситуациям.

Автономность  – ощущение окружающей среды, и анализ выводов.

Информация о работе Информационные поисковые системы