Поисковые системы и базы данных в правоохранительных органах

Автор работы: Пользователь скрыл имя, 08 Декабря 2011 в 03:43, контрольная работа

Краткое описание

ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность. Релевантность - это соответствие результатов поиска сформулированному запросу.

Содержание работы

1 Основные понятия поисковых систем. Общие принципы работы. Классификация по методам поиска. Поисковые каталоги. Поисковые индексы. WEB – порталы. 3
2 Биометрическая автоматизированная информационно-поисковая система для контрольно-пропускных пунктов. 10
3 Справочно-правовая систему «Гарант». 12
4 Используя одну из справочно-правовых систем произвести выборку (Земельный кодекс РФ, структура и основные положения)

Содержимое работы - 1 файл

ПОИСКОВЫЕ СИСТЕМЫ.doc

— 1.07 Мб (Скачать файл)
 

МИНИСТЕРСТВО  ОБРАЗОВАНИЯ И  НАУКИ

РОССИЙСКОЙ  ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное  учреждение

высшего профессионального образования

«Забайкальский  государственный  университет»

(ФГБОУ  ВПО «ЗабГУ»)

Юридический институт 
 
 
 
 

КОНТРОЛЬНАЯ РАБОТА
 

ПО  ДИСЦИПЛИНЕ

«Поисковые системы и базы данных в правоохранительных органах» 
 

Вариант № 2 

   
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

      Чита 2011

      Содержание 

1 Основные понятия  поисковых систем. Общие принципы работы. Классификация по методам поиска. Поисковые каталоги. Поисковые индексы. WEB – порталы. 3
2 Биометрическая  автоматизированная информационно-поисковая система для контрольно-пропускных пунктов. 10
3 Справочно-правовая систему «Гарант». 12
4 Используя одну из справочно-правовых систем произвести выборку (Земельный кодекс РФ, структура и основные положения) 13
Список  использованной литературы 16
 

 

     Основные  понятия поисковых  систем

     ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность. Релевантность - это соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.

     Поисковых систем в мире насчитывается более  тысячи, из них популярны несколько десятков. Но мировыми лидерами в области поиска признаются 3 из них: Google, MSN Search и Yahoo. Эти поисковики имеют огромные базы и самостоятельно наработанные алгоритмы поиска. Все остальные системы – в том числе и наиболее популярные в Рунете Яндекс, Rambler, Mail.ru, KM.ru и Aport – в той или иной степени пользуются их наработками. Поэтому, несмотря на порой существенные различия, можно выделить общие принципы работы и составляющие.

     Все поисковые системы представляют собой совокупность модуля индексирования, базы данных и поискового сервера. Причем каждая из этих частей состоит из многих компонентов.

     Основа  поисковой системы – модуль индексирования. Основные программы, входящие в его состав:

     Паук (spider) – программа сродни браузеру, но не имеющая графического интерфейса. Паук передает на сервер сайта HTTP-запрос и получает в ответ html-код страницы и некоторую дополнительную информацию, которые сохраняет вместе с адресом и датой скачивания. Ссылки, имеющиеся на странице, обрабатывает следующая программа – краулер.

     Краулер (crawler) – средство навигации поисковой  системы. Эта программа выделяет все ссылки, сравнивает их с адресами уже посещенных страниц и выбирает, по какой из них паук проследует дальше.

     Индексатор (indexer) – программа, которая исследует  скачанный пауком код, выделяет оттуда все слова, анализирует оформление текста (заголовки, курсив, служебные теги и многое другое) и сохраняет информацию о том, по какому адресу найдено каждое слово. Результат работы индексатора – составление базы данных поисковой системы.

     База  данных (индекс поисковой системы) представляет собой хранилище информации, собранной и обработанной модулем индексирования. По базе данных (а вовсе не по всему Интернету) проводится поиск, когда пользователь вводит запрос в строку поисковой системы. Она может храниться на нескольких десятках компьютеров; например, у Rambler их семьдесят семь.

     Общие принципы работы

     Взаимодействие  пользователя с информацией, содержащейся в базе данные, осуществляется сервером поисковой системы. Поиск информации происходит следующим образом:

     Пользователь  вводит запрос в строку поиска и  нажимает кнопку «Найти».

     Система производит морфологический анализ запроса и передает информацию модулю ранжирования вместе с дополнительными сведениями (например, при использовании расширенного поиска).

     Модуль  ранжирования производит поиск по базе данных и определение релевантности  каждого документа запросу с учетом дополнительных условий, введенных пользователем.

     Для каждой найденной страницы генерируется сниппет, состоящий из заголовка, описания (фрагмента текста или цитаты из META-тега, содержащей текст запроса), и ссылки.

     Формируется страница выдачи результатов SERP (Search Engine Result Page), где сниппеты располагаются в порядке убывания релевантности.

     Основным  достоянием любой поисковой системой, а также ее главной тайной, является алгоритм поиска. Основные принципы алгоритма  известны, но тонкости не разглашаются. Каждый оптимизатор работает именно с этой информацией, чтобы повлиять на позицию продвигаемого сайта.

     Основные  характеристики поисковой системы, актуальные для пользователя – полнота и точность поиска. Полнота характеризует отношение количества найденных по запросу документов к общему числу релевантных страниц, имеющихся в Сети. Точность (релевантность) характеризует отношение «полезных», соответствующих запросу, документов к общему числу найденных.

     Классификация по методам поиска

     Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач  ищущего, используются по отдельности  или в комбинации друг с другом:

  1. Непосредственный поиск с использованием гипертекстовых ссылок

     Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

     Хотя  этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.

     Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

  1. Использование поисковых машин

     Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

     Как правило, применение поисковых машин  основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.

     Если  делать все правильно, то формирование списка ключевых слов требует предварительной  работы по составлению тезауруса.

  1. Поиск с применением специальных средств

     Этот  полностью автоматизированный метод  может оказаться весьма эффективным  для проведения первичного поиска.

     Одна  из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.

     Фактически  это автоматизированный вариант  просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы).

     В ряде случаев этот метод может  быть очень эффективен.

  1. Анализ новых ресурсов

     Поиск по новообразованным ресурсам может  оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

     Другой  возможной причиной может явиться  то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.

     Это соображение может оказаться  весьма существенным при проведении поиска в узкоспециальной предметной области.

     Поисковые каталоги

     Поисковые каталоги похожи на предметные каталоги общественных библиотек. На начальной  странице поискового каталога мы выбираем тему, которая нас интересует, затем  в рамках темы выбираем категорию, потом  подкатегорию, и так далее, пока не получим конкретный список Web-ресурсов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) Она предоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охватывает чуть более тысячной доли всего Web-пространства.

     Основным  недостатком и, в то же время, достоинством поисковых каталогов является «человеческий фактор». Данные, которые заносятся в каталог, проходят «ручную обработку». Сегодня на Yahoo! работают до 150 редакторов, ежедневно просматривающих Web-пространство в поисках наиболее ценных ресурсов по темам, вызывающим общественный интерес. Типичным представителем каталогов является, например, международная директория Yahoo.

     Регистрация в каталогах полностью зависит от людей - модераторов данной системы. Каталог обычно имеет тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие поддиректории и т.д. Так как регистрация производится человеком, a не программой, то поиск по каталогам дает более релевантные результаты, нежели по поисковым системам.

     Для регистрации в каталоге необходимо послать заявку с указанием, в  какой раздел вы хотите поместить  свою страницу, послать краткое описание сайта и список ключевых слов для  поиска вашей страницы в каталоге. Через некоторое (иногда достаточно долгое) время ваша заявка будет рассмотрена.

     В Web-каталоге ссылки на ресурсы Internet объединены тематически и организованы в  виде иерархии категорий. На верхнем  уровне иерархии обычно находятся категории  “бизнес”, “наука”, “искусство”  и т.д. Дополнительным преимуществом каталогов можно назвать специальные обзоры, аннотации и пр., которые готовятся аналитиками этих узлов по различным темам и доступны пользователям. При использовании web-каталогов может осуществляться контекстный поиск по описаниям рубрик.

     Естественно, что по качеству сортировки документов Web-каталоги намного превосходят Web-индексы (заметно проигрывая им по количеству просмотренных документов). Следует отметить, что, как правило, Web-каталоги имеют внутренний поисковый механизм, который направляет вас в нужный раздел, если вы не очень хорошо представляете, где конкретно искать документы по интересующей вас теме.

     Поисковые индексы

     Web-индексы  стали первым средством систематизации  содержимого документов, доступных  через Internet. Создание Web-индексов  предполагает создание и непрерывное пополнение огромной базы данных по индексируемым документам, выполняемое исключительно компьютерами (и в этом принципиальное отличие таких систем!). Повторяясь, напомним, что сбор информации в индексы выполняется автоматически программами-роботами или “пауками”, которые просматривают серверы Internet, копируют документы, анализируют встречающиеся в них слова и выполняют индексирование. Яркими представителями этой ветви серверов являются:

Информация о работе Поисковые системы и базы данных в правоохранительных органах