Поисковые системы и базы данных в правоохранительных органах
Контрольная работа, 08 Декабря 2011, автор: пользователь скрыл имя
Краткое описание
ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность. Релевантность - это соответствие результатов поиска сформулированному запросу.
Содержание работы
1 Основные понятия поисковых систем. Общие принципы работы. Классификация по методам поиска. Поисковые каталоги. Поисковые индексы. WEB – порталы. 3
2 Биометрическая автоматизированная информационно-поисковая система для контрольно-пропускных пунктов. 10
3 Справочно-правовая систему «Гарант». 12
4 Используя одну из справочно-правовых систем произвести выборку (Земельный кодекс РФ, структура и основные положения)
Содержимое работы - 1 файл
ПОИСКОВЫЕ СИСТЕМЫ.doc
— 1.07 Мб (Скачать файл)МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ
РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное
государственное бюджетное
высшего профессионального образования
«Забайкальский государственный университет»
(ФГБОУ ВПО «ЗабГУ»)
Юридический
институт
КОНТРОЛЬНАЯ РАБОТА
ПО ДИСЦИПЛИНЕ
«Поисковые
системы и базы данных
в правоохранительных
органах»
Вариант
№ 2
| |
Чита 2011
Содержание
| 1 | Основные понятия поисковых систем. Общие принципы работы. Классификация по методам поиска. Поисковые каталоги. Поисковые индексы. WEB – порталы. | 3 |
| 2 | Биометрическая автоматизированная информационно-поисковая система для контрольно-пропускных пунктов. | 10 |
| 3 | Справочно-правовая систему «Гарант». | 12 |
| 4 | Используя одну из справочно-правовых систем произвести выборку (Земельный кодекс РФ, структура и основные положения) | 13 |
| Список использованной литературы | 16 | |
Основные понятия поисковых систем
ИПС
(информационно-поисковая
Поисковых систем в мире насчитывается более тысячи, из них популярны несколько десятков. Но мировыми лидерами в области поиска признаются 3 из них: Google, MSN Search и Yahoo. Эти поисковики имеют огромные базы и самостоятельно наработанные алгоритмы поиска. Все остальные системы – в том числе и наиболее популярные в Рунете Яндекс, Rambler, Mail.ru, KM.ru и Aport – в той или иной степени пользуются их наработками. Поэтому, несмотря на порой существенные различия, можно выделить общие принципы работы и составляющие.
Все поисковые системы представляют собой совокупность модуля индексирования, базы данных и поискового сервера. Причем каждая из этих частей состоит из многих компонентов.
Основа поисковой системы – модуль индексирования. Основные программы, входящие в его состав:
Паук (spider) – программа сродни браузеру, но не имеющая графического интерфейса. Паук передает на сервер сайта HTTP-запрос и получает в ответ html-код страницы и некоторую дополнительную информацию, которые сохраняет вместе с адресом и датой скачивания. Ссылки, имеющиеся на странице, обрабатывает следующая программа – краулер.
Краулер (crawler) – средство навигации поисковой системы. Эта программа выделяет все ссылки, сравнивает их с адресами уже посещенных страниц и выбирает, по какой из них паук проследует дальше.
Индексатор (indexer) – программа, которая исследует скачанный пауком код, выделяет оттуда все слова, анализирует оформление текста (заголовки, курсив, служебные теги и многое другое) и сохраняет информацию о том, по какому адресу найдено каждое слово. Результат работы индексатора – составление базы данных поисковой системы.
База данных (индекс поисковой системы) представляет собой хранилище информации, собранной и обработанной модулем индексирования. По базе данных (а вовсе не по всему Интернету) проводится поиск, когда пользователь вводит запрос в строку поисковой системы. Она может храниться на нескольких десятках компьютеров; например, у Rambler их семьдесят семь.
Общие принципы работы
Взаимодействие пользователя с информацией, содержащейся в базе данные, осуществляется сервером поисковой системы. Поиск информации происходит следующим образом:
Пользователь вводит запрос в строку поиска и нажимает кнопку «Найти».
Система производит морфологический анализ запроса и передает информацию модулю ранжирования вместе с дополнительными сведениями (например, при использовании расширенного поиска).
Модуль ранжирования производит поиск по базе данных и определение релевантности каждого документа запросу с учетом дополнительных условий, введенных пользователем.
Для каждой найденной страницы генерируется сниппет, состоящий из заголовка, описания (фрагмента текста или цитаты из META-тега, содержащей текст запроса), и ссылки.
Формируется страница выдачи результатов SERP (Search Engine Result Page), где сниппеты располагаются в порядке убывания релевантности.
Основным достоянием любой поисковой системой, а также ее главной тайной, является алгоритм поиска. Основные принципы алгоритма известны, но тонкости не разглашаются. Каждый оптимизатор работает именно с этой информацией, чтобы повлиять на позицию продвигаемого сайта.
Основные характеристики поисковой системы, актуальные для пользователя – полнота и точность поиска. Полнота характеризует отношение количества найденных по запросу документов к общему числу релевантных страниц, имеющихся в Сети. Точность (релевантность) характеризует отношение «полезных», соответствующих запросу, документов к общему числу найденных.
Классификация по методам поиска
Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
- Непосредственный поиск с использованием гипертекстовых ссылок
Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.
Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.
Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.
- Использование поисковых машин
Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.
Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.
Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
- Поиск с применением специальных средств
Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.
Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.
Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы).
В ряде случаев этот метод может быть очень эффективен.
- Анализ новых ресурсов
Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.
Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.
Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.
Поисковые каталоги
Поисковые каталоги похожи на предметные каталоги общественных библиотек. На начальной странице поискового каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию, и так далее, пока не получим конкретный список Web-ресурсов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) Она предоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охватывает чуть более тысячной доли всего Web-пространства.
Основным недостатком и, в то же время, достоинством поисковых каталогов является «человеческий фактор». Данные, которые заносятся в каталог, проходят «ручную обработку». Сегодня на Yahoo! работают до 150 редакторов, ежедневно просматривающих Web-пространство в поисках наиболее ценных ресурсов по темам, вызывающим общественный интерес. Типичным представителем каталогов является, например, международная директория Yahoo.
Регистрация в каталогах полностью зависит от людей - модераторов данной системы. Каталог обычно имеет тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие поддиректории и т.д. Так как регистрация производится человеком, a не программой, то поиск по каталогам дает более релевантные результаты, нежели по поисковым системам.
Для регистрации в каталоге необходимо послать заявку с указанием, в какой раздел вы хотите поместить свою страницу, послать краткое описание сайта и список ключевых слов для поиска вашей страницы в каталоге. Через некоторое (иногда достаточно долгое) время ваша заявка будет рассмотрена.
В Web-каталоге ссылки на ресурсы Internet объединены тематически и организованы в виде иерархии категорий. На верхнем уровне иерархии обычно находятся категории “бизнес”, “наука”, “искусство” и т.д. Дополнительным преимуществом каталогов можно назвать специальные обзоры, аннотации и пр., которые готовятся аналитиками этих узлов по различным темам и доступны пользователям. При использовании web-каталогов может осуществляться контекстный поиск по описаниям рубрик.
Естественно, что по качеству сортировки документов Web-каталоги намного превосходят Web-индексы (заметно проигрывая им по количеству просмотренных документов). Следует отметить, что, как правило, Web-каталоги имеют внутренний поисковый механизм, который направляет вас в нужный раздел, если вы не очень хорошо представляете, где конкретно искать документы по интересующей вас теме.
Поисковые индексы
Web-индексы
стали первым средством