Информационно поисковые системы

Автор работы: Пользователь скрыл имя, 21 Июня 2013 в 11:18, контрольная работа

Краткое описание

Проблема поиска и сбора информации - одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания.

Содержание работы

Введение………………………………………………………………………………3
1. Основная часть…………………………………………………………………….5
1.1. Понятие информационных поисковых систем…………………………5
1.2. Виды информационно поисковых систем………………..……………..6
1.3. Особенности реализации хранилища документов
и механизмов поиска………………………………………………..……………….8
1.4. Информационное оповещение………………………………………….10
1.5. Информационно-поисковый язык……………….……………………..11
Заключение………………………………………………………………………….15
Список использованной литературы………………………..…………………….16

Содержимое работы - 1 файл

ИПС.doc

— 94.00 Кб (Скачать файл)

Содержание

 

Введение………………………………………………………………………………3

1. Основная часть…………………………………………………………………….5

1.1. Понятие информационных поисковых систем…………………………5

1.2. Виды информационно поисковых систем………………..……………..6

  1.3. Особенности реализации хранилища документов

и механизмов поиска………………………………………………..……………….8

  1.4. Информационное оповещение………………………………………….10

1.5. Информационно-поисковый  язык……………….……………………..11

Заключение………………………………………………………………………….15

Список использованной литературы………………………..…………………….16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Современный этап развития цивилизации характеризуется переходом  наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений  этого процесса является возникновение  и развития глобальной информационной компьютерной сети.

Проблема поиска и  сбора информации - одна из важнейших  проблем информационно поисковых  систем. Конечно, нельзя сравнивать в  этом отношении, скажем, средние века, когда поиск информации был проблемой  потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания. Проблема поиска информации приобрела новый характер в 20-м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей. Проблема поиска информации значительно усложняется при использовании виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее.

На современном этапе  все информационное пространство, в  котором мы живем, все больше погружается в Internet. Internet становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы.

Целью исследования является изучение информационно - поисковых систем.

Задачей в данной курсовой работе рассматриваются теоретические  основы автоматизированного информационного  поиска, классификация и разновидности  информационно поисковых систем.

При появлении сети Internet проблема поиска становилась более актуальной. Internet - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете хранится очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем. В данном реферате будут рассмотрены поисковые системы в сети Internet.

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Основная  часть

1.1. Понятие информационных  поисковых систем

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Автоматизированная поисковая  система - система, состоящая из персонала  и комплекса средств автоматизации  его деятельности, реализующая информационную технологию выполнения установленных  функций .

Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.

Информационно-поисковая  система - это система, обеспечивающая поиск и отбор необходимых  данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска .

Главной задачей любой  ИПС является поиск информации релевантной  информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной  паутины (WorldWideWeb). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

 

1.2. Виды информационно поисковых систем 

Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с этими ИПС, рассмотрим абстрактные алфавитные (словарные), систематические и предметные ИПС. Для этого дадим определение некоторым терминами из теории информационного поиска.

Классификационные информационно-поисковые  системы

В классификационных  ИПС используется иерархическая (древовидная) организация информации, которая  называется КЛАССИФИКАТОРОМ. Разделы  классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

    • Предметная ИПС Web-кольца

Предметная ИПС с  точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

    • Словарные ИПС

Культурные проблемы, связанные с использованием классификационных  ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся  в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Теория информационного  поиска предполагает два основных алгоритма  работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов. В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. Все работающие ИПС по историческим причинам используют этот алгоритм, в различных модификациях.

При работе с дескрипторами  индексируемые документы переводятся  на некоторый дексрипторный информационный язык. Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами. Парадигматика предусматривает выявление скрытых в естественном языке лексико- семантических отношений между понятиями. В рамках парадигматических отношений можно рассматривать, например, синонимию, омонимию. Синтагматика исследует такие отношения между словами, которые позволяют объединять их в словосочетания и предложения. Синтагматика включает правила построения слов из элементов алфавита (кодирование лексических единиц), правила построения предложений (текстов) из лексических единиц (грамматика).

То есть, запрос пользователя переводится в дескрипторы и  обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам, но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов.

Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.

Наиболее часто используемыми  критериями при ранжировании в ИПС  являются наличие слов из запроса  в документе, их количество, близость к началу документа, близость к друг другу;

Наличие слов из запроса в заголовках и подзаголовках документов (заголовки  должны быть специально отформатированы);

Количество ссылок на данный документ с других документов; «рекспектабельность» ссылающихся документов.

 

    1. Особенности реализации хранилища документов и механизмов поиска

В зависимости от особенностей реализации хранилища документов и  механизмов поиска документальные ИПС делятся:

Рис.1. Виды ИПС


 


 

 

В семантически-навигационных системах документы, помещаемые в хранилище (базу) документов оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

В системах на основе индексирования исходные документы помещаются в базу без дополнительного преобразования (за исключением возможного сжатия), но смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство или индексирование заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве.

Индексирование – описание содержания документа посредством формализованного информационного языка.

Поисковым образом документа (ПОД) называется формализованное описание индекса документа.

Поисковым образом запроса (ПОЗ) к базе документов называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.

Система на основе определенных критериев и способов ищет документы, ПОД которых соответствуют или близки ПОЗ, и выдает соответствующие документы.

 

 

 

Рис.2. Поиск документов по запросам


 

 

 

 

 

 

 

Релевантностью называется соответствие найденных документов запросу пользователя

 

    1. Информационное оповещение

Особенностью документальных ИПС является то, что в их функции, как правило, включаются и задачи информационного оповещения пользователей по всем новым поступающим в систему документам, соответствующим заранее определенным информационным потребностям пользователя. Принцип решения этой задачи в документальных ИПС на основе индексирования аналогичен поиску документов по запросам.

Рис.3. Информационное оповещение


 

 

 

 

 

 

Поисковым профилем пользователя (ППП) называется отображение в поисковое пространство информационных потребностей пользователя.

ИПС по мере поступления  и индексирования новых документов сравнивает их ПОД с имеющимися ППП и принимает решение о соответствующем оповещении.

 

    1. Информационно-поисковый язык

Поисковое пространство, отображающее ПОД и реализующее механизмы информационного поиска документов строятся на основе языков баз данных, называемых информационно-поисковыми языками (ИПЯ).

Информационно-поисковый  язык – формализованная семантическая система, предназначенная для выражения содержания документа и запросов по поиску необходимых документов.

Рис.4. Информационно-поисковый язык

Информация о работе Информационно поисковые системы