Метапоисковая система Internet

Автор работы: Пользователь скрыл имя, 05 Января 2012 в 15:30, курсовая работа

Краткое описание

Потребность формирования единого мирового информационного пространства привели к созданию глобальной компьютерной сети Internet. В настоящее врем на более чем 150 миллионах компьютеров, подключенных к Internet, хранится громадный объем информации (сотни миллионов файлов, документов и т.д.). Глобальная сеть Internet привлекает пользователей своими информационными ресурсами и сервисами (услугами), которыми пользуются около миллиарда человек во всех странах мира.

Содержание работы

ВВЕДЕНИЕ 2
Глава1 3
1.1 История возникновения WWW 3
1.2 Понятие гипертекста 4
Глава 2 5
2.1 Краткая история развития поисковых систем Internet 5
2.2 Состав и принципы работы поисковой системы Internet 6
2.3 Основные характеристики поисковой системы Internet 8
2.4 Обзор основных Российских поисковых Internet - систем 11
Глава 3 15
3.1.Метапоисковая система Internet 15
3.2.Принцип работы метапоисковой системы 15
ЗАКЛЮЧЕНИЕ 18
Cписок источников и литературы: 19

Содержимое работы - 1 файл

Реферат - копия.docx

— 452.61 Кб (Скачать файл)

2. База данных

База  данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным  образом преобразованные параметры  всех скачанных и обработанных модулем  индексирования документов.

3.  Поисковый сервер

Поисковый сервер является важнейшим элементом  всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

Полученный  от пользователя запрос подвергается анализу. Генерируется информационное окружение каждого документа, содержащегося  в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

Полученные  данные передаются в качестве входных  параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для  каждого документа рассчитывается собственный рейтинг, характеризующий  релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе  поисковой системы.

В зависимости  от выбора пользователя этот рейтинг  может быть скорректирован дополнительными  условиями (например, так называемый «расширенный поиск»).

Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

Полученные  результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны  друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный  механизм работы поисковой системы, требующий огромных затрат ресурсов.

 
2.3 Основные характеристики поисковой системы Internet

Существуют  различные поисковые серверы, которые  могут использовать различные механизмы  поиска, хранения и предоставления пользователю информации. Поисковые  серверы интернета можно разделить  на две группы:

  • Поисковые системы общего назначения;
  • Специализированные поисковые системы.

Рассмотрим  подробнее каждую из них. Поисковые системы общего назначения являются базами данных, содержащими тематически сгруппированную информацию об информационных ресурсах Всемирной паутины. Такие поисковые системы позволяют находить Web-сайты или Web-страницы по ключевым словам в базе данных или путем поиска в иерархической системе каталогов.

Интерфейс таких поисковых систем общего назначения содержит список разделов каталога  и поле поиска в поле поиска пользователь может ввести  ключевые слова  для поиска документа, а в каталоге выбрать раздел, что сужает поле поиска и таким образом ускоряет его.

Примером  поисковой системы общего назначения может служить поисковая система  Яндекс.

.

Рис1.

Теперь  перейдем к специализированным поисковым системам. Они позволяют искать информацию в других информационных «слоях» Internet: серверах файловых архивов, почтовых серверах, и др. Например, для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы двух типов:

  1. поисковые системы на основе использования баз данных
  2. каталоги файлов

Для поиска файлов в системе с использованием базы данных достаточно ввести имя  файла в поле поиска и поисковая  система выдаст URL-адреса мест хранения данного файла. Примером специализированной системы может служить российская файловая поисковая система FileSearch (www.filesearch.ru)  

Первоочередная  задача любой поисковой системы, как общего назначения, так и специализированной – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой  машине, он хочет найти то, что  ему нужно, максимально быстро и  просто.

Опишем  основные характеристики поисковых  систем, которые частично или полностью были перенесены на поисковые системы Internet:

1. Полнота – способность системы выдавать все релевантные документы. Это одна из основных характеристик поисковой системы.

Полнота = (РВ/РВ+РН)*100%

РВ  –релевантные выданные

РН-релевантные  не выданные

 Говоря о поисковой системе сети Интернет, полнота представляет собой отношение количества найденных по запросу документов к общему числу документов, удовлетворяющих данному запросу, то есть свойство было полностью перенесено с обычной поисковой системы на поисковую систему Internet. К примеру, если в Интернете имеется 100(РВ+РН) страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60(РВ ) из них, то полнота поиска будет 60.

Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при  условии, что он вообще существует в  Интернете.

2. Точность – способность  системы отфильтровывать все нерелевантные документы. Это еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя.

Точность = (РВ/РВ+НВ)*100%

НВ-не выданные релевантные

Это свойство, так же как и «полнота», было полностью  перенесено на поисковые системы  Internet. Например, если по запросу «как выбрать автомобиль» находится 100 (РВ+НВ) документов, в 50(РВ) из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова, то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

3.Актуальность - составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день. Актуальность – свойство, характеризующее любую поисковую систему.

4.Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов. Свойство относится преимущественно к поисковым системам сети Internet.

5. Наглядность (свойство поисковых систем сети Internet) представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.

 
2.4 Обзор основных Российских поисковых Internet - систем

     В русскоязычной части сети Интернет работают около двух десятков поисковых  систем, но подавляющие большинство  пользователей работает лишь с несколькими, подробно остановимся на самых крупных:

     Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года, учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

     Слово Яндекс придумал за несколько лет  до этого один из основных и старейших  разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".

     В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический  разбор перестал быть привязан к словарю - если какого-либо слова в словаре  нет, то находятся наиболее похожие  на него словарные слова и по ним  строится модель словоизменения. В  это время Интернет в России только начинался. Еще через полгода  стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

     Помимо  поисковой системы, сегодня Яндекс - огромный портал с целым набором  широко используемых сервисов. Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе. Сегодня Яндекс имеет внутри мощный поисковый робот, позволяющий производить поиск по самым различным критериям.

     Rambler –одна из старейших поисковых систем российского Интернет, запущена в 1996 году, на сегодня - вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Рамблер - один из крупнейших порталов Русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. Сегодня Рамблер - больше, чем просто поисковая система и набор сервисов, это крупная медиагруппа. Поисковая машина "Рамблер" начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. "Рамблер" не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался "Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов. Вторая версия "Рамблера" начала разрабатываться летом 2000 года. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, была обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта".

Информация о работе Метапоисковая система Internet