Хранение данных в сети Internet

Автор работы: Пользователь скрыл имя, 07 Октября 2011 в 19:16, курсовая работа

Краткое описание

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

Содержание работы

Введение………………………………………………………….
Глава 1. Хранение данных в сети Internet………………………….
1.1. Гипертекстовые документы, виды файлов………………
1.2. Графические файлы, их виды и особенности…………………….
1.3. Поисковые системы и правила поиска информации…………..
Глава 2. Обзор и характеристика поисковых систем сети Internet…………
2.1. Rambler……………………………………………………………..
2.2. Yandex…………………………………………………………….
2.3. Yahoo……………………………………………………………….
2.4. Altavista…………………………………………………………..
Выводы и предложения……………………………………………………
Список использованной литературы………………………………….

Содержимое работы - 1 файл

Курсовая работа_Глотов.doc

— 474.00 Кб (Скачать файл)

     К сожалению, не существует универсального формата, который можно было бы рекомендовать  на все случаи жизни. Когда вам  известно, на каком компьютере будут читать вашу работу, лучше всего спросить его хозяина о предпочтительных форматах. Если ваша задача - обеспечить обмен данными между программами, оптимальный формат приходится подбирать методом проб и ошибок.

     Текстовый формат RTF (Microsoft Rich Text Format) попал сюда за свои неординарные способности к переносу текстов из одной программы в другую. Он позволяет переносить форматированный текст из программ оптического распознавания символов или текстовых редакторов в графические программы или в любых других направлениях. RTF может оказаться хорошим решением (а, иногда, и единственным выходом) при переброске из программы в программу нелатинского, например, ивритского текста или русского в Windows 95/98 Hebrew Edition).

     Секрет  совместимости заключается в использовании специальных тегов форматирования RTF и Unicode. Именно Unicode, кстати (использованный как основа формата Microsoft Word 97/98 для Макинтош и PC), позволяет легко переносить русские тексты с PC на Мак и обратно в файлах MS Word 97/98.

     На  Макинтош RTF менее применим, так как у программ, работающих под управлением Mac OS, не наблюдается таких проблем с совместимостью и переносом текста, как у Windows-приложений. 

     PNG это сравнительно новый графический формат для представления растровых изображений. Название формата PNG (произносится "пинг") происходит от «Portable Network Graphics». Преемник формата GIF.

     В отличие от последнего поддерживает до 48 бит на пиксель и не обременен патентными ограничениями (в PNG формате реализован открытый, не запатентованный алгоритм сжатия данных). Кроме того, данный формат предоставляет ряд новых полезных возможностей. Это поддержка полупрозрачных слоев, оригинальная схема двумерного чередования данных (interlacing), улучшенное сжатие данных, возможность использования гамма-коррекции, сохранение компрессированных или некомпрессированных текстовых вставок для хранения информации о копирайте или других целей.

     Но, в отличие от GIF, PNG не поддерживает несколько изображений в одном файле, в отличие от JPEG, не поддерживает сжатие с потерями (lossy compression). Так же как и GIF, формат PNG позволяет читать и выводить данные на экран по мере их поступления. Благодаря этому, широко используется в World Wide Web и других системах.

     PNG использует алгоритм сжатия Deflation. Этот алгоритм используют многое программы компрессии данных, в том числе PKZIP и GNU GZIP. Его бесплатные реализации доступны в Интернет.

     DDS — расшифровывается как DirectDraw Surface. Это формат хранения данных, разработанный корпорацией Майкрософт для использования в DirectX SDK. Чаще всего используется для хранения текстур и применяется во множестве 3d приложений, а также в современных 3d играх. Позволяет хранить текстуры как в сжатом так и не сжатом виде. Эта особенность позволяет использовать DDS в консолях нового поколения, таких как Xbox360 и Play Station 3. DDS позволяет хранить текстурные массивы. Преимущество формата dds заключается в том, что благодаря поддержке видеокартами DXTn их драйвера могут выполнять сжатие текстур «на лету», используя инструкцию GL_ARB_texture_compression, что экономит время, необходимое на декомпрессию сжатых текстур в таких форматах как Jpeg. Всё вышесказанное повышает быстродействие.  Использование формата dds позволяет ещё и избежать появления «артефактов», которые возникают при сжатии, что сохраняет качество текстур.

     Этот  формат был разработан ещё во времена  появления DirectX 3.0. А в версии DirectX 8.0 в него была добавлена поддержка объёмных текстур. Изначально DDS был создан для использования в DirectX, но возможно его использование и в OpenGL.

     Для преобразования текстур в формат dds известные производители видеокарт выпустили свои утилиты. Также существуют плагины для многих графических редакторов, позволяющие использовать этот формат.  
 

1.3.       Поисковые системы и правила поиска информации 

     Поисковые системы обычно состоят из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;
  • база данных, которая содержит всю информацию, собираемую пауками;
  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

     Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в сети Интернет. Это специальные программы, которые занимаются поиском страниц в сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать, прежде всего, наиболее популярные страницы.

     Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от вашего имени. Уже сейчас они могут искать сайты специфической тематики и возвращать списки сайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

     Общий поиск информации в сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

     Кроулеры  просматривают заголовки и возвращают только первую ссылку.

     Роботы  могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы сети. Однако имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

     Агенты  извлекают и индексируют различные  виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

     Агенты  могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

     Люди  могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

     Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и  заполняет форму, детализирующую информацию, которая ему необходима. Здесь  могут использоваться ключевые слова, даты и другие критерии. Критерии в  форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по сети.

     База  данных отыскивает предмет запроса, основанный на информации, указанной  в заполненной форме, и выводит  соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения релевантности следующие:

     Количество  слов запроса в текстовом содержимом документа (т.е. в html-коде):

  • тэги, в которых эти слова располагаются;
  • местоположение искомых слов в документе;
  • удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа

     Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

     Время - как долго страница находится  в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный  принцип. Но, если задуматься, как много  существует в Интернете сайтов, которые  живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

     Индекс  цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

     База  данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе со ссылкой.

     Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Глава 2. Обзор и характеристика поисковых систем сети Internet 

2.1.     Rambler 

      Rambler – первая поисковая система   русского Интернета, появилась   на свет в 1996 году. Ее создатели,  группа «Стек» из подмосковного   Пущино, начинали с создания локальной   городской сети, и подключения   к Интернету. В 1992 году «Стек» запускает собственные ftp и mail-серверы. Следующим шагом к светлому будущему, стало создание поисковой системы. Дмитрий Крюков и Сергей Лысаков начали с того что дали проекту название «Rambler». Им понравилось значение этого слова «скиталец, бродяга», выражающее саму суть поисковика. К осени 1996 года, окончательный вариант поисковой системы был готов, а 8 октября «Rambler» был запущен.

      Еще год  система отлаживалась, к чести  создателей поисковик не работал  всего одни сутки – сгорели  жесткие диски. Существовавшие на то время в Рунете две – три поисковых системы не выдержали конкуренции и «канули в лету».

      Весной 1997 года появляется уникальный рейтинг-классификатор Rambler’s Top – 100, который не только оценивал популярность российских ресурсов, но и позволял одним кликом попасть на них. Rambler’s Top – 100 быстро стал универсальным барометром сети, общим стандартом медиаизмерений.

      Следующий шаг в развитии поисковой системы Rambler произошел в июне 2003 года. Компания запустила новую версию поисковой  машины, которая отличается от предыдущей по двум основным параметрам. Первое и главное – значительно увеличилась скорость поиска; второе, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день.

      Теперь  поисковик всегда находит самые  свежие документы и последние новости. Rambler знаком с русским языком, понимает термины типа «б/у», «у.е.» и «а/я». Как дань моде, открылась лаконичная версия поисковой системы по адресу «r0.ru». Содержание ее стандартно – строка поиска, почта и новости.

Информация о работе Хранение данных в сети Internet