|
|
|
§ 16. Интернет как глобальная информационная система
Поиск информации в сети ИнтернетПоиск нужного документа во Всемирной паутине может происходить разными способами:
Поисковые системы располагаются на специально выделенных компьютерах с мощными каналами связи. Ежеминутно они обслуживают огромное количество поисковых запросов клиентов. По принципу действия различают несколько типов поисковых систем, а именно:
Поисковые каталоги (веб-каталоги или тематические каталоги) содержат базу данных ссылок на веб-сайты, распределённых по отдельным тематическим рубрикам. Такие каталоги заполняются специалистами вручную. Поиск в них осуществляется спуском по дереву каталога:
Действие поисковых систем, использующих поисковых роботов, основано на постоянном, последовательном изучении всех страниц всех сайтов Всемирной паутины. Для каждого документа составляется его поисковый образ — набор ключевых слов, отражающих содержание этого документа. В связи с постоянным обновлением информации поисковые системы периодически возвращаются к ранее изученным страницам, чтобы обнаружить и зарегистрировать изменения. Информация о ключевых словах исследованных таким образом страниц сохраняется в поисковой системе. При поступлении запроса от пользователя поисковая система на основании имеющейся в ней информации формирует список страниц, соответствующих критериям поиска. Найденные документы, как правило, упорядочиваются в зависимости от местоположения ключевых слов (в заголовке, в начале текста), частоты их появления в тексте и других характеристик.
1) модуль индексирования, состоящий из трёх программ-роботов (Spider или «паук» — скачивает веб-страницы; Crawler или «путешествующий паук» — переходит по всем ссылкам, имеющимся на странице, и ищет новые документы, ещё не известные поисковой системе; Indexer или «робот-индексатор» — разбивает на фрагменты страницы, которые скачали «пауки», анализирует их и составляет некоторое описание этих страниц); 2) базу данных — хранилище представленных в определённом формате всех скачанных и обработанных модулем индексирования документов; 3) поисковый сервер — система выдачи результатов поиска, определяющая, какие страницы и в какой степени удовлетворяют запросу пользователя. Поисковая система, получив запрос на поиск, анализирует ту информацию, которая была ею проиндексирована. С одной стороны, это позволяет существенно повысить скорость обработки поискового запроса. С другой стороны, результаты поиска нельзя считать полными, т. к. ни одна поисковая система не может загрузить в свою базу данных информацию обо всех без исключения ресурсах. Кроме того, результаты поиска могут быть отчасти устаревшими — ситуация в сети Интернет меняется быстрее, чем происходит обновление сведений в базах данных поисковых систем.
|
|
|