Поиск информации в сети Интернет

Поиск нужного документа во Всемирной паутине может происходить разными способами:

указанием адреса документа;
путём использования поисковых систем.

Поисковая система — это программно-аппаратный комплекс, предназначенный для поиска информации во Всемирной паутине. Поисковая машина — программная часть поисковой системы; комплекс программ, предназначенный для поиска информации.

Поисковые системы располагаются на специально выделенных компьютерах с мощными каналами связи. Ежеминутно они обслуживают огромное количество поисковых запросов клиентов.

По принципу действия различают несколько типов поисковых систем, а именно:

поисковые каталоги, управляемые человеком;
системы, использующие поисковых роботов;
гибридные поисковые системы.

Поисковые каталоги (веб-каталоги или тематические каталоги) содержат базу данных ссылок на веб-сайты, распределённых по отдельным тематическим рубрикам. Такие каталоги заполняются специалистами вручную. Поиск в них осуществляется спуском по дереву каталога:

определив тему, по которой будет выполняться поиск, пользователь выбирает соответствующую рубрику тематического каталога;
прочитав описания ссылок на открывшейся странице, пользователь может перейти по ссылке, соответствующей его ожиданиям; если же нужных ссылок не обнаруживается, то можно уточнить тему и повторить поиск в этой же или другой поисковой службе.

В 1994 году Дэвид Фило и Джерри Янг из Стэнфордского университета (США) предприняли попытку упорядочить большое количество накопившихся у них ссылок на разнообразные информационные источники. Так появилась идея использования специализированной базы данных для эффективного поиска информации в сети. Очень скоро созданная ими система Yahoo! стала самым популярным и полным иерархическим предметно-ориентированным путеводителем по Интернету. В наши дни — это одна из наиболее известных поисковых систем.

Действие поисковых систем, использующих поисковых роботов, основано на постоянном, последовательном изучении всех страниц всех сайтов Всемирной паутины. Для каждого документа составляется его поисковый образ — набор ключевых слов, отражающих содержание этого документа. В связи с постоянным обновлением информации поисковые системы периодически возвращаются к ранее изученным страницам, чтобы обнаружить и зарегистрировать изменения. Информация о ключевых словах исследованных таким образом страниц сохраняется в поисковой системе.

При поступлении запроса от пользователя поисковая система на основании имеющейся в ней информации формирует список страниц, соответствующих критериям поиска. Найденные документы, как правило, упорядочиваются в зависимости от местоположения ключевых слов (в заголовке, в начале текста), частоты их появления в тексте и других характеристик.

Различные поисковые системы, использующие поисковых роботов, имеют схожую структуру, включающую:

1) модуль индексирования, состоящий из трёх программ-роботов (Spider или «паук» — скачивает веб-страницы; Crawler или «путешествующий паук» — переходит по всем ссылкам, имеющимся на странице, и ищет новые документы, ещё не известные поисковой системе; Indexer или «робот-индексатор» — разбивает на фрагменты страницы, которые скачали «пауки», анализирует их и составляет некоторое описание этих страниц);

2) базу данных — хранилище представленных в определённом формате всех скачанных и обработанных модулем индексирования документов;

3) поисковый сервер — система выдачи результатов поиска, определяющая, какие страницы и в какой степени удовлетворяют запросу пользователя.

Поисковая система, получив запрос на поиск, анализирует ту информацию, которая была ею проиндексирована. С одной стороны, это позволяет существенно повысить скорость обработки поискового запроса. С другой стороны, результаты поиска нельзя считать полными, т. к. ни одна поисковая система не может загрузить в свою базу данных информацию обо всех без исключения ресурсах. Кроме того, результаты поиска могут быть отчасти устаревшими — ситуация в сети Интернет меняется быстрее, чем происходит обновление сведений в базах данных поисковых систем.

Окончание >>>