|
|
|
§ 16. Интернет как глобальная информационная система
16.2. Поиск информации в сети ИнтернетГибридные поисковые системы сочетают в себе функции систем, управляемых человеком, и систем, использующих поисковых роботов. Несмотря на общие принципы работы, поисковые системы различаются по таким характеристикам, как: язык запроса, зона поиска, глубина поиска внутри документа, метод упорядочивания информации и др. На данный момент самой популярной в мире поисковой системой является Google, а крупнейшей отечественной поисковой системой — Яндекс. В большинстве поисковых систем реализовано три основных типа поиска: 1) поиск по любому из слов — результатом является огромный список всех страниц, содержащих хотя бы одно из ключевых слов; применяется, когда пользователь не уверен в ключевых словах; 2) поиск по всем словам — в этом режиме формируется список всех страниц, содержащих все ключевые слова в любом порядке; 3) поиск точно по фразе — в результате составляется список всех страниц, содержащих фразу, точно совпадающую с ключевой (знаки препинания игнорируются). Чтобы поиск стал более продуктивным, во всех поисковых системах предусмотрены специальные языки формирования запросов со своим синтаксисом. Эти языки во многом похожи. Выяснить особенности определённого языка можно с помощью справочной системы, входящей в состав поисковой машины. Найдите информацию о правилах формирования поисковых запросов в поисковых системах Яндекс и Google. Сравните их между собой. Укажите общее и различия. Пример В языке запросов некой поисковой машины для обозначения логической операции ИЛИ используется символ «|», а для логической операции И — символ «&». Известны запросы и количество найденных по ним страниц некоторого сегмента сети Интернет:
Чему равно х, если все запросы выполнялись практически одновременно, т. е. во время выполнения запросов набор страниц, содержащих все искомые слова, не изменился? С подобными задачами вы встречались в курсе информатики основной школы и знаете, что их условие может быть представлено с помощью кругов Эйлера и записано на языке теории множеств. Пусть Я, G и В — множества страниц, содержащих слова Яндекс, Google и Bing соответственно. Тогда Я ∩ G — множество страниц, соответствующих запросу «Яндекс & Google», и его мощность равна 145 (тыс.): |Я ∩ G| = 145. Рассуждая аналогично, можем записать: |Я ∩ G| = 580, |Я ∩ В ∩ G| = 85. Требуется найти мощность множества (Я ∪ В) ∩ G.
Преобразуем это выражение: (Я ∪ В) ∩ G = (Я ∩ G) ∪ (В ∩ G). В справедливости такого преобразования вы можете убедиться, изобразив левую и правую части равенства с помощью кругов Эйлера. Согласно принципу включений-исключений, для двух множеств имеем: |Х ∪ Y| = |Х| + |Y| - |Х ∩ Y|. В нашем случае получаем: |(Я ∩ G) ∪ (В ∩ G)| = |Я ∩ G| + |В ∩ G| - |(Я ∩ G) ∩ (В ∩ G)| =
Итак, х = 640. Как бы точно ни был составлен пользователем запрос к информационной системе, только малая часть из полученных по этому запросу документов будет релевантной, т. е. соответствующей зафиксированной в запросе информационной потребности. Полнота поиска — это отношение числа выданных релевантных документов к общему числу релевантных документов, имеющихся в базе данных поисковой системы. В идеале это число должно равняться 1; на практике может достигать значений 0,7-0,9. Точность поиска — это отношение числа выданных релевантных документов к общему числу документов, выданных системой по данному запросу. Значение этого параметра колеблется от 0,1 до 1. Полнота и точность определяют качество или эффективность поиска.
|
|
|