|
|
|
§ 23. Текстовые документы Другие возможности автоматизации обработки текстовой информацииКомпьютер помогает не только автоматизировать процесс создания текстовых документов, но и решить множество других задач, связанных с обработкой текстовой информации. Вот некоторые из них:
Область информатики, решающая эти и другие задачи, связанные с обработкой информации на естественном языке, называется компьютерной лингвистикой. Рассмотрим более подробно задачу поиска текста в общем массиве. Существует несколько подходов к её решению. Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и другие элементы. Основное достоинство такого подхода — возможность применять его к массиву текста без предварительной обработки (например, сразу при посимвольном получении текста). Применение рассматриваемого способа бывает затруднено, если текст хранится в разных местах. Второй подход предусматривает предварительную обработку текста с целью получения его преобразованного, сокращённого вида (индекса). Получив запрос, поисковая система выделяет список слов и составляет список документов, в которых они содержатся. При этом рассчитывается релевантность — мера соответствия документа запросу, зависящая от наличия искомых слов, близости их друг к другу и других параметров. Документы с высокой релевантностью помещаются в начало списка, с низкой — в конец. Одно из интересных применений автоматического анализа текстов — выявление заимствований. Антиплагиат (antiplagiat.ru) — российский интернет-проект, программно-аппаратный комплекс для проверки текстовых документов на наличие заимствований из страниц сети Интернет и других источников. Проект доступен для всех пользователей.
|
|
|