Главная >> Информатика 7 класс. Босова

§ 4.5. Инструменты распознавания текстов и компьютерного перевода

Программы оптического распознавания документов

Ключевые слова:

  • программы распознавания документов
  • компьютерные словари
  • программы-переводчики

Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией.


Очень часто возникает необходимость ввести в компьютер несколько страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую информацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьютера текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.

Вычислим общее количество символов в романе:

    590 • 48 • 53 = 1 500 960 символов.

Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1 500960 : 150 ≈ 10000 мин. А это приблизительно 167 часов.

При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является ABBYY FineReader. Упрощённо работу с подобными программами можно представить так:

1. Бумажный носитель помещается под крышку сканера.

2. В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, таблицы, картинки и т. п. Строки разбиваются на слова, а слова — на отдельные буквы. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр, хранящимися в её памяти. Программа рассматривает различные варианты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдает пользователю распознанный текст.

3. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).

Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить ABBYY FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 4.20).

    Оптическое распознавание документов

 

 

???????@Mail.ru