В последнее время все чаще можно столкнуться с ситуацией, когда необходимо перевести любой текст, содержащийся в изображениях, в электронный текстовый формат. Чтобы сэкономить время и не перепечатывать вручную, следует использовать специальные компьютерные приложения для распознавания текста, о которых мы сегодня и поговорим.
Как оцифровать текст
На рынке существует множество приложений для оцифровки текста, поэтому каждый пользователь найдет решение, отвечающее его потребностям.
Способ 1: ABBYY FineReader
Это условно-бесплатное приложение от российского разработчика обладает огромным функционалом и позволяет не только распознавать текст, но и редактировать его, сохранять в различных форматах и сканировать бумажные источники.
- Чтобы распознать текст на изображении, вам, прежде всего, необходимо загрузить его в программу. Для этого после запуска ABBYY FineReader нажмите кнопку «Открыть в OCR Editor».
После выполнения этого действия открывается окно выбора источника, в котором нужно найти и открыть нужное изображение. Поддерживаются следующие популярные форматы: JPEG, PNG, GIF, TIFF, XPS, BMP и т.д., а также файлы PDF и DjVU.
- После загрузки в ABBYY FineReader процесс распознавания текста на изображении запускается автоматически без вмешательства пользователя.
Если вы хотите повторить процедуру распознавания, просто нажмите кнопку «Распознать» в верхнем меню.
- Иногда программа не может правильно распознать все символы. Так может быть, если изображение в источнике не очень качественное, очень мелкий шрифт, в тексте используется несколько языков, используются нестандартные символы. Но это не имеет значения, поскольку ошибки можно исправить вручную, используя текстовый редактор и ряд инструментов, содержащихся в нем.
Для облегчения поиска неточностей оцифровки программа по умолчанию выделяет возможные ошибки бирюзовым цветом.
- Логическая цель процесса распознавания — сохранение его результатов. Для этого нажмите кнопку «Сохранить» в верхней строке меню. По умолчанию он выглядит как старый значок логотипа Microsoft Word. Перед нами появляется окно, в котором вы можете самостоятельно определить будущую локацию, в которой будет располагаться файл с распознанным текстом, а также его формат. Доступны следующие варианты сохранения: DOC, DOCX, RTF, PDF, ODT, HTML, TXT, XLS, XLSX, PPTX, CSV, FB2, EPUB, DjVU.
ABBYY FineReader — самое продвинутое решение, но платная модель распространения и ограничения пробной версии не позволяют использовать его.
Способ 2: Readiris
Readiris зарекомендовал себя на рынке как ближайший конкурент вышеупомянутому Fine Reader: он обеспечивает аналогичную функциональность и предлагает немного лучшую производительность в некоторых отношениях, чем продукты ABBYY.
- После запуска приложения выберите источник данных для сканирования: сканер или готовый графический файл.
В примере мы воспользуемся последним вариантом: для этого воспользуемся кнопкой «Из файла».
- Откроется диалог «Проводник», в котором нужно выбрать необходимые документы. Поддерживаются большинство графических форматов, а также PDF.
- Подождите, пока документ загрузится в программу, после чего следует установить OCR. Первый шаг — установить основной язык: выберите его из раскрывающегося меню.
Также рекомендуем выбрать опцию «Анализ текста», которая значительно улучшит качество сканирования.
- Затем обратитесь к меню «Инструменты»: доступные в нем параметры помогут решить некоторые проблемы сканирования, такие как искаженная перспектива, недостаточный контраст изображения или смещение текста относительно холста.
Из этого меню также можно исправить текст, если распознавание сработало некорректно.
- После внесения изменений в распознанный текст необходимо установить формат вывода полученных данных через одноименное меню на панели инструментов. Основными форматами являются файлы PDF и Microsoft Office (DOCX и XLSX) — щелкните нужный элемент, чтобы выбрать его.
Все возможные форматы экспорта сгруппированы в разделе «Другое». В дополнение к типам файлов, упомянутых выше, отсканированный текст может быть сохранен как данные OpenOffice, гипертекстовые файлы или обычные файлы TXT.
- После выбора формата откроется окно мастера экспорта. В нем вы можете настроить некоторые параметры результирующего файла (в зависимости от выбранного формата) и вариант сохранения (локально или в облачном сервисе). После внесения всех необходимых изменений нажмите «ОК».
Снова появится окно «Проводник», в котором нужно выбрать желаемый каталог для сохранения.
В целом Readiris — удобное и современное решение для оцифровки текста, но его главный недостаток — платная модель распространения.
Способ 3: RiDoc
Еще одно приложение, ориентированное на работу со сканерами, но оно также может работать с локальными файлами в разных форматах.
- Откройте приложение. Для начала используйте кнопки «Открыть» или «Сканер» на панели инструментов: первая отвечает за распознавание текста в локальных файлах, вторая позволяет запускать сканирование одновременно со сканированием. Например, мы воспользуемся первым вариантом.
- В окне проводника перейдите к документу, из которого вы хотите получить текст, и выберите его. Также доступна пакетная обработка документов.
- При необходимости вы можете обработать полученный файл: обрезать изображение, задать область распознавания, исправить дефекты сканирования.
Отдельным элементом является возможность вставки — в этом случае многостраничный документ будет сохранен как единый файл. Вы можете выбрать значение DPI и формат вывода (доступны только файлы изображений).
- Для OCR в правой части окна найдите вкладку «OCR» и откройте ее. Доступно не так много вариантов — вы можете выбрать только язык документа. После редактирования пакета нажмите кнопку «Распознать» на панели инструментов.
Отсюда вы можете исправить результаты оцифровки.
- Сохранение документов доступно в двух вариантах: прямое или экспорт в офисные приложения. Для выполнения первого способа используйте кнопку «Сохранить». Откроется окно, в котором вы можете выбрать место для сохранения, а также тип (один файл или многостраничный). Формат сохраняемого файла зависит от того, который был выбран при вставке.
Экспорт результатов возможен в текстовые редакторы офисных пакетов Microsoft или OpenOffice в форме электронной почты (кнопка «Почта»), в формате PDF или распечатывается на принтере. Для экспорта в Office программы должны быть установлены на компьютере, а сохранение в формате PDF также возможно без соответствующих приложений.
Как видите, RiDoc — это решение, не обладающее широкими возможностями, но вполне подходящее для простых вариантов оцифровки.
Способ 4: Capture2Text
Небольшая утилита, позволяющая распознавать текст из любой области экрана вашего компьютера, совершенно бесплатна и проста в использовании.
- Скачайте архив с программой и распакуйте в любое удобное место. Затем перейдите в полученный каталог и запустите исполняемый файл.
Затем откройте панель задач — должен появиться значок утилиты.
Чтобы изменить язык распознавания, щелкните правой кнопкой мыши значок Capture2Text на панели задач, затем выберите «Язык распознавания» в настройках и установите нужный язык.
- Откройте файл, из которого вы хотите оцифровать текст, например, документ DjVU без текстового слоя. Когда файл открыт, нажмите сочетание клавиш Win + Q и выберите область распознавания.
- Появится служебное окно с результатами распознавания. Полученные данные можно скопировать в любое приложение, поддерживающее пользовательский ввод текста.
Приложение невероятно простое, но оборачивается ограниченным функционалом, а иногда и некорректным распознаванием русского текста. Кроме того, к недостаткам можно отнести отсутствие локализации на русский язык. Однако для некоторых пользователей эти недостатки несущественны, и базового функционала будет вполне достаточно.
Способ 5: CuneiForm
Еще одно решение для оцифровки текста, созданное на постсоветском пространстве. Несмотря на прекращение разработки, он по-прежнему актуален.
- Как и многие другие программы, представленные в этой статье, KuneiForm может работать как с готовыми изображениями, так и получать данные прямо со сканера. Воспользуемся первым вариантом: для этого откройте меню «Файл» и выберите в нем пункт «Открыть».
- С помощью «Проводника» выберите нужный файл или файлы.
- После загрузки данных в программу воспользуйтесь пунктами «Распознавание» — «Автоматическая разметка».
Это позволит вам выделять области с текстом для более корректной работы модуля OCR. Если автоматические алгоритмы неправильно отметили страницу, области с текстом можно исправить вручную или полностью удалить.
- Так что вы можете оцифровать напрямую. Снова откройте меню «Распознавание» и выберите одноименный вариант.
- Распознанный текст откроется в окне приложения, где его также можно будет отредактировать. Возможности достаточно широки и соответствуют полнотекстовому редактору. Если на компьютере установлен MS Word, полученные данные будут открываться через его интерфейс.
- Сохранение результатов работы доступно в разделе «Файл» — «Сохранить».
В открывшемся «Проводнике» выберите расположение полученного файла и его формат. Поддерживаются несколько вариантов: TXT, RTF, внутренний формат FED и экспорт в приложения Microsoft Office (Word и Excel).
Как видите, CuneiForm — простой, но мощный инструмент для оцифровки текста. Его существенным преимуществом будет модель бесплатного распространения, однако недостатки окончания поддержки и отсутствие формата PDF могут заставить вас прибегнуть к альтернативам.
Заключение
Как видите, распознать текст на изображении довольно просто, если для этого использовать специализированные приложения. Эта процедура не требует больших усилий с вашей стороны, а выгода заключается в огромной экономии времени.