Как распознать текст в PDF Commander

Технология оптического распознавания символов (OCR) позволяет считывать текст с картинок, сканов и фотографий. Благодаря ей любые книги и документы становятся редактируемыми, а фрагменты материалов можно легко копировать. Программа PDF Commander распознает текст с точностью до 99%, поддерживает 100+ языков и умеет работать с двумя языками одновременно.

Расскажем, как выполнить быстрое и интеллектуальное распознавание и как правильно настроить определение сегментов.

Быстрое распознавание

Этот модуль подходит для печатных сканов хорошего качества.

1. Нажмите по кнопке «Выбрать файл» и загрузите PDF-документ или изображение.
2. Перейдите в раздел «Распознавание» и щелкните «Распознать текст».
3. В открывшемся окне выберите режим «Текущая страница», чтобы работать только с ней, или отметьте все листы. Также вы можете задать диапазон. В модуле укажите тип «Быстрый».
4. Выделите строку «Извлечь текст». Отметьте галочкой пункт «Сохранять в новый файл», чтобы вынести содержимое в текстовый документ. Если выбрать «Добавить невидимый слой текста», в исходном файле будет работать поиск по словам и копирование.
5. Определите язык распознавания. По умолчанию в программе доступен только русский и английский. Чтобы загрузить все возможные варианты, кликните «Установить другие языки» в окне «Язык распознавания».
6. Запустите процесс, кликнув по кнопке «Распознать».
7. Сохраните результат.

ИИ-распознавание

Используйте интеллектуальный модуль, чтобы работать с испорченными сканами, ручными заметками и двуязычными текстами.

1. Загрузите документ и во вкладке «Распознавание» выберите опцию «Распознать AI».
2. Определите языки самостоятельно или выберите «Автоопределение». Система распознает текст на 40+ языках.
3. Поставьте галочки у пунктов «Извлечь текст», «Сохранять в новый файл» и у нужных страниц. Чтобы выделить все листы, отметьте «Выбрать все».
4. Кликните «Распознать».
5. Определите место для сохранения нового документа и экспортируйте его.

Настройка сегментов

Чтобы система максимально точно распознала все символы и итоговый документ не потерял структуру, перед распознаванием вручную выделите нужные области — сегменты. В PDF Commander доступно пять типов, выберите тот, который подходит для вашего текста:

Изображение — исключает картинку из распознавания. Используйте, чтобы программа не пыталась прочитать рисунки или логотипы.
Колонка — для таблиц или узких столбцов текста. Помогает, когда строки ошибочно сливаются в сплошной массив.
Текст — подходит для обычных структурированных документов, например, статей, отчетов и книг. Программа сама определяет абзацы, таблицы и заголовки.
Слово — для разрозненного текста: отдельные подписи, короткие фразы, выноски. Обрабатывает каждое слово по отдельности.
Строки — подходит для списков, заголовков или фрагментов, где важна каждая строка. Распознает текст построчно.

Как добавить сегмент:

1. Импортируйте скан в программу.
2. Перейдите в раздел «Распознавание», выберите нужный тип сегмента, нажмите «Добавить область» и выделите фрагмент на странице.
3. Повторите шаги для всех необходимых зон — и запускайте распознавание.

После распознавания вы можете искать слова по документу, копировать любые фрагменты. Кроме того, в PDF Commander доступны и другие возможности: создавать документы с нуля, редактировать готовые файлы, ставить штампы и накладывать цифровые подписи. Попробуйте эти и другие функции прямо сейчас!

Инструкция, как распознать текст в PDF Commander

Быстрое распознавание

ИИ-распознавание

Настройка сегментов