Технология OCR (optical character recognition) выполняет оптическое распознавание символов. С ее помощью книги и документация переводятся в электронный вид. Обработанный материал можно копировать и делать по нему поиск. Это значительно упрощает документооборот в организациях, работу образовательных учреждений и многих других сфер.
В статье расскажем, в каких случаях функция доступна OCR, а также поэтапно разберем, как распознать текст в ПДФ файле в приложении на ПК.
Ознакомьтесь с видеоуроком, чтобы узнать, как распознать текст в файле:
Как распознать текст в PDF файле?
Технология OCR полезна как для работы, так и для учебы. Копирование информации для конспекта из отсканированного учебника займет с ней 2-3 минуты — не придется перепечатывать страницы вручную. Существует несколько типов объектов, в которых получится распознать символы: сканы, фото и картинки. Есть выбор русского или английского языка. Также пользователю доступно внесение изменений в файл, например можно исправить ошибки (с помощью функций «Скрыть область» и «Текст»).
В документе после сканирования
Сканы старых книг и длинные отчеты — плохой материал для обработки из-за объема и выцветшей от времени бумаги. PDF Commander способен успешно справиться с распознаванием текста с ПДФ, но стоит учесть несколько советов, чтобы все точно получилось.
Инструкция:
- 1. Отсканируйте бумаги или откройте готовый файл в программе PDF Commander (нажмите «Открыть PDF»). В верхнем меню на вкладке «Редактор» выберите «Распознать текст».
- 2. Если документ объемный, на обработку потребуется несколько минут. Можете указать страницы нужного раздела для ускорения процесса.
- 3. Выберите русский язык. Результат сохраните в ПДФ или как TXT-файл.
💡 При подготовке учебных заданий важно не только распознать текст PDF, но и структурировать материал. Выделите цветом ключевые места конспекта, это поможет не потерять главную мысль научной статьи и лучше запомнить информацию.
По фотографии документа
Если требуется распознать надпись, но доступа к сканеру нет, то стоит воспользоваться телефоном или фотоаппаратом. Сделайте снимок или найдите изображение в памяти телефона. Также можно скачать его из вложений диалога в мессенджере. Для успешного определения всех слов очень важно, чтобы исходное изображение было четким и ярким.
Инструкция:
- 1. Нажмите «Открыть PDF», выберите изображение в любом формате: PNG, JPG, GIF и другие. Во вкладке «Редактор» кликните кнопку «Распознать текст».
- 2. Функция достаточно быстро найдет все символы. Выберите один из вариантов сохранения: новый ПДФ или в формате TXT.
💡 Паспортные данные и номера карт можно убрать с помощью функций «Размытие» и «Скрыть область». Также можете поставить пароль на открытие и изменение. Они находятся в разделе «Безопасность».
Текст на изображении
В процессе обучения и на рабочих планерках принято сопровождать важную информацию презентациями, графиками, рисунками и схемами. Эти материалы стоит сохранять на случай, если они понадобятся в дальнейшем. Лучше всего для этого использовать технологию OCR, ведь с помощью нее можно быстро и удобно копировать надписи.
💡 Функцией можно также воспользоваться в случае, если нужный учебник в интернете есть только в формате картинки. Не тратьте время на то, чтобы перепечатать текст — в программе можно конвертировать изображение в PDF и применить распознавание.
Инструкция:
- 1. Откройте редактор и создайте новый документ. Софт работает со множеством графических форматов, поэтому предварительно конвертировать ничего не требуется. Если нужно распознать символы из картинок с презентации, то необходимо сначала подготовить скриншоты, а после загрузить их в PDF Commander.
- 2. На вкладке «Редактор» кликните «Распознать текст».
- 3. Немного подождите, пока программа найдет все символы. На слайдах,схемах и графиках может быть много информационных блоков с разным оформлением. Это привлекает внимание аудитории, но для программы определить, в каком порядке все следует — сложная задача. Выделяйте каждый элементов отдельно, чтобы расположить их в логичном порядке.
- 4. Сохраните документ в удобном формате.
💡 Следует выбирать картинки в хорошем качестве. Если даже пользователь с трудом может прочитать информацию, то шанс успешного анализа сервисом невысок. Символы не должны сливаться с другими объектами. Также важно проверить, не накладываются ли элементы друг на друга.
Что делать, если файл на английском языке
Распознать текст с PDF будет удобно как для взаимодействия с рабочей документацией на иностранном языке, так и для обучения английскому. Функция позволяет быстро скопировать слово или выражение и найти перевод.
Инструкция:
- 1. Нажмите «Открыть PDF» и выберите документ или изображение. Кликните по кнопке «Распознать текст» и перейдите к настройкам.
- 2. Обязательно отметьте английский как язык документа. Если обрабатываете учебное пособие, то не забудьте выбрать номера страниц, чтобы долго не ждать.
- 3. Останется сохранить итог. Преобразуйте его в TXT или создайте новый ПДФ.
Можно выбрать оба языка — русский и английский. Например, если в учебнике есть словарь с переводом, при распознавании символов нужно учесть и это.
В профессиональной деятельности чаще всего приходится прибегать к использованию данной функции переводчикам. Если нужно адаптировать американский комикс для читателей из России, достаточно соединить сохраненный текст и страницы.
💡 Также PDF Commander подойдет тем, кто хочет читать комиксы, которые только вышли и не получили перевода на русский. Иногда их можно скачать бесплатно в ПДФ формате. В программе легко приближать страницы и скрывать верхнюю панель. Для перемещения используйте инструмент «Рука».
Результаты тестирования
Редактор показал себя хорошо в обработке разных типов файлов. Даже в старом учебнике, который имеет повреждения, PDF Commander смог различить символы. На выцветших страницах и в проклеенных скотчем местах программа опознала все элементы.
Хотя в программе доступна обработка сложного для восприятия материала, лучше заранее подготовить изображения, провести обработку при необходимости. Слова должны хорошо читаться, не сливаться с другими элементами (таблицами, рисунками, схемами) и друг другом. Это снижает вероятность ошибки и упрощает работу.
Часто задаваемые вопросы
Многое зависит от качества используемого материала. Труднее всего работать со сканами старых книг: в них выцветают страницы, появляются повреждения. Иногда во время сканирования появляются засветы, текст смазывается. При обработке таких объектов могут возникнуть неточности. Если использовать изображения в хорошем качестве, где символы четкие и не сливаются, проблем, как правило, не бывает.
После обработки с помощью OCR PDF файла результат сохраняется как новый документ, программа автоматически откроет его во втором окне. Используйте инструменты «Скрыть область» и «Текст», чтобы исправить ошибку.
В программу PDF Commander добавлена специальная функция для ограничения доступа. Во вкладке «Безопасность» нажмите «Установить пароль». Доступ будет только у тех пользователей, которым вы его сообщите.