Нередко в оцифрованные материалы нужно внести изменения, например добавить собственный текст или вставить иллюстрации. Для этого требуется специальный софт. Далее вы узнаете 5 способов, как редактировать сканированный документ на компьютере быстро и с минимальными усилиями. Эти методы подходят для ПДФ и графических файлов.
При помощи OCR
Если вы оцифруете страницу из книги или договора, то на первоначальном этапе не сможете работать только с текстом. Полученные таким образом ПДФ по сути представляют собой изображения, откуда нельзя скопировать слово или предложение.
Решением стала технология оптического распознавания символов (Optical Character Recognition — OCR). Она автоматически определяет текстовые фрагменты. Затем внутренний алгоритм анализирует визуальные образы и заменяет их на подходящие буквы.
В идеале результат получается таким же, как если бы надписи набирались вручную, но на это тратится гораздо меньше времени и сил. На практике алгоритмы в некоторых случаях допускают ошибки. Такое возможно, если на бумаге были разные дефекты: пятна, разрывы и прочие.
💡 Перед тем как распознать текст в PDF, проверьте, поддерживает ли программа соответствующий язык. Если она не сможет сопоставить фрагменты изображения со своим словарем, то выдаст нечитаемый набор символов.
После OCR с файлом можно работать как с обычным текстовым документом.
Также существенно упрощается его редактирование.
PDF Commander
Современный PDF-редактор. Поддерживает функцию OCR и умеет работать со сканерами. Это приложение от российских разработчиков, поэтому русскоязычный интерфейс и соответствующие словари предусмотрены изначально.
В программе есть все инструменты, которые могут пригодиться при редактировании. Она позволяет менять существующие и добавлять новые надписи, вставлять страницы из других файлов, дополнять отчеты иллюстрациями и схемами. Можно работать с подписями и штампами. Также редактор позволяет конвертировать материалы в различные форматы.
Как изменить текст в отсканированном документе PDF:
-
1. Запустите программу и откройте в ней PDF-документ. Вы также можете получить
исходный материал со сканера. -
2. После оцифровки на листах могут быть лишние фрагменты, например места сшивок или слишком большие поля. Можно избавиться от них при помощи кадрирования. Нажмите соответствующую кнопку во вкладке «Редактор». Далее выделите мышью ту часть страницы, которую нужно оставить.
💡 Для удобства предварительно можно уменьшить масштаб отображения. Эта настройка находится в нижнем правом углу окна.
- 3. Во вкладке «Редактор» кликните на распознавание.
- 4. Появится окно с настройками распознавания. Обработку можно выполнять во всем PDF-документе или только на указанных страницах. При необходимости можно сразу извлечь текст в TXT-файл. Убедитесь, что нужный язык включен, и нажмите «Распознать».
-
5. После распознавания можно выделять и копировать любые текстовые фрагменты. Дополнительные команды доступны в контекстном меню (щелчок правой
кнопкой мыши над выделением). - 6. Можете добавить новый контент, например изображения и надписи.
- 7. Можете добавить новый контент, например изображения и надписи.
Adobe Acrobat
В этой программе вы можете оцифровывать материалы, распознавать и произвольно менять текстовую информацию, работать с графикой, иллюстрациями, подписями, электронными сертификатами и формами. Поддерживается настройка доступа с помощью паролей.
💡 Имейте в виду: функции редактирования предусмотрены только в Pro-версии, которая распространяется платно (есть пробный период). Версию Reader можно скачать и использовать бесплатно, но она предназначена только для просмотра.
Как редактировать сканированный документ в PDF:
- 1. Запустите Acrobat Pro и откройте в нем PDF-файл.
- 2. На панели справа или в разделе «Инструменты» кликните
«Сканирование и распознавание». - 3. Вверху отобразится новая панель. Нажмите на распознавание. Появится список из трех функций. Можно обрабатывать только текущий или сразу несколько PDF-документов. Опция «Правильно распознанный текст» выделяет фрагменты, которые предположительно заменены с ошибками. Ею можно воспользоваться после первоначальной обработки, чтобы вручную устранить все «опечатки» алгоритма.
- 4. После обработки нажмите «Закрыть» (вверху справа).
- 5. На панели в правой части окна выберите редактирование. Вы можете стирать содержимое оригинального ПДФ-документа, добавлять новые материалы, менять шрифты, выравнивание и остальные свойства. Все действия аналогичны работе в обычном текстовом редакторе.
- 6. Сохраните PDF кнопкой со значком дискеты или воспользуйтесь меню «Файл».
PDFelement
Продвинутый редактор с технологией машинного обучения. Она поможет быстро исправить опечатки и орфографические ошибки. Доступно несколько режимов OCR: для документов, фрагментов листов и таблиц. В программе можно работать с графикой, накладывать водяные знаки, добавлять интерактивные формы, колонтитулы, нумерацию и прочее.
💡 PDFelement можно пользоваться бесплатно, но с ограниченным функционалом. По завершении пробного периода (14 дней) OCR отключается. Также существуют мобильные версии, а некоторые инструменты доступны онлайн и бесплатно.
Как отредактировать скан документа в ПДФ:
- 1. Запустите PDFelement. Вы можете сразу обработать PDF-файл, для этого кликните «OCR» на главном экране программы. Также операцию можно выполнить в процессе редактирования.
- 2. Откройте материал. В режиме редактирования в разделе «Главная» кликните «OCR».
- 3. Программа предложит два способа преобразования. Первый, более глубокий, разблокирует все возможности по редактированию. Второй — только поиск и навигацию по PDF-документу. Можно указывать номера страниц для обработки и выбирать подходящие языки. Сделайте нужные настройки и нажмите «Применить».
- 4. Отредактируйте PDF-документ. Когда закончите, сохраните его при помощи кнопки с дискетой или сочетания клавиш Ctrl + S.
Конвертирование изображений в текст
В качестве исходных материалов для распознавания надписей можно брать не только PDF-документы, но и графические файлы. Последовательность действий в этом случае не будет сильно отличаться от описанной ранее.
💡 Вам понадобится приложение, которое поддерживает OCR и позволяет импортировать изображения. Мы приведем инструкцию для PDF Commander. В этом редакторе есть весь необходимый функционал.
Как отредактировать отсканированный документ:
- 1. Откройте софт и перенесите в его окно файл с изображением.
- 2. Программа автоматически импортирует изображение в специально созданный PDF-файл. Как и ранее, перед дальнейшей обработкой можно кадрировать лист,
чтобы удалить ненужные фрагменты. - 3. Во вкладке «Редактор» выберите распознавание.
- 4. Далее можно сохранить распознанный PDF-документ или извлечь из него символы в TXT-файл. Укажите подходящий способ и кликните «Распознать».
- 5. В распознанных материалах можно выделять и копировать текстовые блоки (через контекстное меню или сочетание клавиш Ctrl + C).
Работа с графикой
При необходимости с оцифрованным контентом можно работать как с иллюстрациями или фотографиями, например стирать определенные части страниц или вставлять рисунки.
Как редактировать отсканированный документ:
- 1. Запустите программу, например PDF Commander и импортируйте в нее нужный контент.
- 2. Инструменты для рисования находятся на одноименной вкладке. Воспользуйтесь ластиком, например чтобы удалить подписи. Крупные фрагменты удобнее убирать при помощи инструмента «Скрыть область» (вкладка «Редактор»).
- 3. Новые изображения можно вставлять соответствующей кнопкой (выделена на скриншоте), из буфера обмена, либо просто перетаскивая файлы в редактор.
- 4. При помощи инструмента «Текст» можно добавлять надписи и текстовые блоки.
- 5. Зайдите в меню «Файл» и сохраните внесенные изменения.
Итоги
Теперь вы знаете, как редактировать ПДФ-скан документа. Для этой задачи полезен инструмент распознавания текстов. Он предусмотрен в PDF Commander, PDFelement, и Acrobat Pro.
Для новичков больш подойдет первая программа. Дополнительно вы сможете убрать иллюстрации и добавить собственный контент.
Часто задаваемые вопросы
После сканирования материалы сохраняются как графические (например, PNG, JPEG или TIFF) или PDF-файлы. Следует помнить, что без дополнительной обработки при помощи технологии оптического распознавания текст скопировать нельзя.
Для редактирования текста сначала придется выполнить распознавание символов при помощи технологии OCR. Такая функция есть в некоторых редакторах, например в PDF Commander. С его помощью можно добавить инфографику, иллюстрации, нумерацию, убрать ненужные листы и прочее.
Перед тем как как отредактировать скан, отмасштабируйте страницу с помощью настроек принтера. Они открываются, когда файл выводится на печать. Также можно предварительно кадрировать листы. Вы уберете пустые фрагменты, а оставшийся контент равномерно заполнит страницу.