IMG PDF против текстового PDF: как извлечь текст из скана

Иван Корнев·26.05.2026·6 мин

IMG PDF — это PDF-файл, состоящий исключительно из изображений (сканов страниц), без встроенного текстового слоя. В таком документе нельзя выделить текст курсором или выполнить поиск по словам. Чтобы сделать содержимое доступным для поиска и редактирования, применяется технология OCR (Optical Character Recognition) — оптическое распознавание символов, которое преобразует картинку в машиночитаемый текст.

Что такое IMG PDF и чем он отличается от обычного PDF

Важно понимать разницу между двумя типами PDF-документов, так как от этого зависит способ работы с ними:

  1. Текстовый PDF (Native PDF). Создается экспортом из Word, Excel или версткой. Текст внутри является векторным объектом. Его можно копировать, искать и редактировать без дополнительных инструментов.
  2. IMG PDF (Image-based PDF). Это «контейнер» для растровых изображений. Каждая страница — это фотография листа. Для компьютера это просто набор пикселей, а не буквы.

Как быстро проверить тип вашего PDF? Попробуйте выделить мышкой любое слово на странице. Если курсор меняется на текстовый и позволяет выделить фрагмент — перед вами текстовый PDF. Если выделение невозможно или выделяется вся страница как объект — это IMG PDF (скан).

Почему файлы сохраняют как IMG PDF?

  • Архивация: Точная визуальная копия бумажного документа (договоры, акты, старые книги).
  • Юридическая сила: Сканы с печатями и подписями часто требуются в неизменном графическом виде.
  • Сложное форматирование: Когда сохранение структуры через экспорт ломает верстку, проще отсканировать страницу.

Зачем нужно распознавание текста (OCR)

Преобразование IMG PDF в документ с текстовым слоем решает несколько критических задач:

  • Полнотекстовый поиск. Вы сможете найти нужную фамилию или номер договора за секунды, даже в архиве из тысяч страниц.
  • Редактирование и копирование. Возможность вытащить цитату, таблицу или абзац для использования в других документах.
  • Доступность. Screen readers (программы экранного доступа) для слабовидящих не могут прочитать картинку, но легко озвучивают распознанный текст.
  • Сжатие объема. Современные алгоритмы OCR позволяют создавать гибридные PDF, где текст хранится отдельно, а изображение оптимизируется, что часто уменьшает вес файла.

От чего зависит качество распознавания

Результат работы OCR-движка напрямую связан с качеством исходного изображения. Ключевые факторы:

  1. Разрешение (DPI). Оптимальное значение — 300 dpi. При 150 dpi мелкие шрифты могут «поплыть», при 600+ dpi время обработки растет без существенного прироста точности.
  2. Контрастность и чистота. Темный фон, пятна, тени от переплета и низкий контраст между чернилами и бумагой снижают точность.
  3. Ориентация текста. Страница должна быть строго вертикальной. Перекос даже на 2–3 градуса может привести к ошибкам в строках.
  4. Шрифт и язык. Стандартные печатные шрифты распознаются лучше рукописных или декоративных. Важно правильно указать язык документа в настройках программы.

Совет по предобработке Перед запуском OCR используйте фильтры: «Удаление шума», «Бинаризация» (приведение к черно-белому виду) и «Выравнивание» (Deskew). Это повысит точность распознавания на 15–20%.

Способы распознавания текста в IMG PDF

Выбор инструмента зависит от объема задач, требований к конфиденциальности и бюджета.

1. Онлайн-сервисы (для разовых задач)

Подходят для небольших файлов, не содержащих персональных данных.

  • Принцип: Загрузка файла на сервер -> обработка -> скачивание результата.
  • Плюсы: Не нужно устанавливать ПО, быстро, часто бесплатно.
  • Минусы: Риск утечки данных, лимиты на размер файла, невозможность тонкой настройки.
  • Примеры: Smallpdf, iLovePDF, OnlineOCR.net.

2. Десктопные программы (для профессиональной работы)

Золотой стандарт для офисов и архивов.

  • ABBYY FineReader PDF: Лидер рынка по качеству распознавания, особенно для сложных таблиц и русского языка. Сохраняет исходную верстку.
  • Adobe Acrobat Pro: Встроенная функция «Распознать текст». Хороша для интеграции в рабочий процесс PDF, но уступает FineReader в сложной структуре.
  • Плюсы: Высокая точность, пакетная обработка, работа офлайн (безопасность).
  • Минусы: Стоимость лицензий.

3. Open Source решения (для разработчиков и автоматизации)

  • Tesseract OCR: Бесплатный движок от Google. Работает через командную строку или библиотеки (Python, C++).
  • Плюсы: Полностью бесплатно, гибкая настройка, легко встроить в свой софт.
  • Минусы: Требует навыков программирования, чувствителен к качеству входного изображения, плохо справляется с таблицами «из коробки».

Сравнение популярных решений

ИнструментТипЛучшее применениеТочность таблицБезопасность данных
ABBYY FineReaderDesktopСложные документы, архивы, книгиВысокаяВысокая (офлайн)
Adobe Acrobat ProDesktopРедактирование существующих PDFСредняяВысокая (офлайн)
TesseractБиблиотекаАвтоматизация, скрипты, большие объемыНизкая (требует доработки)Высокая (локально)
Онлайн-сервисыWebБыстрая конвертация 1–2 файловЗависит от сервисаНизкая (риск утечки)

Пошаговая инструкция: как сделать качественный OCR

Независимо от выбранного инструмента, алгоритм действий схож:

  1. Подготовка файла. Убедитесь, что сканы четкие, без темных полей. Если есть перекос, исправьте его.
  2. Выбор языка. В настройках OCR обязательно укажите языки, присутствующие в документе (например, «Русский + Английский»). Это критически важно для корректного распознавания смешанных текстов.
  3. Запуск распознавания.
    • В FineReader: нажмите «Распознать» -> выберите режим «Точная копия» (сохраняет вид) или «Редактируемая копия» (для Word).
    • В Acrobat: Инструменты -> Распознать текст -> В этом файле.
  4. Проверка и корректура. Программа подсветит слова, в которых она не уверена. Пройдитесь по ним вручную. Особое внимание уделите цифрам (номера счетов, даты) — ошибки здесь критичны.
  5. Экспорт. Сохраните результат как «PDF с возможностью поиска» (Searchable PDF). В таком файле остается фоновая картинка (для визуальной точности), а сверху накладывается невидимый текстовый слой.

Частая ошибка: Игнорирование проверки результата. Даже лучшие системы ошибаются в похожих символах (например, 1, l, I или 0, O). Всегда выборочно проверяйте ключевые данные перед использованием документа.

Частые проблемы и их решения

  • «Кракозябры» вместо текста.
    • Причина: Не выбран правильный язык распознавания или поврежден файл.
    • Решение: Перезапустите OCR с явно указанным языком.
  • Потеря форматирования таблиц.
    • Причина: Слабый алгоритм определения структуры.
    • Решение: Используйте специализированные режимы «Таблица» в FineReader или экспортируйте данные сразу в Excel, а не в Word.
  • Файл стал слишком тяжелым.
    • Причина: Изображения вставлены без сжатия.
    • Решение: При сохранении выберите сжатие JPEG (среднее качество) или монохромное сжатие CCITT G4 для черно-белых документов.

FAQ

Можно ли распознать рукописный текст? Стандартные OCR-системы (ABBYY, Tesseract) плохо справляются с почерком. Для этого нужны нейросетевые решения (например, Microsoft Azure Computer Vision или специализированные сервисы типа ABBYY Cloud с поддержкой Handwriting), но точность все равно будет ниже, чем при печати.

Безопасно ли загружать паспорта и договоры в онлайн-OCR? Нет. Для документов с персональными данными используйте только локальное ПО (Desktop-версии), которое работает без интернета.

Что такое «невидимый текстовый слой»? Это текст, который наложен поверх изображения страницы. Он не виден глазу (не перекрывает картинку), но доступен для выделения, копирования и поиска. Это стандартный формат для архивных сканов.

Почему поиск в PDF не работает после сохранения из Word? Если вы создали PDF из Word, он уже текстовый. Если же вы отсканировали документ в JPG, а потом собрали в PDF — он станет IMG PDF. Поиск не работает, потому что внутри нет букв, только пиксели.