IMG PDF против текстового PDF: как извлечь текст из скана

Иван Корнев·26.05.2026·⏱6 мин

IMG PDF — это PDF-файл, состоящий исключительно из изображений (сканов страниц), без встроенного текстового слоя. В таком документе нельзя выделить текст курсором или выполнить поиск по словам. Чтобы сделать содержимое доступным для поиска и редактирования, применяется технология OCR (Optical Character Recognition) — оптическое распознавание символов, которое преобразует картинку в машиночитаемый текст.

Что такое IMG PDF и чем он отличается от обычного PDF

Важно понимать разницу между двумя типами PDF-документов, так как от этого зависит способ работы с ними:

Текстовый PDF (Native PDF). Создается экспортом из Word, Excel или версткой. Текст внутри является векторным объектом. Его можно копировать, искать и редактировать без дополнительных инструментов.
IMG PDF (Image-based PDF). Это «контейнер» для растровых изображений. Каждая страница — это фотография листа. Для компьютера это просто набор пикселей, а не буквы.

Как быстро проверить тип вашего PDF? Попробуйте выделить мышкой любое слово на странице. Если курсор меняется на текстовый и позволяет выделить фрагмент — перед вами текстовый PDF. Если выделение невозможно или выделяется вся страница как объект — это IMG PDF (скан).

Почему файлы сохраняют как IMG PDF?

Архивация: Точная визуальная копия бумажного документа (договоры, акты, старые книги).
Юридическая сила: Сканы с печатями и подписями часто требуются в неизменном графическом виде.
Сложное форматирование: Когда сохранение структуры через экспорт ломает верстку, проще отсканировать страницу.

Зачем нужно распознавание текста (OCR)

Преобразование IMG PDF в документ с текстовым слоем решает несколько критических задач:

Полнотекстовый поиск. Вы сможете найти нужную фамилию или номер договора за секунды, даже в архиве из тысяч страниц.
Редактирование и копирование. Возможность вытащить цитату, таблицу или абзац для использования в других документах.
Доступность. Screen readers (программы экранного доступа) для слабовидящих не могут прочитать картинку, но легко озвучивают распознанный текст.
Сжатие объема. Современные алгоритмы OCR позволяют создавать гибридные PDF, где текст хранится отдельно, а изображение оптимизируется, что часто уменьшает вес файла.

От чего зависит качество распознавания

Результат работы OCR-движка напрямую связан с качеством исходного изображения. Ключевые факторы:

Разрешение (DPI). Оптимальное значение — 300 dpi. При 150 dpi мелкие шрифты могут «поплыть», при 600+ dpi время обработки растет без существенного прироста точности.
Контрастность и чистота. Темный фон, пятна, тени от переплета и низкий контраст между чернилами и бумагой снижают точность.
Ориентация текста. Страница должна быть строго вертикальной. Перекос даже на 2–3 градуса может привести к ошибкам в строках.
Шрифт и язык. Стандартные печатные шрифты распознаются лучше рукописных или декоративных. Важно правильно указать язык документа в настройках программы.

Совет по предобработке Перед запуском OCR используйте фильтры: «Удаление шума», «Бинаризация» (приведение к черно-белому виду) и «Выравнивание» (Deskew). Это повысит точность распознавания на 15–20%.

Способы распознавания текста в IMG PDF

Выбор инструмента зависит от объема задач, требований к конфиденциальности и бюджета.

1. Онлайн-сервисы (для разовых задач)

Подходят для небольших файлов, не содержащих персональных данных.

Принцип: Загрузка файла на сервер -> обработка -> скачивание результата.
Плюсы: Не нужно устанавливать ПО, быстро, часто бесплатно.
Минусы: Риск утечки данных, лимиты на размер файла, невозможность тонкой настройки.
Примеры: Smallpdf, iLovePDF, OnlineOCR.net.

2. Десктопные программы (для профессиональной работы)

Золотой стандарт для офисов и архивов.

ABBYY FineReader PDF: Лидер рынка по качеству распознавания, особенно для сложных таблиц и русского языка. Сохраняет исходную верстку.
Adobe Acrobat Pro: Встроенная функция «Распознать текст». Хороша для интеграции в рабочий процесс PDF, но уступает FineReader в сложной структуре.
Плюсы: Высокая точность, пакетная обработка, работа офлайн (безопасность).
Минусы: Стоимость лицензий.

3. Open Source решения (для разработчиков и автоматизации)

Tesseract OCR: Бесплатный движок от Google. Работает через командную строку или библиотеки (Python, C++).
Плюсы: Полностью бесплатно, гибкая настройка, легко встроить в свой софт.
Минусы: Требует навыков программирования, чувствителен к качеству входного изображения, плохо справляется с таблицами «из коробки».

Сравнение популярных решений

Инструмент	Тип	Лучшее применение	Точность таблиц	Безопасность данных
ABBYY FineReader	Desktop	Сложные документы, архивы, книги	Высокая	Высокая (офлайн)
Adobe Acrobat Pro	Desktop	Редактирование существующих PDF	Средняя	Высокая (офлайн)
Tesseract	Библиотека	Автоматизация, скрипты, большие объемы	Низкая (требует доработки)	Высокая (локально)
Онлайн-сервисы	Web	Быстрая конвертация 1–2 файлов	Зависит от сервиса	Низкая (риск утечки)

Пошаговая инструкция: как сделать качественный OCR

Независимо от выбранного инструмента, алгоритм действий схож:

Подготовка файла. Убедитесь, что сканы четкие, без темных полей. Если есть перекос, исправьте его.
Выбор языка. В настройках OCR обязательно укажите языки, присутствующие в документе (например, «Русский + Английский»). Это критически важно для корректного распознавания смешанных текстов.
Запуск распознавания.
- В FineReader: нажмите «Распознать» -> выберите режим «Точная копия» (сохраняет вид) или «Редактируемая копия» (для Word).
- В Acrobat: Инструменты -> Распознать текст -> В этом файле.
Проверка и корректура. Программа подсветит слова, в которых она не уверена. Пройдитесь по ним вручную. Особое внимание уделите цифрам (номера счетов, даты) — ошибки здесь критичны.
Экспорт. Сохраните результат как «PDF с возможностью поиска» (Searchable PDF). В таком файле остается фоновая картинка (для визуальной точности), а сверху накладывается невидимый текстовый слой.

Частая ошибка: Игнорирование проверки результата. Даже лучшие системы ошибаются в похожих символах (например, 1, l, I или 0, O). Всегда выборочно проверяйте ключевые данные перед использованием документа.

Частые проблемы и их решения

«Кракозябры» вместо текста.
- Причина: Не выбран правильный язык распознавания или поврежден файл.
- Решение: Перезапустите OCR с явно указанным языком.
Потеря форматирования таблиц.
- Причина: Слабый алгоритм определения структуры.
- Решение: Используйте специализированные режимы «Таблица» в FineReader или экспортируйте данные сразу в Excel, а не в Word.
Файл стал слишком тяжелым.
- Причина: Изображения вставлены без сжатия.
- Решение: При сохранении выберите сжатие JPEG (среднее качество) или монохромное сжатие CCITT G4 для черно-белых документов.

FAQ

Можно ли распознать рукописный текст? Стандартные OCR-системы (ABBYY, Tesseract) плохо справляются с почерком. Для этого нужны нейросетевые решения (например, Microsoft Azure Computer Vision или специализированные сервисы типа ABBYY Cloud с поддержкой Handwriting), но точность все равно будет ниже, чем при печати.

Безопасно ли загружать паспорта и договоры в онлайн-OCR? Нет. Для документов с персональными данными используйте только локальное ПО (Desktop-версии), которое работает без интернета.

Что такое «невидимый текстовый слой»? Это текст, который наложен поверх изображения страницы. Он не виден глазу (не перекрывает картинку), но доступен для выделения, копирования и поиска. Это стандартный формат для архивных сканов.

Почему поиск в PDF не работает после сохранения из Word? Если вы создали PDF из Word, он уже текстовый. Если же вы отсканировали документ в JPG, а потом собрали в PDF — он станет IMG PDF. Поиск не работает, потому что внутри нет букв, только пиксели.