Как превратить сканы в searchable PDF с помощью OCR

Иван Корнев·26.05.2026·⏱6 мин

Чтобы сделать PDF из сканов с возможностью поиска и копирования текста, необходимо применить технологию оптического распознавания символов (OCR). Это добавляет в файл невидимый текстовый слой поверх изображений страниц. Самый быстрый способ — использовать встроенные функции Adobe Acrobat Pro или ABBYY FineReader; для бесплатного решения подойдут онлайн-конвертеры или открытое ПО вроде Tesseract. Главное условие качественного результата — исходное разрешение скана не ниже 300 dpi и правильный выбор языка распознавания.

Распознаваемый PDF (Searchable PDF) — это документ, где визуальная часть остается изображением, но под ним скрыт слой с текстом. Вы видите картинку, но можете выделить слова мышкой, скопировать их или найти через Ctrl+F.

Зачем нужен OCR и когда он необходим

Обычный скан — это просто набор фотографий страниц. Компьютер не понимает, что на них написано. OCR решает эту проблему, анализируя форму букв и преобразуя их в машиночитаемый код.

Преимущества распознаваемого PDF:

Поиск по документу. Мгновенный поиск нужной фамилии, даты или термина в многостраничных договорах.
Копирование текста. Возможность перенести фрагменты в Word или Excel без ручного перепечатывания.
Доступность. Скринридеры (программы экранного доступа) могут озвучивать текст для слабовидящих пользователей.
Архивация. Уменьшение объема файла за счет сжатия изображений при сохранении читаемости текста.

Подготовка сканов: залог точного распознавания

Качество OCR на 80% зависит от исходного изображения. Даже лучший софт ошибется, если скан сделан плохо.

Чек-лист перед обработкой:

Разрешение. Оптимально — 300–400 dpi. Меньше 200 dpi приведет к потере мелких деталей букв, больше 600 dpi излишне увеличит вес файла без заметного улучшения качества.
Ориентация. Страницы должны стоять ровно. Если текст идет под углом, используйте функцию «Выпрямление» (Deskew) в редакторе.
Контрастность. Идеальный вариант — черный текст на белом фоне. Избегайте серого фона, теней от пальцев или переплета книги.
Чистота. Уберите пятна, пыль и артефакты сжатия JPEG. Шум мешает алгоритмам выделять границы символов.

Если вы сканируете книгу, старайтесь плотно прижимать листы к стеклу, но не пережимайте корешок, чтобы не исказить геометрию строки у края страницы.

Инструменты для создания PDF с OCR

Выбор программы зависит от объема задач и требований к конфиденциальности.

1. Профессиональные десктопные решения (Лучшее качество)

ABBYY FineReader PDF Лидер рынка по качеству распознавания, особенно для сложных макетов и русского языка.

Плюсы: Отлично сохраняет таблицы, колонки и форматирование. Есть режим проверки сомнительных символов.
Минусы: Платный, требователен к ресурсам ПК.

Adobe Acrobat Pro DC Стандарт для работы с PDF.

Плюсы: Интегрирован в экосистему Adobe, удобен для пакетной обработки множества файлов.
Минусы: Распознавание таблиц иногда требует ручной правки.

2. Бесплатные и открытые решения

Tesseract OCR Консольная утилита с открытым исходным кодом.

Для кого: Для разработчиков и продвинутых пользователей, готовых работать с командной строкой.
Особенность: Требует предварительной подготовки изображения (бинаризация, шумоподавление) для хорошего результата.

Онлайн-сервисы (iLovePDF, Smallpdf, Google Drive)

Google Диск: Загрузите изображение/PDF → Откройте через «Google Документы» → Текст распознается автоматически → Скачайте как PDF.
Плюсы: Бесплатно, не нужно устанавливать софт.
Минусы: Не используйте для персональных данных (паспорта, договоры, финансовые отчеты), так как файлы загружаются на чужие серверы.

3. Мобильные приложения

Приложения вроде Microsoft Lens, Adobe Scan или CamScanner делают фото и сразу накладывают OCR.

Совет: Удобно для чеков и визиток. Для многостраничных документов лучше использовать сканер с автоподачей листов.

Пошаговая инструкция: как сделать OCR в популярных программах

Вариант А: Adobe Acrobat Pro DC

Откройте отсканированный PDF в программе.
В правой панели выберите инструмент «Сканирование и OCR» (Scan & OCR).
Нажмите «Распознать текст» → «В этом файле».
В настройках выберите:
- Язык документа: (например, Русский + Английский).
- Тип вывода: «Поиск изображений с возможностью копирования текста» (сохраняет оригинальный вид) или «Редактируемый текст и изображения» (может изменить шрифты).
Нажмите «Распознать текст». После завершения сохраните файл.

Вариант Б: ABBYY FineReader PDF

Нажмите «Открыть» и выберите файл скана.
Программа автоматически предложит язык распознавания. Проверьте его в панели слева.
Нажмите кнопку «Распознать» на верхней панели.
Перейдите во вкладку «Документ», чтобы проверить и исправить ошибки в тексте (сомнительные символы подсвечиваются).
Нажмите «Сохранить» → выберите формат PDF → в настройках сохранения убедитесь, что стоит галочка «Текст под изображением» (для сохранения оригинального вида) или «Текст над изображением».

Вариант В: Через Google Диск (Бесплатно)

Загрузите файл (PDF или JPG) на Google Диск.
Нажмите на файл правой кнопкой мыши → Открыть с помощью → Google Документы.
Подождите несколько секунд. Google создаст новый документ, где сверху будет картинка, а снизу — распознанный текст.
Скопируйте текст или скачайте файл: Файл → Скачать → Документ PDF.

Важно: При использовании Google Docs сложное форматирование (таблицы, колонтитулы) часто «слетает». Этот метод подходит только для извлечения чистого текста.

Типичные ошибки при распознавании и как их исправить

Проблема	Причина	Решение
«Кракозябры» вместо букв	Неверно выбран язык OCR	Укажите точный язык документа. Если текст смешанный (рус+англ), добавьте оба языка в настройки.
Потеря строк в таблицах	Низкое качество скана или сложный фон	Увеличьте DPI до 400–600. В ABBYY используйте инструмент «Разметка таблицы» вручную перед распознаванием.
Слишком большой размер файла	Изображения не сжаты после OCR	Используйте опцию «Уменьшить размер файла» в Adobe Acrobat или сожмите картинки перед созданием PDF.
Нельзя выделить текст	OCR не был применен или слой скрыт	Проверьте, сохранен ли файл именно как «Searchable PDF». Попробуйте выполнить поиск по слову (Ctrl+F).

Часто задаваемые вопросы (FAQ)

Можно ли добавить OCR в уже существующий PDF? Да. Большинство редакторов (Acrobat, FineReader) позволяют открыть обычный PDF-скан и запустить процесс распознавания постфактум.

Почему OCR ошибается в цифрах и именах? Алгоритмы путают похожие символы (например, 0 и O, 1 и l, 3 и 8). Всегда проверяйте критически важные данные (номера счетов, паспорта) вручную.

Какой формат лучше для архива: PDF/A или обычный PDF? Для долгосрочного хранения используйте PDF/A. Это стандарт архивации, который «зашивает» все шрифты и настройки внутрь файла, гарантируя, что документ откроется корректно даже через 20 лет.

Безопасно ли использовать онлайн-OCR для паспортов? Нет. Не загружайте документы с персональными данными на публичные сервисы. Используйте офлайн-программы (ABBYY, Acrobat) или встроенные средства ОС.

Заключение

Создание распознаваемого PDF — это простой шаг, который экономит часы работы при поиске информации в архивах. Для разовых задач без секретных данных подойдут онлайн-конвертеры или Google Drive. Для постоянной работы с документами лучше инвестировать в лицензию ABBYY FineReader или Adobe Acrobat Pro — они обеспечивают наилучшую точность и сохранение структуры документа. Помните: качественный скан (300 dpi, ровный, контрастный) — это половина успеха распознавания.