Как превратить сканы в searchable PDF с помощью OCR

Иван Корнев·26.05.2026·6 мин

Чтобы сделать PDF из сканов с возможностью поиска и копирования текста, необходимо применить технологию оптического распознавания символов (OCR). Это добавляет в файл невидимый текстовый слой поверх изображений страниц. Самый быстрый способ — использовать встроенные функции Adobe Acrobat Pro или ABBYY FineReader; для бесплатного решения подойдут онлайн-конвертеры или открытое ПО вроде Tesseract. Главное условие качественного результата — исходное разрешение скана не ниже 300 dpi и правильный выбор языка распознавания.

Распознаваемый PDF (Searchable PDF) — это документ, где визуальная часть остается изображением, но под ним скрыт слой с текстом. Вы видите картинку, но можете выделить слова мышкой, скопировать их или найти через Ctrl+F.

Зачем нужен OCR и когда он необходим

Обычный скан — это просто набор фотографий страниц. Компьютер не понимает, что на них написано. OCR решает эту проблему, анализируя форму букв и преобразуя их в машиночитаемый код.

Преимущества распознаваемого PDF:

  • Поиск по документу. Мгновенный поиск нужной фамилии, даты или термина в многостраничных договорах.
  • Копирование текста. Возможность перенести фрагменты в Word или Excel без ручного перепечатывания.
  • Доступность. Скринридеры (программы экранного доступа) могут озвучивать текст для слабовидящих пользователей.
  • Архивация. Уменьшение объема файла за счет сжатия изображений при сохранении читаемости текста.

Подготовка сканов: залог точного распознавания

Качество OCR на 80% зависит от исходного изображения. Даже лучший софт ошибется, если скан сделан плохо.

Чек-лист перед обработкой:

  1. Разрешение. Оптимально — 300–400 dpi. Меньше 200 dpi приведет к потере мелких деталей букв, больше 600 dpi излишне увеличит вес файла без заметного улучшения качества.
  2. Ориентация. Страницы должны стоять ровно. Если текст идет под углом, используйте функцию «Выпрямление» (Deskew) в редакторе.
  3. Контрастность. Идеальный вариант — черный текст на белом фоне. Избегайте серого фона, теней от пальцев или переплета книги.
  4. Чистота. Уберите пятна, пыль и артефакты сжатия JPEG. Шум мешает алгоритмам выделять границы символов.

Если вы сканируете книгу, старайтесь плотно прижимать листы к стеклу, но не пережимайте корешок, чтобы не исказить геометрию строки у края страницы.

Инструменты для создания PDF с OCR

Выбор программы зависит от объема задач и требований к конфиденциальности.

1. Профессиональные десктопные решения (Лучшее качество)

ABBYY FineReader PDF Лидер рынка по качеству распознавания, особенно для сложных макетов и русского языка.

  • Плюсы: Отлично сохраняет таблицы, колонки и форматирование. Есть режим проверки сомнительных символов.
  • Минусы: Платный, требователен к ресурсам ПК.

Adobe Acrobat Pro DC Стандарт для работы с PDF.

  • Плюсы: Интегрирован в экосистему Adobe, удобен для пакетной обработки множества файлов.
  • Минусы: Распознавание таблиц иногда требует ручной правки.

2. Бесплатные и открытые решения

Tesseract OCR Консольная утилита с открытым исходным кодом.

  • Для кого: Для разработчиков и продвинутых пользователей, готовых работать с командной строкой.
  • Особенность: Требует предварительной подготовки изображения (бинаризация, шумоподавление) для хорошего результата.

Онлайн-сервисы (iLovePDF, Smallpdf, Google Drive)

  • Google Диск: Загрузите изображение/PDF → Откройте через «Google Документы» → Текст распознается автоматически → Скачайте как PDF.
  • Плюсы: Бесплатно, не нужно устанавливать софт.
  • Минусы: Не используйте для персональных данных (паспорта, договоры, финансовые отчеты), так как файлы загружаются на чужие серверы.

3. Мобильные приложения

Приложения вроде Microsoft Lens, Adobe Scan или CamScanner делают фото и сразу накладывают OCR.

  • Совет: Удобно для чеков и визиток. Для многостраничных документов лучше использовать сканер с автоподачей листов.

Пошаговая инструкция: как сделать OCR в популярных программах

Вариант А: Adobe Acrobat Pro DC

  1. Откройте отсканированный PDF в программе.
  2. В правой панели выберите инструмент «Сканирование и OCR» (Scan & OCR).
  3. Нажмите «Распознать текст»«В этом файле».
  4. В настройках выберите:
    • Язык документа: (например, Русский + Английский).
    • Тип вывода: «Поиск изображений с возможностью копирования текста» (сохраняет оригинальный вид) или «Редактируемый текст и изображения» (может изменить шрифты).
  5. Нажмите «Распознать текст». После завершения сохраните файл.

Вариант Б: ABBYY FineReader PDF

  1. Нажмите «Открыть» и выберите файл скана.
  2. Программа автоматически предложит язык распознавания. Проверьте его в панели слева.
  3. Нажмите кнопку «Распознать» на верхней панели.
  4. Перейдите во вкладку «Документ», чтобы проверить и исправить ошибки в тексте (сомнительные символы подсвечиваются).
  5. Нажмите «Сохранить» → выберите формат PDF → в настройках сохранения убедитесь, что стоит галочка «Текст под изображением» (для сохранения оригинального вида) или «Текст над изображением».

Вариант В: Через Google Диск (Бесплатно)

  1. Загрузите файл (PDF или JPG) на Google Диск.
  2. Нажмите на файл правой кнопкой мыши → Открыть с помощьюGoogle Документы.
  3. Подождите несколько секунд. Google создаст новый документ, где сверху будет картинка, а снизу — распознанный текст.
  4. Скопируйте текст или скачайте файл: ФайлСкачатьДокумент PDF.

Важно: При использовании Google Docs сложное форматирование (таблицы, колонтитулы) часто «слетает». Этот метод подходит только для извлечения чистого текста.

Типичные ошибки при распознавании и как их исправить

ПроблемаПричинаРешение
«Кракозябры» вместо буквНеверно выбран язык OCRУкажите точный язык документа. Если текст смешанный (рус+англ), добавьте оба языка в настройки.
Потеря строк в таблицахНизкое качество скана или сложный фонУвеличьте DPI до 400–600. В ABBYY используйте инструмент «Разметка таблицы» вручную перед распознаванием.
Слишком большой размер файлаИзображения не сжаты после OCRИспользуйте опцию «Уменьшить размер файла» в Adobe Acrobat или сожмите картинки перед созданием PDF.
Нельзя выделить текстOCR не был применен или слой скрытПроверьте, сохранен ли файл именно как «Searchable PDF». Попробуйте выполнить поиск по слову (Ctrl+F).

Часто задаваемые вопросы (FAQ)

Можно ли добавить OCR в уже существующий PDF? Да. Большинство редакторов (Acrobat, FineReader) позволяют открыть обычный PDF-скан и запустить процесс распознавания постфактум.

Почему OCR ошибается в цифрах и именах? Алгоритмы путают похожие символы (например, 0 и O, 1 и l, 3 и 8). Всегда проверяйте критически важные данные (номера счетов, паспорта) вручную.

Какой формат лучше для архива: PDF/A или обычный PDF? Для долгосрочного хранения используйте PDF/A. Это стандарт архивации, который «зашивает» все шрифты и настройки внутрь файла, гарантируя, что документ откроется корректно даже через 20 лет.

Безопасно ли использовать онлайн-OCR для паспортов? Нет. Не загружайте документы с персональными данными на публичные сервисы. Используйте офлайн-программы (ABBYY, Acrobat) или встроенные средства ОС.

Заключение

Создание распознаваемого PDF — это простой шаг, который экономит часы работы при поиске информации в архивах. Для разовых задач без секретных данных подойдут онлайн-конвертеры или Google Drive. Для постоянной работы с документами лучше инвестировать в лицензию ABBYY FineReader или Adobe Acrobat Pro — они обеспечивают наилучшую точность и сохранение структуры документа. Помните: качественный скан (300 dpi, ровный, контрастный) — это половина успеха распознавания.