Конвертация PDF в TXT через OCR: от скана к редактируемому тексту

Иван Корнев·26.05.2026·⏱5 мин

Чтобы превратить PDF-файл, состоящий из изображений (сканов), в редактируемый текстовый документ формата TXT, необходимо использовать технологию оптического распознавания символов (OCR). Простое копирование текста из таких файлов невозможно, так как компьютер «видит» их как картинки. Процесс включает загрузку файла в OCR-сервис или программу, выбор языка распознавания и экспорт результата в формат plain text (.txt).

Ниже приведены проверенные способы выполнения этой задачи: от быстрых онлайн-инструментов до профессионального ПО для работы с конфиденциальными данными.

Важно: Формат TXT поддерживает только чистый текст. Все изображения, таблицы, жирный шрифт и разметка при конвертации будут утеряны. Если важно сохранить структуру документа, лучше выбирать форматы DOCX или RTF.

Почему обычный конвертер не работает

Обычные конвертеры PDF в TXT извлекают только тот текст, который уже заложен в файл на уровне кода. Если ваш PDF создан путем сканирования бумажного документа или сохранения фотографий страниц, в нем нет текстового слоя — есть только пиксели.

Для таких случаев требуется OCR (Optical Character Recognition) — программный анализ изображения, поиск букв и преобразование их в машиночитаемые символы.

Способ 1: Онлайн-сервисы (быстро и бесплатно)

Подходит для разовых задач, небольших файлов и документов, не содержащих конфиденциальной информации (паспортные данные, финансовые отчеты).

Пошаговая инструкция

Перейдите на сайт выбранного сервиса (например, Online2PDF).
Загрузите PDF-файл.
В настройках конвертации найдите раздел «Режим» или «Дополнительно» и выберите «Распознавание текста (OCR)».
Обязательно укажите язык документа (например, «Русский» или «Английский»). Это критически важно для точности.
В поле «Формат вывода» выберите TXT (Plain Text).
Нажмите «Конвертировать» и скачайте результат.

Если документ многоязычный (например, русско-английский технический мануал), выберите оба языка в настройках OCR. Это снизит количество ошибок при распознавании смешанных фрагментов.

Способ 2: Программы для ПК (безопасно и качественно)

Используйте этот метод, если вы работаете с большими объемами данных, файлами плохого качества или документами под подписью NDA.

Adobe Acrobat Pro DC

Стандарт индустрии. Позволяет не просто конвертировать, но и предварительно улучшить качество скана.

Откройте PDF в Adobe Acrobat Pro.
Перейдите во вкладку «Инструменты» → «Распознать текст».
Нажмите «Настроить» и выберите язык.
После завершения процесса распознавания перейдите в «Файл» → «Экспортировать в» → «Текст (обычный)».
Сохраните файл с расширением .txt.

ABBYY FineReader PDF

Лучшее решение для сложных макетов и плохих сканов. Хотя программа ориентирована на сохранение структуры (Word/Excel), она отлично экспортирует и в TXT.

Откройте файл в FineReader.
Дождитесь автоматического анализа страницы.
Проверьте зоны распознавания (убедитесь, что текст выделен зеленым, а не картинкой).
Нажмите «Сохранить как» → выберите тип файла «Текстовый файл (*.txt)».
В настройках сохранения можно выбрать кодировку (рекомендуется UTF-8 для корректного отображения кириллицы).

Способ 3: Бесплатные офлайн-инструменты

Если нет лицензии на Adobe или ABBYY, можно использовать открытое ПО.

NAPS2 (Not Another PDF Scanner 2) — бесплатная программа для сканирования и работы с PDF. Имеет встроенную функцию OCR (требует установки языкового пакета Tesseract).
- Как использовать: Импортируйте PDF → нажмите кнопку OCR → выберите язык → экспортируйте как TXT.
Tesseract OCR — консольная утилита для продвинутых пользователей. Требует навыков работы с командной строкой, но дает максимальный контроль над процессом.

Как повысить точность распознавания

Качество итогового TXT-файла напрямую зависит от исходника. Если текст получается «битым» (замена o на 0, l на 1, пропуски строк), примените следующие методы:

Увеличьте DPI. Идеальное разрешение для OCR — 300 dpi. Если скан сделан в 72–150 dpi, качество будет низким.
Выровняйте страницы. Наклон текста даже на 2–3 градуса резко снижает точность распознавания. Большинство онлайн-сервисов имеют опцию «Автовыравнивание» (Deskew).
Уберите шум. Если фон серый или есть пятна, используйте фильтры «Бинаризация» (черно-белый режим) или «Удаление шума» перед отправкой на OCR.
Проверьте шрифты. Рукописный текст или декоративные шрифты распознаются плохо. Для них требуются специализированные нейросетевые сервисы (например, Яндекс.Формы или специализированные AI-инструменты), а не классический OCR.

Частые ошибки при конвертации

Ошибка	Причина	Решение
Кракозябры вместо букв	Неверно выбрана кодировка или язык OCR	Укажите UTF-8 при сохранении и правильный язык при распознавании
Отсутствие пробелов	Слишком плотный текст или низкое разрешение	Увеличьте масштаб скана или используйте предобработку изображения
Слитые строки	Малый межстрочный интервал в оригинале	В настройках OCR включите опцию «Сохранять разрывы строк»
Потеря абзацев	TXT не поддерживает форматирование	Используйте предварительный просмотр в сервисе, чтобы понять структуру

FAQ

Можно ли распознать рукописный текст в PDF? Стандартные OCR-движки (Tesseract, Adobe) плохо справляются с почерком. Для этого нужны AI-сервисы с поддержкой Handwriting OCR (например, Google Cloud Vision API или специализированные нейросети), но даже они дают погрешность.

Безопасно ли загружать документы в онлайн-конвертеры? Для личных переписок, книг или статей — да. Для договоров, паспортов, медицинских справок — нет. Используйте офлайн-программы (Adobe, FineReader, NAPS2), чтобы данные не покидали ваш компьютер.

Почему в TXT файле нарушена структура таблиц? Формат TXT не поддерживает ячейки и столбцы. Текст из таблиц будет выведен либо построчно, либо с использованием символов-разделителей. Для сохранения таблиц конвертируйте PDF в CSV или Excel, а не в TXT.

Что делать, если OCR игнорирует часть текста? Возможно, эта часть распознана как фоновое изображение или штамп. В профессиональных программах (FineReader) можно вручную переназначить зоны: указать программе, что конкретный блок — это текст, а не картинка.

Всегда проверяйте результат конвертации. Даже лучшие системы OCR допускают ошибки в 1–5% символов, особенно в цифрах и именах собственных. Для юридических документов вычитка обязательна.