Улучшение качества PDF: от размытого скана к четкому документу

Иван Корнев·26.05.2026·5 мин

Чтобы улучшить качество PDF, необходимо воздействовать на исходные изображения: повысить контрастность для четкости текста, применить фильтры резкости (Unsharp Mask) и выполнить оптическое распознавание символов (OCR) для создания searchable-документа. Оптимальное разрешение для чтения с экрана — 150–200 DPI, для печати — 300 DPI.

Ниже приведены проверенные методы обработки как для обычных пользователей (через графические интерфейсы), так и для продвинутых (через командную строку).

Оглавление

Диагностика проблем в PDF

Прежде чем применять фильтры, определите тип исходного файла. От этого зависит стратегия улучшения:

  1. Растровый скан (картинка): Текст нельзя выделить курсором. Требуется улучшение контраста/резкости и последующее OCR.
  2. Векторный PDF с плохим рендерингом: Текст выделяется, но выглядит размытым или «пиксельным» на экране. Часто лечится изменением настроек отображения или пересохранением с другими параметрами сжатия.
  3. Скан с артефактами: Видны полосы, тени от переплета, серый фон. Требует очистки фона (binarization) и кадрирования.

Проверьте разрешение исходника. Если скан сделан с разрешением ниже 150 DPI, улучшение резкости мало поможет — информации просто нет. В таком случае лучше пересканировать документ заново.

Быстрые способы улучшения (онлайн и простые редакторы)

Если документ небольшой и не содержит конфиденциальных данных, можно использовать онлайн-сервисы или бесплатные десктопные утилиты.

Онлайн-конвертеры и оптимизаторы

Сервисы вроде iLovePDF, Smallpdf или Adobe Online предлагают функцию «Улучшить PDF» или «Сжать PDF».

  • Плюсы: Не нужно устанавливать ПО.
  • Минусы: Риск утечки данных; ограниченный контроль над параметрами резкости.
  • Как использовать: Загрузите файл, выберите режим «Высокое качество» (High Quality) или «Стандарт». Избегайте режима «Экстремальное сжатие», если важна читаемость мелкого шрифта.

Бесплатные редакторы (PDF24, PDF-XChange Editor)

Эти программы позволяют экспортировать страницы как изображения, обработать их и собрать обратно.

  1. Откройте PDF в редакторе.
  2. Используйте инструмент «Оптимизировать» (Optimize).
  3. В настройках изображений выберите Downsampling до 150–200 DPI (для экрана) и примените JPEG-сжатие качества 80–90%.
  4. Для повышения четкости текста включите опцию «Монохромное изображение» (Black & White), если документ черно-белый. Это резко повысит контраст.

Профессиональная обработка изображений внутри PDF

Для максимального качества используйте связку графического редактора (Photoshop, GIMP, Affinity Photo) и PDF-редактора (Acrobat Pro).

Шаг 1: Экспорт страниц в изображения

Извлеките страницы из PDF как TIFF или PNG (без потерь). JPEG использовать не рекомендуется на промежуточных этапах, чтобы не накапливать артефакты сжатия.

Шаг 2: Коррекция в графическом редакторе

Примените следующие фильтры по очереди:

  1. Кадрирование и выравнивание: Уберите белые поля и исправьте перекос (Crop & Straighten).
  2. Уровни (Levels) или Кривые (Curves):
    • Сдвиньте белую точку (света) вправо, чтобы убрать серый фон.
    • Сдвиньте черную точку (тени) влево, чтобы сделать текст насыщенно черным.
    • Цель: Максимальный контраст между текстом и фоном.
  3. Повышение резкости (Unsharp Mask):
    • Radius (Радиус): 0.5–1.0 px.
    • Amount (Интенсивность): 100–150%.
    • Threshold (Порог): 0–2 levels (чтобы не усиливать шум на фоне).
  4. Удаление шума: Используйте фильтр «Reduce Noise» или «Despeckle», если на фоне есть точки.

Шаг 3: Сборка обратно в PDF

Сохраните обработанные изображения и объедините их в один PDF-файл. В Acrobat Pro это делается через «Create PDF from Multiple Files».

Добавление текстового слоя (OCR)

Даже идеально четкий скан остается «картинкой», если в нем нет текстового слоя. OCR (Optical Character Recognition) делает текст копируемым и searchable.

Инструменты для OCR

  • ABBYY FineReader PDF: Лидер по качеству распознавания, особенно для сложных таблиц и русского языка.
  • Adobe Acrobat Pro: Встроенная функция «Распознать текст» (Enhance Scans).
  • OCRmyPDF (бесплатно, CLI): Лучший открытый инструмент для Linux/macOS/Windows (через WSL или Docker).

Настройки для лучшего результата

  1. Язык: Всегда указывайте точный язык документа. Мультиязычность снижает точность.
  2. Режим вывода: Выбирайте «Текст под изображением» (Text under image) или «Текст и изображения». Режим «Только текст» удалит оригинальное оформление.
  3. Предобработка: Включите опции «Исправить перекос» (Deskew) и «Удалить фон» (Clean up background) перед распознаванием.

Не применяйте агрессивное сжатие JPEG перед OCR. Алгоритмы распознавания плохо работают с «квадратиками» вокруг букв. Используйте монохромный режим (1-bit B&W) или grayscale без потерь.

Автоматизация через командную строку

Для пакетной обработки десятков файлов используйте OCRmyPDF. Это инструмент, который автоматически улучшает сканы, добавляет OCR и оптимизирует размер.

Установка (требуется Python и зависимости):

pip install ocrmypdf

Пример команды для улучшения качества:

ocrmypdf --optimize 3 --deskew --clean --rotate-pages input.pdf output.pdf

Разбор флагов:

  • --optimize 3: Агрессивная оптимизация размера (пережатие изображений).
  • --deskew: Автоматическое выравнивание перекоса страниц.
  • --clean: Удаление шума и артефактов сканирования.
  • --rotate-pages: Автоповорот страниц в правильную ориентацию.
  • -l rus: Указание языка (по умолчанию английский, добавьте rus для русского).

Для простой переконвертации и изменения DPI без OCR можно использовать Ghostscript:

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Параметр -dPDFSETTINGS=/ebook устанавливает качество 150 DPI, что является балансом между четкостью и размером файла.

Частые ошибки при обработке

ОшибкаПоследствиеКак исправить
Многократное сохранение в JPEGНакопление артефактов, «мыло» вокруг буквИспользуйте PNG/TIFF на этапах редактирования, JPEG только на финальном экспорте.
Слишком высокая резкостьПоявление черных ореолов вокруг букв (halos)Используйте радиус не более 1.0 px и проверяйте результат при 100% увеличении.
Игнорирование серого фонаБольшой размер файла и плохой контраст при печатиПрименяйте бинаризацию (перевод в ч/б) или уровни для удаления фона.
OCR без указания языкаЗамена букв на похожие символы (например, 'о' на '0')Всегда задавайте язык распознавания явно.

FAQ

Как сделать PDF меньше, не потеряв в качестве? Используйте downsampling изображений до 150 DPI (для экрана) и конвертацию цветных изображений в оттенки серого (Grayscale), если цвет не важен. Инструменты: Ghostscript (/ebook preset) или Adobe Acrobat («Save as Other -> Reduced Size PDF»).

Можно ли улучшить рукописный текст? Да, но сложно. Повышение контраста помогает, но OCR для рукописного текста работает с низкой точностью. Лучше использовать специализированные нейросетевые сервисы (например, Яндекс.Формы или Google Lens для копирования), а не классические OCR-движки.

Почему текст в PDF выглядит размытым на мониторе? Возможно, включено сглаживание шрифтов или масштабирование не кратно 100%. Попробуйте изменить масштаб просмотра на 100% или 200%. Если это скан, то исходное разрешение слишком низкое для вашего экрана.

Безопасно ли загружать документы в онлайн-сервисы? Для публичных或非-sensitive документов — да. Для паспортов, договоров и финансовых отчетов используйте только оффлайн-ПО (Acrobat, FineReader, GIMP, OCRmyPDF), чтобы данные не покидали ваш компьютер.