Классификация PDF-документов: от сканов до архивных стандартов

Иван Корнев·26.05.2026·6 мин

PDF-файлы делятся на четыре основных типа в зависимости от внутреннего содержания и назначения: сканированные (изображения страниц), текстовые (с возможностью выделения и поиска), PDF/A (стандарт для долгосрочного архивирования) и защищенные (с ограничениями доступа или действий). Выбор правильного типа зависит от цели: нужно ли вам просто сохранить визуальный вид документа, искать по нему текст, гарантировать открываемость через 10 лет или запретить копирование данных.

Краткий гид по выбору:

  • Нужна точная копия бумажного листа? → Скан.
  • Нужно искать, копировать и редактировать текст? → Текстовый PDF.
  • Документ для государственного или корпоративного архива? → PDF/A.
  • Конфиденциальные данные? → Защищенный PDF.

Текстовый PDF (Native PDF)

Это «настоящий» цифровой документ, созданный напрямую из редакторов (Word, Excel, InDesign) или экспортированный из веб-страниц. Внутри такого файла содержится слой векторного текста и встроенные шрифты.

Ключевые особенности:

  • Поиск и навигация: Работает мгновенно. Вы можете найти любое слово через Ctrl+F.
  • Редактируемость: Текст можно выделять, копировать в буфер обмена и вставлять в другие программы без потери качества.
  • Компактность: Такие файлы обычно весят меньше, чем сканы высокого разрешения, так как хранят код символов, а не пиксели.
  • Адаптивность: Поддерживают гиперссылки, закладки и интерактивные формы.

Когда использовать: Для резюме, инструкций, договоров в электронном виде, отчетов и любых документов, которые будут распространяться цифровым способом и требовать взаимодействия с контентом.

Сканированный PDF (Image-based PDF)

Фактически это контейнер с набором изображений (JPEG, PNG или TIFF), упакованных в оболочку PDF. Такой файл получается при сканировании бумажных документов или фотографировании экрана.

Ключевые особенности:

  • Отсутствие текстового слоя: Для компьютера это просто картинка. Поиск по тексту не работает, выделить фрагмент нельзя.
  • Визуальная точность: Полностью сохраняет внешний вид оригинала, включая подписи, печати, потертости бумаги и рукописные пометки.
  • Большой вес: Высокое разрешение необходимо для читаемости, что увеличивает размер файла.

Как сделать скан полезнее: Используйте технологии оптического распознавания символов (OCR). Программы вроде Adobe Acrobat, ABBYY FineReader или онлайн-сервисы могут добавить невидимый текстовый слой поверх изображения. Вы получите гибрид: визуальную копию оригинала + возможность поиска по тексту.

Когда использовать: Для юридических доказательств (где важна печать и подпись), старых архивных документов, билетов с уникальным дизайном или когда исходного цифрового файла не существует.

PDF/A (Archival PDF)

Это не отдельный вид контента, а строгий стандарт ISO (ISO 19005), разработанный для долгосрочного сохранения электронных документов. Главная цель PDF/A — гарантировать, что документ будет выглядеть одинаково через 10, 20 или 50 лет, независимо от того, какое ПО и операционная система будут использоваться в будущем.

Чем отличается от обычного PDF:

  1. Все шрифты встроены: Запрещено использование внешних ссылок на шрифты. Если шрифт не внедрен в файл, конвертация в PDF/A невозможна.
  2. Запрет на динамический контент: Нельзя использовать JavaScript, аудио, видео и внешние гиперссылки (в некоторых версиях стандарта).
  3. Цветовая независимость: Цвета задаются в независимых цветовых пространствах (например, CMYK или sRGB), чтобы принтеры будущего отображали их корректно.
  4. Метаданные: Обязательное наличие стандартизированных метаданных (XMP) для идентификации документа.

Версии стандарта:

  • PDF/A-1: Самый старый и строгий, основан на PDF 1.4.
  • PDF/A-2: Поддерживает прозрачность и слои, позволяет вкладывать другие PDF/A файлы.
  • PDF/A-3: Позволяет вкладывать файлы любых форматов (например, исходный Excel-файл внутри PDF-отчета).

Когда использовать: Для сдачи отчетности в налоговую, хранения медицинских карт, юридической документации, библиотечных фондов и любых данных, которые должны оставаться доступными десятилетиями.

Защищенный PDF (Encrypted/Restricted PDF)

Любой из вышеперечисленных типов может быть защищен. Защита реализуется через шифрование и установку прав доступа.

Уровни защиты:

  1. Пароль на открытие (User Password): Документ нельзя открыть без ввода ключа. Содержимое зашифровано.
  2. Пароль владельца (Owner Password): Документ открывается свободно, но ограничиваются действия:
    • Запрет на печать.
    • Запрет на копирование текста и изображений.
    • Запрет на редактирование или добавление комментариев.
    • Запрет на сохранение копий.

Важно о безопасности: Пароль владельца часто легко снимается сторонними утилитами, так как он лишь указывает программе-просмотрщику, какие кнопки скрыть. Для реальной конфиденциальности используйте пароль на открытие с сильным алгоритмом шифрования (AES-256).

Когда использовать: Для рассылки коммерческих предложений с ценами, персональных данных, черновиков книг до публикации, внутренних регламентов компании.

Сравнительная таблица типов PDF

ХарактеристикаТекстовый PDFСканированный PDFPDF/AЗащищенный PDF
ОсноваВекторный текст и шрифтыРастровое изображениеСтандарт структуры файлаШифрование и права доступа
Поиск по тексту✅ Да❌ Нет (без OCR)✅ Да (если есть текст)✅ Да (если разрешено)
РедактированиеЛегко извлекаетсяНевозможно напрямуюЗапрещено стандартомЗависит от настроек
Размер файлаМалыйБольшойСредний/Большой (из-за шрифтов)Как у исходника
Главная цельОбмен и работа с даннымиВизуальная копия бумагиДолгосрочное хранениеКонфиденциальность

Как быстро определить тип PDF-файла

Не всегда очевидно, с чем вы имеете дело. Вот простой алгоритм проверки:

  1. Попробуйте выделить текст курсором.

    • Получилось? Это текстовый PDF (или PDF/A с текстом).
    • Выделяется вся страница как один объект или ничего не происходит? Скорее всего, это скан.
  2. Попробуйте поиск (Ctrl+F).

    • Слово нашлось? Текстовый слой есть.
    • Поиск не дал результатов при наличии видимого текста? Это скан без OCR.
  3. Проверьте свойства документа (Ctrl+D или File > Properties).

    • Вкладка «Описание» или «Дополнительно».
    • Ищите строку «Стандарт PDF» или «PDF Standard». Если там указано PDF/A-1b, PDF/A-2u и т.д. — перед вами архивный формат.
    • Вкладка «Безопасность» покажет, есть ли ограничения на печать или копирование (защищенный PDF).

Частые ошибки при работе с форматами

  • Конвертация скана в Word без OCR: Пользователи пытаются конвертировать картинку в DOCX, получая нечитаемый набор символов. Сначала нужно распознать текст.
  • Использование обычного PDF для архива: Через несколько лет шрифт, использованный в документе, может исчезнуть из систем, и документ откроется с «кракозябрами». Для архивов только PDF/A.
  • Надежда на «Пароль владельца»: Многие считают, что запрет на копирование надежно защищает авторские права. На практике такие ограничения снимаются за секунды. Для защиты сути документа нужны водяные знаки и юридические соглашения, а не только настройки PDF.
  • Игнорирование размера сканов: Отправка сканов в высоком DPI (300–600) по почте забивает ящики. Для экранного чтения достаточно 72–150 DPI.

FAQ

Можно ли превратить скан в текстовый PDF? Да, с помощью технологии OCR (Optical Character Recognition). Большинство современных PDF-редакторов и даже бесплатные онлайн-инструменты поддерживают эту функцию. Качество зависит от четкости исходного скана.

Чем PDF/A-1 отличается от PDF/A-2? PDF/A-1 более строгий и совместим со старым ПО, но не поддерживает прозрачность объектов и слои. PDF/A-2 современнее, поддерживает JPEG 2000 и прозрачность, что делает его предпочтительным для большинства новых архивов.

Безопасно ли хранить пароли от PDF в менеджере паролей? Да, это лучший способ. Не используйте простые пароли вроде «123456» для защиты конфиденциальных документов. Алгоритм шифрования AES-256, используемый в PDF, считается надежным, если ключ сложный.

Почему PDF/A файл весит больше обычного? Потому что он обязан включать в себя все используемые шрифты целиком или их подмножества, а также преобразовывать цвета в независимые профили. Обычный PDF может ссылаться на шрифты, установленные в системе пользователя, экономя место.