Перенос данных из PDF в Excel: инструкции для цифровых файлов и сканов

Иван Корнев·26.05.2026·5 мин

Чтобы перевести PDF в Excel, сначала определите тип файла: если текст выделяется мышью, используйте встроенный импорт данных в Excel (Power Query); если это скан или картинка, примените OCR-распознавание через Adobe Acrobat или ABBYY FineReader перед экспортом. Выбор правильного метода сэкономит время на ручном исправлении «поехавших» столбцов и ошибочных символов.

PDF — отличный формат для чтения, но плохой для анализа. Таблицы в нем часто теряют структуру при копировании, а сканированные документы вообще не содержат текстового слоя. В этой статье разберем, как корректно извлечь данные, сохранив целостность строк и колонок.

Оглавление

Когда PDF можно открыть без OCR

Если PDF создан экспортом из Word, 1С или другой программы (цифровой PDF), он содержит скрытый текстовый слой. В этом случае сторонние конвертеры не нужны — Excel справится сам.

В Excel для Windows (версии 2016 и новее, включая Microsoft 365) есть встроенный инструмент импорта:

  1. Перейдите на вкладку Данные (Data).
  2. Выберите Получить данныеИз файлаИз PDF.
  3. В окне навигатора выберите нужную таблицу или страницу.
  4. Нажмите Загрузить или Преобразовать данные, чтобы открыть редактор Power Query для очистки мусора.

Этот метод идеален для банковских выписок, прайс-листов и отчетов, где структура жесткая. Power Query позволяет автоматически удалять лишние заголовки, объединять столбцы и менять типы данных (например, превращать «1 000,00 ₽» в числовой формат) еще до попадания на лист.

Всегда начинайте с нативного импорта Excel, если файл не является сканом. Это дает наилучшую точность распознавания чисел и дат, так как программа берет исходные символы, а не пытается угадать их по пикселям.

Когда нужен OCR

OCR (Optical Character Recognition) необходим, если PDF — это фотография документа или скан, где текст нельзя выделить курсором. Для Excel такой файл выглядит как одна большая картинка.

Процесс конвертации в этом случае двухступенчатый:

  1. Распознавание: Специальная программа анализирует изображение, находит буквы и цифры, создавая текстовый слой.
  2. Экспорт: Распознанный текст сохраняется в формате .xlsx или .csv.

Без качественного OCR вы получите в Excel либо пустой лист, либо нечитаемый набор символов. Инструменты вроде Adobe Acrobat Pro и ABBYY FineReader делают это автоматически, но требуют проверки результата, особенно если качество скана низкое (размытый текст, тени, перекошенные строки).

Лучшие способы конвертации

1. Excel для Windows (Power Query)

Лучший выбор для регулярной работы с цифровыми PDF.

  • Плюсы: Бесплатно (входит в Excel), возможность настройки автоматического обновления данных, высокая точность для структурированных файлов.
  • Минусы: Не работает со сканами, доступен только в Windows-версиях Excel.

2. Adobe Acrobat Pro

Универсальное решение для офисных задач.

  • Как использовать: Откройте PDF → Инструменты → Экспорт PDF → Электронная таблица (Microsoft Excel).
  • Особенности: Если файл сканированный, Acrobat автоматически запустит OCR. Алгоритмы Adobe хорошо справляются с сохранением визуальной структуры таблицы, но могут ошибаться в сложных многострочных ячейках.

3. ABBYY FineReader PDF

Лидер для сложных и «грязных» сканов.

  • Как использовать: Откройте файл в режиме «Конвертировать в Microsoft Excel». Перед сохранением можно вручную проверить зоны распознавания в редакторе.
  • Особенности: Позволяет точно настроить области таблицы, игнорировать колонтитулы и правильно интерпретировать объединенные ячейки. Незаменим для бухгалтерских архивов и старых документов с плохим качеством печати.

Как сохранить таблицу без ошибок

Даже лучший конвертер может исказить данные. Чтобы минимизировать правки после импорта, следуйте этому чек-листу:

  1. Проверьте исходник. Убедитесь, что скан ровный, контрастный и без пятен. Если возможно, отсканируйте документ заново в режиме «Черно-белый» или «Оттенки серого» с разрешением не менее 300 dpi.
  2. Разделяйте задачи. Для цифровых PDF используйте Excel. Для сканов — OCR-софт. Не пытайтесь заставить Excel читать картинки.
  3. Контролируйте заголовки. При импорте многостраничных таблиц заголовки могут дублироваться на каждой странице. В Power Query их легко отфильтровать, в обычном экспорте придется удалять вручную.
  4. Сверяйте итоги. После конвертации всегда суммируйте числовые колонки в Excel и сравнивайте с оригиналом в PDF. Расхождение даже в копейках сигналит об ошибке распознавания (например, «8» превратилась в «3»).

Особое внимание уделяйте похожим символам: 0 (ноль) и O (буква), 1 (единица), l (строчная L) и I (заглавная i). OCR часто путает их в шрифтах без засечек.

Частые ошибки

ПроблемаПричинаРешение
Все данные в одном столбцеРазделители не распознаныИспользуйте «Текст по столбцам» в Excel или настройте разделители в Power Query
Числа стали текстомЛишние пробелы или символы валютыПримените функцию «Значение» или найдите и замените пробелы/знаки ₽/$ на пустоту
Потеряны объединения ячеекСложная верстка исходникаВручную восстановите структуру или используйте ABBYY FineReader с ручной проверкой зон
«Крякозябры» вместо текстаОтсутствие языкового пакета в OCRУкажите правильный язык документа в настройках программы распознавания
Импорт не доступен на MacОграничение функции Get DataИспользуйте онлайн-конвертеры или экспорт через Adobe Acrobat/Acrobat Reader

FAQ

Можно ли конвертировать PDF в Excel бесплатно? Да. Если файл цифровой, используйте встроенный импорт в Excel. Для сканов можно воспользоваться бесплатными онлайн-сервисами (например, ILovePDF или Smallpdf), но они имеют лимиты на количество файлов и не гарантируют конфиденциальность данных.

Почему Excel не видит таблицу в PDF? Скорее всего, документ не имеет четкой табличной структуры (используются табуляции или пробелы вместо ячеек) или является сканом. Попробуйте открыть его в Adobe Acrobat и выполнить экспорт там, либо предварительно обработайте в OCR-редакторе.

Как быть, если таблица занимает несколько страниц? При импорте через Power Query выберите все соответствующие таблицы в навигаторе и объедините их. При использовании Acrobat или FineReader убедитесь, что в настройках экспорта стоит галочка «Сохранять макет страницы» или аналогичная, чтобы данные не перемешались.

Безопасно ли загружать финансовые документы в онлайн-конвертеры? Нет. Для счетов, выписок и персональных данных используйте только офлайн-программы (Excel, Adobe Acrobat Pro, ABBYY), которые обрабатывают файлы локально на вашем компьютере.