Извлечение данных из PDF в Excel: методы и инструменты

Иван Корнев·27.05.2026·5 мин

Чтобы конвертировать PDF в таблицу Excel (XLSX), используйте встроенную функцию «Получить данные» в Excel для текстовых файлов или Adobe Acrobat с функцией OCR для сканированных документов. Ключевой фактор успеха — определение типа PDF: если текст выделяется мышью, достаточно прямого импорта; если это изображение, требуется предварительное оптическое распознавание символов (OCR).

Определение типа документа

Перед началом работы критически важно понять структуру исходного файла. От этого зависит выбор инструмента и качество результата.

  1. Текстовый PDF. Создан экспортом из Word, Excel или другой программы. Текст внутри выделяется курсором, копируется в буфер обмена без потери структуры. Для таких файлов подходят прямые методы импорта.
  2. Сканированный PDF (изображение). Представляет собой набор фотографий страниц. Текст не выделяется, при копировании вставляется как нечитаемый набор символов или пустое место. Такие файлы требуют обязательной обработки через OCR.

Быстрый тест: откройте PDF и попробуйте выделить одну ячейку таблицы. Если выделяется весь абзац или выделение невозможно — перед вами скан или сложная верстка, требующая специального подхода.

Способ 1: Встроенный импорт в Excel (Power Query)

Этот метод доступен в современных версиях Excel (2016 и новее, Microsoft 365) на Windows. Он позволяет извлекать данные напрямую, минуя сторонние сервисы.

Алгоритм действий:

  1. Откройте пустой лист в Excel.
  2. Перейдите на вкладку Данные (Data).
  3. Выберите Получить данныеИз файлаИз PDF (Get Data → From File → From PDF).
  4. Укажите путь к файлу. Откроется окно навигатора.
  5. В левой части окна выберите нужную страницу или автоматически найденную таблицу (Table). Справа появится предпросмотр.
  6. Нажмите Загрузить (Load) для простого импорта или Преобразовать данные (Transform Data), чтобы открыть редактор Power Query для очистки мусора, удаления лишних строк и настройки типов данных.

Функция импорта из PDF в Excel для macOS отсутствует или ограничена. Пользователям Mac рекомендуется использовать Способ 2 или 3.

Способ 2: Adobe Acrobat Pro (с поддержкой OCR)

Наиболее надежный способ для сложных документов и сканов. Adobe Acrobat автоматически распознает структуру таблицы и переносит её в формат XLSX.

Для текстовых PDF:

  1. Откройте файл в Acrobat Pro.
  2. Выберите Экспорт PDF (Export PDF) в правой панели.
  3. Укажите формат Электронная таблицаКнига Microsoft Excel.
  4. Нажмите Экспорт.

Для сканированных документов:

  1. Откройте скан в Acrobat.
  2. Запустите инструмент Распознать текст (Scan & OCR / Recognize Text).
  3. Выполните распознавание для всей страницы.
  4. После завершения OCR повторите шаги экспорта, описанные выше.

Acrobat лучше других инструментов сохраняет объединенные ячейки и форматирование заголовков, но требует платной подписки.

Способ 3: Онлайн-конвертеры

Подходят для разовых задач, когда нет установленного ПО. Популярные сервисы: Smallpdf, ILovePDF, Convertio.

Плюсы:

  • Не требуют установки программ.
  • Работают на любой ОС (Windows, Mac, Linux, Android, iOS).
  • Часто имеют встроенный базовый OCR.

Минусы:

  • Конфиденциальность: не загружайте документы с персональными данными, финансовой отчетностью или коммерческой тайной на публичные серверы.
  • Точность: сложные таблицы с вертикальными линиями или нестандартными шрифтами могут быть распознаны с ошибками (съехавшие столбцы).

Способ 4: Автоматизация для больших объемов

Если нужно обработать сотни однотипных счетов или отчетов, ручная конвертация неэффективна. Используйте библиотеки Python, такие как Camelot или pdfplumber.

  • Camelot: специализируется именно на таблицах. Позволяет точно настраивать границы ячеек и экспортировать результат сразу в CSV или Excel.
  • Pdfplumber: хорош для извлечения текста с точными координатами, что позволяет программно восстанавливать структуру таблицы.

Этот путь требует навыков программирования, но обеспечивает максимальную скорость при пакетной обработке.

Сравнение методов конвертации

МетодТип PDFТочностьСтоимостьБезопасность данных
Excel (Power Query)ТекстовыйВысокаяБесплатно (в составе Office)Высокая (локальная обработка)
Adobe Acrobat ProТекстовый + СканОчень высокаяПлатноВысокая (локальная обработка)
Онлайн-сервисыЛюбойСредняяБесплатно/ПлатноНизкая (загрузка на сервер)
Python (Camelot)ТекстовыйНастраиваемаяБесплатноВысокая (локальная обработка)

Частые ошибки и как их избежать

  1. Игнорирование OCR для сканов. Попытка импортировать картинку через стандартные средства приведет к пустому файлу или набору бессвязных символов. Всегда проверяйте, выделяется ли текст.
  2. Отсутствие проверки данных. Конвертеры часто путают:
    • Десятичные разделители (точка vs запятая).
    • Даты (формат DD.MM.YYYY vs MM/DD/YYYY).
    • Объединенные ячейки (могут разбиться на несколько пустых строк).
  3. Конвертация всего файла вместо нужной таблицы. Если в PDF много текста и одна таблица, лучше выделить диапазон в Power Query или Acrobat, чтобы не очищать потом лишние данные в Excel.

FAQ

Почему таблица в Excel выглядит «рваной» после конвертации? Скорее всего, в исходном PDF использовались пробелы для выравнивания колонок вместо реальной табличной сетки, или документ был отсканирован с перекосом. Попробуйте использовать Adobe Acrobat с включенным улучшением распознавания или отредактируйте данные в Power Query, разделив столбцы по фиксированной ширине.

Можно ли конвертировать защищенный паролем PDF? Да, но сначала необходимо снять защиту. В Excel или Acrobat потребуется ввести пароль владельца документа перед началом импорта. Онлайн-сервисы обычно отказываются обрабатывать зашифрованные файлы.

Как сохранить многостраничную таблицу в один лист Excel? При импорте через Power Query выберите все нужные страницы в навигаторе, а затем используйте функцию «Добавить запросы» (Append Queries), чтобы объединить их в одну таблицу перед загрузкой в лист.