Как перенести данные из PDF в Excel правильно

Иван Корнев·15.05.2026·5 мин

Чтобы конвертировать PDF в Excel без ошибок, важно понимать тип исходного файла. Для текстовых PDF лучший результат дает встроенный инструмент Power Query в Excel (Данные → Получить данные → Из файла → Из PDF). Для сканированных документов сначала необходимо выполнить распознавание текста (OCR) в стороннем сервисе или Adobe Acrobat, и только затем импортировать результат. Прямая конвертация «картинки» в таблицу без этапа OCR всегда приводит к потере данных.

Почему таблицы «ломаются» при конвертации

Главная причина проблем — разница между визуальным отображением и внутренней структурой файла. PDF создан для печати, а не для редактирования данных. Если документ сгенерирован корректно (из 1С, SAP или Word с сохранением стилей), внутри есть теги, которые помогают Excel понять, где строка, а где столбец.

Основные факторы, ухудшающие качество импорта:

  • Отсутствие текстового слоя. Сканы или фотографии документов для Excel — это пустые места или картинки.
  • Сложная верстка. Объединенные ячейки, многострочные заголовки и вложенные таблицы сбивают алгоритмы распознавания.
  • Разрывы страниц. Одна логическая таблица может быть разбита на несколько фрагментов, каждый из которых импортируется как отдельный объект с дублирующимися шапками.
  • Нестандартные разделители. Использование пробелов вместо табуляции или нестандартных символов для выравнивания колонок.

Правило чистоты данных: Чем проще визуально выглядит таблица в PDF (без объединений ячеек и сложной графики), тем точнее будет результат конвертации. Идеальных инструментов не существует — постобработка в Excel требуется почти всегда.

Выбор инструмента под задачу

Не пытайтесь использовать один метод для всех файлов. Выбор зависит от типа источника.

Сравнение методов конвертации

Тип PDF-файлаРекомендуемый инструментПреимущества
Текстовый (можно выделить текст курсором)Excel Power QueryБесплатно, гибкая настройка, сохранение связей с источником.
Сканированный (картинка)ABBYY FineReader / Adobe Acrobat Pro + ExcelКачественное распознавание (OCR) перед экспортом.
Простой отчет (1–2 страницы)Онлайн-конвертеры (Smallpdf, Ilovepdf)Быстро, не требует установки ПО. Внимание к конфиденциальности!
Сложная структура (много уровней)Ручной копипаст + «Текст по столбцам»Полный контроль над результатом, если автоматика ошибается.

Способ 1: Импорт через Power Query (Рекомендуемый)

Этот метод доступен в Excel 2016 и новее (включая Microsoft 365). Он позволяет предпросмотреть данные и выбрать нужные таблицы до загрузки.

  1. Откройте пустой лист в Excel.
  2. Перейдите на вкладку Данные (Data).
  3. Нажмите Получить данные (Get Data) → Из файлаИз PDF.
  4. Выберите файл. Откроется окно навигатора.
  5. В левой части окна вы увидите список обнаруженных таблиц (Table001, Table002...) и страниц. Кликайте по ним, чтобы увидеть предпросмотр справа.
  6. Выберите нужную таблицу и нажмите Загрузить (Load) для мгновенного импорта или Преобразовать данные (Transform Data), чтобы открыть редактор Power Query.

Используйте кнопку Преобразовать данные, если видите лишние строки с заголовками или пустые колонки. В редакторе Power Query можно удалить первые несколько строк, заполнить пустые значения вниз и изменить тип данных (например, превратить текст «1 000,50» в число) до того, как данные попадут на лист.

Способ 2: Экспорт через Adobe Acrobat Pro

Если у вас есть платная версия Acrobat, она часто справляется со сложной версткой лучше, чем стандартный импорт Excel.

  1. Откройте PDF в Adobe Acrobat Pro.
  2. В правой панели выберите инструмент Экспорт PDF.
  3. Выберите формат Электронная таблицаКнига Microsoft Excel.
  4. Нажмите Настройки (шестеренка). Здесь важно включить опцию Распознавание текста, если документ содержит сканы, и выбрать режим создания листов (один лист на страницу или на таблицу).
  5. Нажмите Экспорт.

Этот метод хорош тем, что Acrobat пытается сохранить визуальное расположение элементов, но часто требует ручной очистки объединенных ячеек в полученном файле.

Способ 3: Работа со сканированными документами (OCR)

Если при открытии PDF в браузере вы не можете выделить текст мышкой, значит, это изображение. Excel и Acrobat (без настройки) не смогут извлечь из него данные напрямую.

  1. Используйте сервис или программу с функцией OCR (ABBYY FineReader, Adobe Acrobat Pro, онлайн-сервисы вроде Convertio с поддержкой OCR).
  2. Распознайте документ. Обязательно проверьте результат в предпросмотре: исправьте ошибки распознавания цифр (часто 0 путают с O, 1 с l).
  3. Сохраните результат как Excel (.xlsx) или CSV.
  4. Откройте файл в Excel и проверьте форматы чисел.

Осторожно с конфиденциальностью! Не загружайте финансовые отчеты, персональные данные или коммерческие тайны в бесплатные онлайн-конвертеры. Используйте офлайн-программы (Excel, Acrobat, ABBYY) для чувствительных документов.

Постобработка: как исправить ошибки после импорта

Даже лучший конвертер оставит «мусор». Вот чек-лист быстрой очистки:

  1. Удаление дублей заголовков. Если таблица была многостраничной, шапка может повторяться каждые 20–30 строк. Используйте фильтр или функцию «Удалить дубликаты», чтобы убрать повторяющиеся строки с названиями колонок.
  2. Преобразование текста в числа. Если числа выровнены по левому краю и имеют зеленый треугольник в углу ячейки, Excel считает их текстом.
    • Решение: Выделите столбец → Данные → Текст по столбцам → Готово. Или используйте формулу =ЗНАЧЕН(A1).
  3. Разделение слипшихся данных. Если имя и фамилия или адрес и индекс попали в одну ячейку.
    • Решение: Данные → Текст по столбцам → С разделителями (пробел, запятая).
  4. Объединение разорванных строк. Иногда одна запись разбивается на две строки из-за переноса текста в PDF.
    • Решение: Используйте сцепку (&) или инструмент «Заполнить» (Flash Fill, Ctrl+E), чтобы собрать данные вручную на примере первой строки.

Частые ошибки пользователей

  • Игнорирование предпросмотра. Пользователи сразу жмут «Загрузить», получая хаос, вместо того чтобы выбрать конкретную Table001 в навигаторе Power Query.
  • Попытка конвертировать скан как текст. Без этапа OCR результат будет пустым или содержать случайные символы.
  • Неверные региональные настройки. В PDF разделитель тысяч — пробел, а в Excel вашей системы — точка. Это ломает суммы. Всегда проверяйте формат ячеек после импорта.
  • Копирование через буфер обмена. Простое Ctrl+C / Ctrl+V из PDF-ридера в Excel почти всегда разрушает структуру таблицы. Используйте специализированные инструменты импорта.

FAQ

Можно ли конвертировать PDF в Excel на телефоне? Да, мобильные приложения Microsoft Excel и Adobe Scan поддерживают базовый импорт. Однако для сложных таблиц с множеством колонок точность будет ниже, чем на ПК. Лучше использовать телефон для сканирования и OCR, а обработку делать на компьютере.

Почему цифры превращаются в даты? Excel автоматически распознает паттерны. Комбинация вида «12.05» или «1-2» может быть интерпретирована как дата. Чтобы избежать этого, перед импортом или после него меняйте формат ячейки на «Текстовый» или «Числовой» принудительно.

Бесплатно ли использование Power Query для PDF? Да, функция «Получить данные из PDF» встроена в стандартные десктопные версии Excel (2016, 2019, 2021, Microsoft 365) и не требует дополнительных подписок.