Перенос данных из PDF в геоинформационные системы

Иван Корнев·27.05.2026·5 мин

Конвертировать PDF напрямую в «формат SIG» (правильнее — в ГИС-форматы, такие как GeoJSON или Shapefile) нельзя, так как PDF — это формат визуального отображения, а не хранения пространственных данных. Чтобы использовать информацию из PDF в картографии, необходимо извлечь координаты или таблицы и преобразовать их в векторный слой с помощью бесплатных инструментов: QGIS, библиотек Python (pdfminer, geopandas) или онлайн-сервисов для оцифровки таблиц.

Термин «SIG» (Système d'Information Géographique) является французским/испанским аналогом английского GIS (Geographic Information System). В русскоязычной среде используется аббревиатура ГИС. Файлов с расширением .sig в стандартном геопространственном обмене не существует; речь идет о форматах, которые читают ГИС-программы.

Почему PDF неудобен для ГИС и что с этим делать

PDF фиксирует положение элементов на листе (в пикселях или пунктах), но не хранит информацию о реальных географических координатах (широте и долготе) или топологии объектов.

Основные проблемы при работе с PDF в ГИС:

  • Отсутствие геометрии: Линии и полигоны в PDF — это просто графические примитивы, не связанные с системой координат Земли.
  • Растровая природа: Часто карты в PDF — это просто картинки (сканы), которые нельзя редактировать без векторизации.
  • Неструктурированные таблицы: Координаты могут быть разбиты по ячейкам таблицы без явной привязки к объектам.

Цель конвертации: Превратить визуальную информацию (таблицы с координатами, схемы) в структурированные данные (точки, линии, полигоны) с атрибутами, которые можно загрузить в QGIS, ArcGIS или MapInfo.

Важно: Если ваш PDF содержит уже готовую карту (изображение), вам нужна не конвертация формата, а геопривязка растра (georeferencing). Этот процесс выполняется непосредственно в QGIS или ArcGIS.

Когда необходима обработка PDF для ГИС

  1. Кадастровые выписки и реестры: Получение списков участков с координатами поворотных точек в табличном виде внутри PDF-отчетов.
  2. Научные отчеты и статьи: Извлечение координат наблюдений (например, места обитания видов, точки замеров качества воды) из публикаций.
  3. Логистика и схемы: Перенос маршрутов или зонирования из презентаций и инструкций в рабочую карту.
  4. Архивные данные: Оцифровка старых планов, отсканированных в PDF.

Бесплатные инструменты и методы конвертации

Выбор инструмента зависит от типа данных в PDF: текстовые таблицы с координатами или графическое изображение карты.

Метод 1: Извлечение таблиц с координатами (Tabula + QGIS)

Подходит, если в PDF есть четкая таблица со столбцами Latitude, Longitude (или X, Y).

  1. Извлечение данных:
    • Используйте бесплатный инструмент Tabula (работает в браузере локально) или библиотеку camelot-py.
    • Загрузите PDF, выделите область таблицы и экспортируйте её в CSV.
  2. Обработка в QGIS:
    • Откройте QGIS. Перетащите полученный CSV-файл в окно программы.
    • В окне импорта укажите столбцы с координатами (X и Y).
    • Выберите правильную систему координат (CRS), например, EPSG:4326 (WGS 84) для широты/долготы.
    • Нажмите «Добавить». Точки появятся на карте.
  3. Экспорт:
    • Нажмите правой кнопкой на слой → «Экспорт» → «Сохранить объекты как».
    • Выберите формат GeoJSON или ESRI Shapefile.

Метод 2: Автоматизация через Python (для больших объемов)

Если файлов много, используйте скрипт на Python. Это полностью бесплатно и гибко.

Необходимые библиотеки: pandas, geopandas, tabula-py (или pdfplumber).

import tabula
import geopandas as gpd
from shapely.geometry import Point

# 1. Извлечение таблицы из PDF
dfs = tabula.read_pdf("document.pdf", pages='all')
df = dfs[0] # Берем первую таблицу

# 2. Очистка данных (пример)
df['lon'] = pd.to_numeric(df['Longitude'], errors='coerce')
df['lat'] = pd.to_numeric(df['Latitude'], errors='coerce')

# 3. Создание геоданных
geometry = [Point(xy) for xy in zip(df['lon'], df['lat'])]
gdf = gpd.GeoDataFrame(df, geometry=geometry, crs="EPSG:4326")

# 4. Сохранение в ГИС-формат
gdf.to_file("output.geojson", driver="GeoJSON")

Метод 3: Векторизация карт (если в PDF нет таблиц)

Если в PDF представлена карта картинкой, автоматическая конвертация в вектор невозможна без потери точности.

  1. Геореференцирование в QGIS:
    • Конвертируйте PDF в JPG/PNG (если QGIS не открывает PDF напрямую как растр).
    • Используйте плагин «GDAL Georeferencer».
    • Расставьте контрольные точки (GPC), привязывая углы карты к известным координатам на подложке (OpenStreetMap).
  2. Векторизация:
    • Создайте новый векторный слой (полигоны/линии).
    • Вручную обведите объекты поверх привязанного растра.
    • Альтернатива: Использовать инструменты автоматической векторизации растров (например, GDAL polygonize), но они требуют качественной бинаризации изображения.

Для сложных чертежей (CAD-подобных схем в PDF) попробуйте открыть PDF в бесплатном редакторе Inkscape, сохранить как SVG, а затем импортировать SVG в QGIS. Это сохранит векторные линии, но потребует ручной настройки масштаба и координат.

Сравнение методов обработки

Тип данных в PDFРекомендуемый инструментСложностьТочность
Таблица с координатамиTabula + QGIS / PythonНизкаяВысокая
Текстовый список адресовPython (геокодинг)СредняяЗависит от геокодера
Сканированная карта (растр)QGIS (геореференцирование)ВысокаяЗависит от пользователя
Векторная схема/чертежInkscape → QGISСредняяСредняя (нужна привязка)

Частые ошибки при конвертации

  1. Игнорирование системы координат (CRS):
    • Ошибка: Координаты X/Y из местной системы координат (например, проекция Гаусса-Крюгера) импортируются как широта/долгота.
    • Решение: Всегда уточняйте источник данных. Если координаты выглядят как 350000, 6000000, это метры проекции, а не градусы. Укажите правильный CRS при импорте.
  2. Разделители десятичных дробей:
    • Ошибка: В CSV точка заменена на запятую (или наоборот), из-за чего координаты считываются как текст или искажаются.
    • Решение: Проверяйте предпросмотр данных в QGIS или Excel перед импортом.
  3. Потеря атрибутов:
    • Ошибка: При автоматической векторизации теряются подписи объектов.
    • Решение: Сначала извлекайте текстовые данные (таблицы), а затем связывайте их с геометрией по уникальным ID.

FAQ

Можно ли открыть PDF прямо в QGIS? QGIS может отображать PDF как растровый слой (если он не защищен). Однако это только просмотр. Для анализа данные нужно либо геопривязать, либо извлечь из них векторную информацию описанными выше методами.

Что такое файл .sig? В контексте ГИС расширения .sig не является стандартом. Возможно, вы имели в виду файлы проектов конкретных программ или опечатку в аббревиатуре SIG (GIS). Стандартными форматами обмена являются .shp (Shapefile), .geojson, .gpkg (GeoPackage) и .kml.

Безопасно ли использовать онлайн-конвертеры? Если ваши данные содержат персональную информацию, коммерческую тайну или точные координаты охраняемых объектов, не используйте публичные онлайн-сервисы. Используйте локальное ПО (QGIS, Python), которое работает офлайн.

Итог

Для бесплатной конвертации данных из PDF в ГИС:

  1. Если есть таблицы с координатами — используйте Tabula для экспорта в CSV и QGIS для создания слоя.
  2. Если есть карта-изображение — выполните геопривязку в QGIS.
  3. Для массовых задач напишите простой скрипт на Python с использованием geopandas.

Главное правило: всегда проверяйте систему координат (CRS) полученных данных, чтобы они корректно отображались на карте мира.