Извлечь данные из PDF

Описание

Блок извлекает из PDF структурированные данные: базовую текстовую информацию по разделителю и таблицы. Таблицы сохраняются в Excel-файл (каждая на отдельный лист), имена листов соответствуют именам таблиц.

Описание параметров

Блок имеет несколько параметров:

Путь к файлу PDF — исходный документ.

Тип данных: str (Строка)

Пример: C:\Users\User\Desktop\test.pdf
Путь к файлу Excel (запись таблиц) — куда сохранить извлечённые таблицы.

Тип данных: str (Строка)

Пример: C:\Users\User\Desktop\test.xlsx
Разделитель (базовая информация) — символ для разбора текстовых пар «реквизит — значение»: двоеточие или тире.

Тип данных: str (Строка)

Пример: :
Удалить водяные знаки — удалить повторяющиеся водяные знаки из текста PDF перед извлечением данных.

Тип данных: checkbox (Чекбокс)

Пример: ✔

Возвращаемое значение

Список из двух словарей:

первый словарь — базовая информация (ключ — реквизит, значение — извлечённое значение);
второй словарь — табличные данные (ключ — имя таблицы/листа, значение — таблица данных DataFrame).

Тип данных: list[dict, dict]

Пример: ({"Итого к оплате": "10 000.00 руб"}, {"Товары (работы, услуги)": "DataFrame"})

Пример использования

Блок извлекает таблицы из счёта на оплату.

Каждая таблица автоматически записывается в файл.