Извлечь данные из PDF
Описание
Блок извлекает из PDF структурированные данные: базовую текстовую информацию по разделителю и таблицы. Таблицы сохраняются в Excel-файл (каждая на отдельный лист), имена листов соответствуют именам таблиц.
Описание параметров
Блок имеет несколько параметров:
- Путь к файлу PDF — исходный документ.
Тип данных:
str (Строка)Пример:
C:\Users\User\Desktop\test.pdf - Путь к файлу Excel (запись таблиц) — куда сохранить извлечённые таблицы.
Тип данных:
str (Строка)Пример:
C:\Users\User\Desktop\test.xlsx - Разделитель (базовая информация) — символ для разбора текстовых пар «реквизит — значение»: двоеточие или тире.
Тип данных:
str (Строка)Пример:
: - Удалить водяные знаки — удалить повторяющиеся водяные знаки из текста PDF перед извлечением данных.
Тип данных:
checkbox (Чекбокс)Пример:
✔
Возвращаемое значение
Список из двух словарей:
-
первый словарь — базовая информация (ключ — реквизит, значение — извлечённое значение);
-
второй словарь — табличные данные (ключ — имя таблицы/листа, значение — таблица данных
DataFrame).Тип данных:
list[dict, dict]Пример:
({"Итого к оплате": "10 000.00 руб"}, {"Товары (работы, услуги)": "DataFrame"})
Пример использования
Блок извлекает таблицы из счёта на оплату.
Каждая таблица автоматически записывается в файл.
Результат