Извлечь данные из PDF

Описание
Блок предназначен для извлечения данных из файла PDF. Блок извлекает табличные данные из файла PDF и записывает их в Excel-файл. Базовая текстовая информация извлекается по разделителю. Блок возвращает данные в виде массива словарей:
- словарь с базовой информацией, где ключ - извлеченные реквизиты, значение - извлеченные значения;
- словари с табличными данными, где ключ - имя таблицы, значение - датафрейм с табличными данными. Каждая извлеченная таблица записывается в отдельный лист Excel-файла. Названия листов соответствуют именам таблиц. Названия таблиц определяются автоматически. Если установлен чекбокс Брать название таблицы из первой ячейки, то название таблицы определяется из первой ячейки таблицы. Если извлечено несколько таблиц с одинаковыми названиями, то названия индексируются.
Описание параметров
Блок имеет 4 параметра:
- Путь к файлу PDF - путь к файлу PDF;
Тип данных:
строка
Пример:
C:\Users\User\Desktop\test.pdf
- Путь к файлу Excel (запись таблиц) - путь к Excel-файлу для записи извлеченных таблиц;
Тип данных:
строка
Пример:
C:\Users\User\Desktop\test.xlsx
- Разделитель (базовая информация) - разделитель для извлечения текстовой базовой информации: двоеточие или тире;
Тип данных:
строка
Пример:
:
- Брать название таблицы из первой ячейки - чекбокс для автоматического определения названия таблицы из первой ячейки таблицы;
Тип данных:
чекбокс
Пример:
✔
Пример использования

В данном примере блок извлекает табличные данные из счета на оплату в котором есть 2 таблицы и ключевая информация разделенная двоеточием:

Результат выводится на экран и каждая таблица записывается в отдельный лист Excel-файла.
Результат
Результат извлечения данных:

