Перейти к содержимому

Извлечь данные из PDF

image_1

Описание

Блок предназначен для извлечения данных из файла PDF. Блок извлекает табличные данные из файла PDF и записывает их в Excel-файл. Базовая текстовая информация извлекается по разделителю. Блок возвращает данные в виде массива словарей:

  • словарь с базовой информацией, где ключ - извлеченные реквизиты, значение - извлеченные значения;
  • словари с табличными данными, где ключ - имя таблицы, значение - датафрейм с табличными данными. Каждая извлеченная таблица записывается в отдельный лист Excel-файла. Названия листов соответствуют именам таблиц. Названия таблиц определяются автоматически. Если установлен чекбокс Брать название таблицы из первой ячейки, то название таблицы определяется из первой ячейки таблицы. Если извлечено несколько таблиц с одинаковыми названиями, то названия индексируются.

Описание параметров

Блок имеет 4 параметра:

  1. Путь к файлу PDF - путь к файлу PDF;

    Тип данных: строка

    Пример: C:\Users\User\Desktop\test.pdf

  2. Путь к файлу Excel (запись таблиц) - путь к Excel-файлу для записи извлеченных таблиц;

    Тип данных: строка

    Пример: C:\Users\User\Desktop\test.xlsx

  3. Разделитель (базовая информация) - разделитель для извлечения текстовой базовой информации: двоеточие или тире;

    Тип данных: строка

    Пример: :

  4. Брать название таблицы из первой ячейки - чекбокс для автоматического определения названия таблицы из первой ячейки таблицы;

    Тип данных: чекбокс

    Пример:


Пример использования

image_2

В данном примере блок извлекает табличные данные из счета на оплату в котором есть 2 таблицы и ключевая информация разделенная двоеточием:

image_3

Результат выводится на экран и каждая таблица записывается в отдельный лист Excel-файла.


Результат

Результат извлечения данных:

image_4