Перейти к содержимому

Извлечь таблицы

image_1

Описание

Блок извлекает таблицы из документа и сохраняет их в Excel-файл (каждая таблица на отдельном листе).


Описание параметров

Блок имеет ряд параметров:

  1. Путь к файлу (PDF, JPG, PNG) — путь к входному файлу;

    Тип данных: str (Строка)

    Пример: C:\docs\upd.png

  2. Сохранить результат распознавания в — путь к файлу Excel для сохранения таблиц;

    Тип данных: str (Строка)

    Пример: C:\docs\tables.xlsx

  3. OAuth-токен Yandex — токен доступа к Yandex Vision;

    Тип данных: str (Строка)

    Пример: y0_AQAAAA...

  4. Идентификатор каталога Yandex — ID каталога в Yandex Cloud;

    Тип данных: str (Строка)

    Пример: b1gxxxxxxxxxxxxx

  5. Языковая модель — язык распознавания:

    • RUS - блок распознаёт и обрабатывает текст только на русском языке;
    • ENG - блок распознаёт и обрабатывает текст только на английском языке.;
    • RUS+ENG - блок работает в многоязычном режиме: автоматически определяет язык каждого фрагмента текста (русский или английский) и применяет соответствующую языковую модель для его обработки.
  6. Коррекция перекоса изображения — включение автоматического выравнивания;

    Тип данных: checkbox (Чекбокс)

    Пример:

  7. Идентифицировать неявные строки — режим выделения строк таблицы;

    Тип данных: checkbox (Чекбокс)

    Пример:

  8. Извлекать таблицы без полей — режим распознавания таблиц без явной разметки;

    Тип данных: checkbox (Чекбокс)

    Пример:


Пример использования

В данном примере блок извлекает таблицу из УПД в формате PNG и сохраняет результат в Excel.

image_2

Результат

Сохраненная таблица в Excel-файле:

image_3