Извлечь таблицы
Описание
Блок извлекает таблицы из документа и сохраняет их в Excel-файл (каждая таблица на отдельном листе).
Описание параметров
Блок имеет ряд параметров:
-
Путь к файлу (PDF, JPG, PNG) — путь к входному файлу;
Тип данных:
str (Строка)Пример:
C:\docs\upd.png -
Сохранить результат распознавания в — путь к файлу Excel для сохранения таблиц;
Тип данных:
str (Строка)Пример:
C:\docs\tables.xlsx -
OAuth-токен Yandex — токен доступа к Yandex Vision;
Тип данных:
str (Строка)Пример:
y0_AQAAAA... -
Идентификатор каталога Yandex — ID каталога в Yandex Cloud;
Тип данных:
str (Строка)Пример:
b1gxxxxxxxxxxxxx -
Языковая модель — язык распознавания:
- RUS - блок распознаёт и обрабатывает текст только на русском языке;
- ENG - блок распознаёт и обрабатывает текст только на английском языке.;
- RUS+ENG - блок работает в многоязычном режиме: автоматически определяет язык каждого фрагмента текста (русский или английский) и применяет соответствующую языковую модель для его обработки.
-
Коррекция перекоса изображения — включение автоматического выравнивания;
Тип данных:
checkbox (Чекбокс)Пример:
✔ -
Идентифицировать неявные строки — режим выделения строк таблицы;
Тип данных:
checkbox (Чекбокс)Пример:
✔ -
Извлекать таблицы без полей — режим распознавания таблиц без явной разметки;
Тип данных:
checkbox (Чекбокс)Пример:
✔
Пример использования
В данном примере блок извлекает таблицу из УПД в формате PNG и сохраняет результат в Excel.
Результат
Сохраненная таблица в Excel-файле: