Перейти к содержимому

Извлечь таблицы (Tesseract)

image_1

Описание

Блок извлекает таблицы из файла с помощью Tesseract OCR и сохраняет результат в Excel-файл. Каждая найденная таблица записывается на отдельный лист.


Установка Tesseract OCR

Перед использованием блока необходимо установить Tesseract OCR и добавить путь к исполняемому файлу в переменную окружения PATH. Для этого требуется:

  1. Скачать установщик Tesseract OCR (UB Mannheim);
  2. Установить Tesseract OCR на компьютер;
  3. Скопировать путь до установленного Tesseract OCR:
image_2
  1. Нажать комбинацию клавиш Win + R на клавиатуре;
  2. В появившемся окне ввести sysdm.cpl и нажать Enter;
  3. Перейдите на вкладку Дополнительно и открыть раздел Переменные среды…
image_3
  1. Выполнить двойной клик по переменной PATH:
image_4
  1. Добавить две новые записи дважды кликнув по пустой строке:
    • C:\Program Files\Tesseract-OCR - путь до установленного Tesseract-OCR;
    • C:\Program Files\Tesseract-OCR\tessdata - путь до папки tessdata внутри установленного Tesseract-OCR.
  2. Выполнить сохранение;
  3. Выполнить перезагрузку компьютера.

Ошибка DLL load failed

При возникновении ошибки f you are not working on Numba development, the original error was: 'DLL load failed while importing _typeconv: Не найден указанный модуль. требуется установить Visual C++ Redistributable.


Описание параметров

  1. Путь к файлу (PDF, JPEG, PNG) — путь к входному файлу с таблицами.

    Тип данных: str (Строка)

    Пример: C:\\docs\\table.pdf

  2. Сохранить результат распознавания в — путь к итоговому Excel-файлу.

    Тип данных: str (Строка)

    Пример: C:\\docs\\tables.xlsx

  3. Языковая модель — язык распознавания текста:

    • RUS — русский язык;
    • ENG — английский язык;
    • RUS+ENG — одновременное распознавание русского и английского языков.
  4. Коррекция перекоса изображения — автоматическое выравнивание изображения перед распознаванием.

    Тип данных: checkbox (Чекбокс)

    Пример: Истина

  5. Идентифицировать неявные строки — попытка восстановить строки таблицы, даже если они слабо выражены визуально.

    Тип данных: checkbox (Чекбокс)

    Пример: Ложь

  6. Извлечь таблицы без полей — поиск таблиц без явных границ ячеек.

    Тип данных: checkbox (Чекбокс)

    Пример: Ложь

  7. Минимальный уровень достоверности — порог уверенности распознавания OCR (от 0 до 100).

    Тип данных: int | float (Число)

    Пример: 50


Пример использования

В данном примере блок извлекает таблицы из файла table.pdf с языковой моделью RUS+ENG, включенной коррекцией перекоса и сохраняет результат в tables.xlsx.

image_6

Результат

Сохраненная таблица в Excel-файле:

image_7