Перейти к содержимому

Выбрать области для распознавания

image_1

Описание

Блок предназначен для выбора областей документа с целью последующего OCR-распознавания. Также он позволяет сохранить выделенные области в JSON-файл для их дальнейшего повторного использования.


Описание параметров

Блок имеет несколько параметров:

  1. Путь к файлу (PDF, JPG, PNG) — путь к файлу для выбора областей;

    Тип данных: str (Строка)

    Пример: C:\docs\invoice.jpg

  2. Сохранить области в JSON-файл — путь к файлу для сохранения областей;

    Тип данных: str (Строка)

    Пример: C:\docs\invoice.json

  3. Области для Tesseract OCR — чекбокс для отбора областей для Tesseract OCR;

    Тип данных: checkbox (Чекбокс)

    Пример:

  4. Коррекция перекоса изображения — включение выравнивания входного изображения;

    Тип данных: checkbox (Чекбокс)

    Пример:


Пример использования

В данном примере выбираются области для распознавания PDF-файлов, после чего выполняется пакетная обработка документов.

  1. В блоке выбирается режим сохранения областей в переменную areas.
  2. В открывшемся окне курсором выделяются области для распознавания.
  3. После завершения выделения окно закрывается.
  4. Выполняется распознавание набора файлов по сохраненному шаблону областей.
image_2 image_3

Результат

Вывод распознанных данных:

image_4