Перейти к содержимому

Считать текст из PDF файла

image_1

Описание

Блок считывает текстовое содержимое PDF-файла. Дополнительно можно включить удаление повторяющихся водяных знаков из результата.


Описание параметров

Блок имеет несколько параметров:

  1. Путь к файлу PDF — путь к исходному PDF-файлу.

    Тип данных: str (Строка)

    Пример: C:\Users\User\Desktop\document.pdf

  2. Удалить водяные знаки — удаление повторяющихся водяных знаков из извлеченного текста.

    Тип данных: checkbox (Чекбокс)

    Пример: Истина


Возвращаемое значение

Тип данных: str (Строка)

Пример: Строка с извлечённым текстом из документа.


Пример использования

Блок считывает содержимое PDF файла с текстовым слоем.

image_2

Результат

Вывод результата на экран:

image_3