PDFBOX для персидского документа

2

Я хочу использовать pdfBox для извлечения теста из персидских файлов PDF, но он возвращает "?" для всех персидских символов (он корректно возвращает латинские слова в том же документе).

Как я могу это исправить? Любой совет?

  • 0
    Вы читали этот вопрос ?
  • 0
    @deHaar вопрос, на который вы ссылались, касается добавления текста, а не его извлечения .
Показать ещё 13 комментариев
Теги:
pdf
pdfbox
arabic
persian

1 ответ

1

К сожалению, предоставленный файл имеет персидский текст в виде векторной графики, а не как текст из шрифтов, поэтому его невозможно извлечь. Вам придется использовать OCR для этого.

См. Также частоту извлечения текста:

Почему я не получаю текст из документа PDF?

Извлечение текста из документа PDF является сложной задачей, и есть много факторов, которые влияют на возможность и точность извлечения текста. Было бы полезно команде PDFBox, если бы вы могли попробовать пару вещей.

Откройте PDF в Acrobat и попробуйте извлечь текст оттуда. Если Acrobat может извлечь текст, то PDFBox также должен быть в состоянии, и это ошибка, если он не может. Если Acrobat не может извлечь текст, то PDFBox, вероятно, тоже не сможет.

На самом деле это может быть образ вместо текста. Некоторые документы PDF - это только изображения, которые были отсканированы. Вы можете сказать, используя инструмент выделения в Acrobat, если вы не можете выбрать какой-либо текст, то это, вероятно, изображение.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню