Я хочу использовать pdfBox для извлечения теста из персидских файлов PDF, но он возвращает "?"
для всех персидских символов (он корректно возвращает латинские слова в том же документе).
Как я могу это исправить? Любой совет?
К сожалению, предоставленный файл имеет персидский текст в виде векторной графики, а не как текст из шрифтов, поэтому его невозможно извлечь. Вам придется использовать OCR для этого.
См. Также частоту извлечения текста:
Почему я не получаю текст из документа PDF?
Извлечение текста из документа PDF является сложной задачей, и есть много факторов, которые влияют на возможность и точность извлечения текста. Было бы полезно команде PDFBox, если бы вы могли попробовать пару вещей.
Откройте PDF в Acrobat и попробуйте извлечь текст оттуда. Если Acrobat может извлечь текст, то PDFBox также должен быть в состоянии, и это ошибка, если он не может. Если Acrobat не может извлечь текст, то PDFBox, вероятно, тоже не сможет.
На самом деле это может быть образ вместо текста. Некоторые документы PDF - это только изображения, которые были отсканированы. Вы можете сказать, используя инструмент выделения в Acrobat, если вы не можете выбрать какой-либо текст, то это, вероятно, изображение.