PDFBOX для персидского документа

Question

PDFBOX для персидского документа

2

Я хочу использовать pdfBox для извлечения теста из персидских файлов PDF, но он возвращает "?" для всех персидских символов (он корректно возвращает латинские слова в том же документе).

Как я могу это исправить? Любой совет?

Azadeh Fakhrzadeh 29 авг. 2018, в 08:54

Источник

0

Вы читали этот вопрос ?
deHaar 29 авг. 2018, в 06:48
0

@deHaar вопрос, на который вы ссылались, касается добавления текста, а не его извлечения .
mkl 29 авг. 2018, в 07:36
2

@Azadeh где ты видел знаки вопроса? Вывод на консоль? Консоль может не отображать соответствующие глифы. В противном случае, пожалуйста, поделитесь PDF в вопросе.
mkl 29 авг. 2018, в 07:38
0

Смотрите также pdfbox.apache.org/2.0/faq.html#text-extraction , пожалуйста, расскажите, что происходит, когда вы копируете + вставляете из Adobe Reader в редактор.
Tilman Hausherr 31 авг. 2018, в 04:37
1

@mkl Я получаю точки или вопросительные знаки для каждого персидского символа, и да, я проверяю результаты в console.and копировать вставить из Adobe Reader работает хорошо. вот ссылка на образец документа: dropbox.com/s/olonkte03wi6ucp/t2.pdf?dl=0
Azadeh Fakhrzadeh 01 сен. 2018, в 07:19
0

@ TilmanHausherr копия вставки из Adobe Reader работает хорошо
Azadeh Fakhrzadeh 01 сен. 2018, в 07:20
1

Ну, это не сработало для меня. Я не получил никакого персидского текста. Персидский текст - это векторная графика, а не текст из шрифтов. Если вы получили персидский текст, возможно, есть новая версия Adobe Reader, которая выполняет распознавание текста.
Tilman Hausherr 01 сен. 2018, в 08:08
0

@ TilmanHausherr спасибо :) У меня есть еще один вопрос, как вы думаете, возможно ли удалить весь текст из этого файла и сохранить только изображения (используя pdfBox)?
Azadeh Fakhrzadeh 01 сен. 2018, в 08:29
0

Попробуйте RemoveAllText.java из загрузки исходного кода в примере подпроекта. Также здесь: svn.apache.org/viewvc/pdfbox/branches/2.0/examples/src/main/…
Tilman Hausherr 01 сен. 2018, в 08:32
0

@ TilmanHausherr, спасибо, я смог удалить текст. Возвращаясь к моему первому вопросу, я сделал тест, который вы предложили для моих файлов. Для файлов, которые я могу извлечь текст в Acrobat, я все еще получаю "?" для персидских глифов я также получаю следующее предупреждение: org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode ПРЕДУПРЕЖДЕНИЕ: нет сопоставления Unicode для CID + 1127 (1127) в шрифте PIOACI + Arial-BoldMT Мне нужно добавить, что текст, который я получаю из Acrobat в неправильном порядке (осталось написать), но я не получаю даже это в затмении. И ее пример файла: dropbox.com/s/qc71qu7hlyw7e29/sample2.pdf?dl=0
Azadeh Fakhrzadeh 10 сен. 2018, в 06:07
0

Я запустил ExtractText для этого файла и получил довольно много того, что я считаю персидским, например, «فهرست مطالب», «شماره صفحه», «كليات -فصل دوم». Предупреждение об одном глифе, у которого нет Unicode. Я не могу легко сказать, какой это. Какую версию PDFBox вы используете?
Tilman Hausherr 10 сен. 2018, в 15:18
0

Глиф без Юникода - это прямоугольная точка на странице 102.
Tilman Hausherr 10 сен. 2018, в 15:27
1

@TilmanHausherr Я обновил свой pdfbpx с 2.0.9 до 2.0.11, и теперь я могу извлечь персидские слова, спасибо.
Azadeh Fakhrzadeh 15 сен. 2018, в 08:36
0

@ TilmanHausherr Я собираюсь извлечь текстовую форму из примерно 10000 файлов ... Мне было интересно, есть ли какой-нибудь автоматический способ узнать, является ли файл PDF текстом из шрифта или нет. Мне было интересно, если pdfbox может предоставить такое свойство файла? Спасибо
Azadeh Fakhrzadeh 16 сен. 2018, в 05:19
0

Нет, нужно было бы проанализировать поток содержимого PDF, а затем принять решение с помощью эвристики. Было бы сложно - как решить, являются ли кривые шрифтом или графикой? И иногда файлы смешиваются, то есть шрифты и векторная графика, которые рисуют глифы.
Tilman Hausherr 16 сен. 2018, в 08:50

Показать ещё 13 комментариев

Теги:

java

pdf

pdfbox

arabic

persian

1 ответ

Ещё вопросы

@deHaar вопрос, на который вы ссылались, касается добавления текста, а не его извлечения .
@Azadeh где ты видел знаки вопроса? Вывод на консоль? Консоль может не отображать соответствующие глифы. В противном случае, пожалуйста, поделитесь PDF в вопросе.
Смотрите также pdfbox.apache.org/2.0/faq.html#text-extraction , пожалуйста, расскажите, что происходит, когда вы копируете + вставляете из Adobe Reader в редактор.
@mkl Я получаю точки или вопросительные знаки для каждого персидского символа, и да, я проверяю результаты в console.and копировать вставить из Adobe Reader работает хорошо. вот ссылка на образец документа: dropbox.com/s/olonkte03wi6ucp/t2.pdf?dl=0
@ TilmanHausherr копия вставки из Adobe Reader работает хорошо
Ну, это не сработало для меня. Я не получил никакого персидского текста. Персидский текст - это векторная графика, а не текст из шрифтов. Если вы получили персидский текст, возможно, есть новая версия Adobe Reader, которая выполняет распознавание текста.
@ TilmanHausherr спасибо :) У меня есть еще один вопрос, как вы думаете, возможно ли удалить весь текст из этого файла и сохранить только изображения (используя pdfBox)?
Попробуйте RemoveAllText.java из загрузки исходного кода в примере подпроекта. Также здесь: svn.apache.org/viewvc/pdfbox/branches/2.0/examples/src/main/…
@ TilmanHausherr, спасибо, я смог удалить текст. Возвращаясь к моему первому вопросу, я сделал тест, который вы предложили для моих файлов. Для файлов, которые я могу извлечь текст в Acrobat, я все еще получаю "?" для персидских глифов я также получаю следующее предупреждение: org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode ПРЕДУПРЕЖДЕНИЕ: нет сопоставления Unicode для CID + 1127 (1127) в шрифте PIOACI + Arial-BoldMT Мне нужно добавить, что текст, который я получаю из Acrobat в неправильном порядке (осталось написать), но я не получаю даже это в затмении. И ее пример файла: dropbox.com/s/qc71qu7hlyw7e29/sample2.pdf?dl=0
Я запустил ExtractText для этого файла и получил довольно много того, что я считаю персидским, например, «فهرست مطالب», «شماره صفحه», «كليات -فصل دوم». Предупреждение об одном глифе, у которого нет Unicode. Я не могу легко сказать, какой это. Какую версию PDFBox вы используете?
Глиф без Юникода - это прямоугольная точка на странице 102.
@TilmanHausherr Я обновил свой pdfbpx с 2.0.9 до 2.0.11, и теперь я могу извлечь персидские слова, спасибо.
@ TilmanHausherr Я собираюсь извлечь текстовую форму из примерно 10000 файлов ... Мне было интересно, есть ли какой-нибудь автоматический способ узнать, является ли файл PDF текстом из шрифта или нет. Мне было интересно, если pdfbox может предоставить такое свойство файла? Спасибо
Нет, нужно было бы проанализировать поток содержимого PDF, а затем принять решение с помощью эвристики. Было бы сложно - как решить, являются ли кривые шрифтом или графикой? И иногда файлы смешиваются, то есть шрифты и векторная графика, которые рисуют глифы.

Tilman Hausherr · Answer 1 · 2018-09-01T06-08-00.000Z

К сожалению, предоставленный файл имеет персидский текст в виде векторной графики, а не как текст из шрифтов, поэтому его невозможно извлечь. Вам придется использовать OCR для этого.

См. Также частоту извлечения текста:

Почему я не получаю текст из документа PDF?

Извлечение текста из документа PDF является сложной задачей, и есть много факторов, которые влияют на возможность и точность извлечения текста. Было бы полезно команде PDFBox, если бы вы могли попробовать пару вещей.

Откройте PDF в Acrobat и попробуйте извлечь текст оттуда. Если Acrobat может извлечь текст, то PDFBox также должен быть в состоянии, и это ошибка, если он не может. Если Acrobat не может извлечь текст, то PDFBox, вероятно, тоже не сможет.

На самом деле это может быть образ вместо текста. Некоторые документы PDF - это только изображения, которые были отсканированы. Вы можете сказать, используя инструмент выделения в Acrobat, если вы не можете выбрать какой-либо текст, то это, вероятно, изображение.