Как программно определить, доступен ли PDF для поиска?

Question

Как программно определить, доступен ли PDF для поиска?

5

У меня есть CSV со списком URL-адресов с PDF файлами:

Некоторые из этих PDF файлов доступны для поиска.
Некоторые из этих PDFS не доступны для поиска.

Я хочу определить, какие PDF файлы доступны для поиска из моего списка PDF файлов. Есть простой способ сделать это?

user1507889 06 авг. 2012, в 00:13

Источник

2

Что вы подразумеваете под поиском? Что они содержат текст, а не изображения?
KillianDS 05 авг. 2012, в 21:38
0

Я не пробовал это, но первое попадание в Bing предполагает, что поиск по содержимому файла PDF для «FontName» идентифицирует доступные для поиска.
Jim O'Neil 05 авг. 2012, в 21:55
0

Что в PDF есть OCRed текст. Я посмотрю в FontName.
user1507889 05 авг. 2012, в 21:57
0

Да, строки foo.pdf | grep FontName
user1507889 05 авг. 2012, в 22:47
0

К сожалению, сокращение для "FontName" не достаточно. Я видел много PDF-файлов с возможностью поиска, очевидно созданных из (или) PowerPoint, которые имеют "/ Font" и "/ BaseFont", но не "FontName". В настоящее время я работаю над Fontname и BaseFont.
Stan Sieler 25 нояб. 2013, в 20:48
0

Чтобы возвращать только файлы без строки «Font», вы можете использовать ключ -L в grep.
Matt 01 сен. 2015, в 16:45

Показать ещё 4 комментария

Теги:

python

bash

pdf

pdftk

1 ответ

Ещё вопросы

Что вы подразумеваете под поиском? Что они содержат текст, а не изображения?
Я не пробовал это, но первое попадание в Bing предполагает, что поиск по содержимому файла PDF для «FontName» идентифицирует доступные для поиска.
Что в PDF есть OCRed текст. Я посмотрю в FontName.
К сожалению, сокращение для "FontName" не достаточно. Я видел много PDF-файлов с возможностью поиска, очевидно созданных из (или) PowerPoint, которые имеют "/ Font" и "/ BaseFont", но не "FontName". В настоящее время я работаю над Fontname и BaseFont.
Чтобы возвращать только файлы без строки «Font», вы можете использовать ключ -L в grep.

Kurt Pfeifle · Answer 1 · 2012-08-06T00-07-00.000Z

В командной строке я использую pdffonts, чтобы определить, какие шрифты использует файл. Это работает довольно быстро...

Пример 1: PDF, содержащий текст

pdffonts bash-manpage.pdf 

  name                            type          encoding        emb sub uni object ID
  ------------------------------- ------------- --------------- --- --- --- ---------
  Times-Roman                     Type 1        Custom          no  no  no       8  0
  Times-Bold                      Type 1        Standard        no  no  no       9  0
  Helvetica                       Type 1        Custom          no  no  no      11  0
  Helvetica-Bold                  Type 1        Standard        no  no  no      30  0

Пример 2: PDF, содержащий только изображения

pdffonts scanned-book.pdf

  pdffonts handmade.pdf 
  name                            type           encoding       emb sub uni object ID
  ------------------------------- -------------- -------------- --- --- --- ---------

Пример 1 показывает таблицу с именами шрифтов. Это означает, что текст IS для поиска.
В примере 2 показана пустая таблица. Нет шрифтов, не нужно искать текст (если вы не запустите OCR в файле, чтобы сначала вставить любой найденный текст... но затем вы создали другой файл!), Не смотрите на эти...

Примечание., чтобы быть успешным при извлечении встроенного текста и, следовательно, в поиске, это совершенно другая проблема. Есть много случаев, когда вы обнаружите, что это будет чрезвычайно сложно - особенно если вы видите в шрифтах шрифтов шрифты типа CID Type с "пользовательской" кодировкой. Сначала вы можете искать stackoverflow для других вопросов, которые были заданы об извлечении текста из PDF...

использовать pdffonts, чтобы определить, какие шрифты использует файл - действительно ли этот инструмент проверяет, используются ли шрифты? Или он только проверяет, определены ли они как ресурсы? В последнем случае наличие шрифтов не является на 100% достоверным признаком текста, доступного для поиска.
@mkl: Если вы хотите, чтобы на 100% точные показания PDF-файлов анализировались программно + автоматически, перейдите в другую вселенную. Вы не можете иметь это здесь. Здесь мы обрабатываем только до 99% достоверных показаний. Я мог бы вручную создать PDF-файл, который показывает текст «Ты в раю» на странице, но извлекает тебя из текста «Ты в аду», если вы обрабатываете его программно. Более 99,99% реальных PDF-файлов в этой вселенной программно создаются инструментами, которые не выводят этот тип бессмыслицы, и которые не встраивают шрифты, которые никогда не используются.
Верный. Я просто хотел отметить, что вполне вероятно, что используется предоставленный шрифт, это не совсем так. Быть уверенным в чем-либо в PDF-файлах не тривиально.
Как установить pdffonts ? Также есть ли способ, которым я могу проверить, написав скрипт на Python