У меня есть CSV со списком URL-адресов с PDF файлами:
Я хочу определить, какие PDF файлы доступны для поиска из моего списка PDF файлов. Есть простой способ сделать это?
В командной строке я использую pdffonts
, чтобы определить, какие шрифты использует файл. Это работает довольно быстро...
pdffonts bash-manpage.pdf name type encoding emb sub uni object ID ------------------------------- ------------- --------------- --- --- --- --------- Times-Roman Type 1 Custom no no no 8 0 Times-Bold Type 1 Standard no no no 9 0 Helvetica Type 1 Custom no no no 11 0 Helvetica-Bold Type 1 Standard no no no 30 0
pdffonts scanned-book.pdf pdffonts handmade.pdf name type encoding emb sub uni object ID ------------------------------- -------------- -------------- --- --- --- ---------
Пример 1 показывает таблицу с именами шрифтов. Это означает, что текст IS для поиска.
В примере 2 показана пустая таблица. Нет шрифтов, не нужно искать текст (если вы не запустите OCR в файле, чтобы сначала вставить любой найденный текст... но затем вы создали другой файл!), Не смотрите на эти...
Примечание., чтобы быть успешным при извлечении встроенного текста и, следовательно, в поиске, это совершенно другая проблема. Есть много случаев, когда вы обнаружите, что это будет чрезвычайно сложно - особенно если вы видите в шрифтах шрифтов шрифты типа CID Type
с "пользовательской" кодировкой. Сначала вы можете искать stackoverflow для других вопросов, которые были заданы об извлечении текста из PDF...