Python PDF для преобразования текста

1

Я хочу преобразовать PDF в текст. Я пробовал этот код в командной строке python, но он не показывает никакого вывода. Возможно, я ошибаюсь. Не могли бы вы рассказать мне, где я ошибаюсь. Спасибо заранее.

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf").encode("ascii", "ignore")
  • 1
    Бессмысленный код без ссылки на PDF-файл, вызывающий проблему.
  • 0
    Этот код работает со стандартным PDF
Теги:
pypdf

1 ответ

2

Если ваш PDF файл содержит только изображения (например, с отсканированной страницы), вы не сможете извлечь какой-либо текст.

  • 0
    на самом деле мой pdf содержит gre текст списка слов, изображения там нет. Не знаю, что он не показывает никакого вывода.
  • 0
    содержит что?
Показать ещё 11 комментариев

Ещё вопросы

Сообщество Overcoder
Наверх
Меню