Я хочу преобразовать PDF в текст. Я пробовал этот код в командной строке python, но он не показывает никакого вывода. Возможно, я ошибаюсь. Не могли бы вы рассказать мне, где я ошибаюсь. Спасибо заранее.
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
print getPDFContent("test.pdf").encode("ascii", "ignore")
Если ваш PDF файл содержит только изображения (например, с отсканированной страницы), вы не сможете извлечь какой-либо текст.