Python PDF для преобразования текста

Question

Python PDF для преобразования текста

1

Я хочу преобразовать PDF в текст. Я пробовал этот код в командной строке python, но он не показывает никакого вывода. Возможно, я ошибаюсь. Не могли бы вы рассказать мне, где я ошибаюсь. Спасибо заранее.

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf").encode("ascii", "ignore")

gur 24 май 2011, в 09:54

Источник

1

Бессмысленный код без ссылки на PDF-файл, вызывающий проблему.
Andreas Jung 24 май 2011, в 07:46
0

Этот код работает со стандартным PDF
Andreas Jung 24 май 2011, в 07:47

Теги:

python

pypdf

1 ответ

Ещё вопросы

Бессмысленный код без ссылки на PDF-файл, вызывающий проблему.
Этот код работает со стандартным PDF

Andreas Jung · Answer 1 · 2011-05-24T05-04-00.000Z

2

Если ваш PDF файл содержит только изображения (например, с отсканированной страницы), вы не сможете извлечь какой-либо текст.

Andreas Jung 24 май 2011, в 05:04

0

на самом деле мой pdf содержит gre текст списка слов, изображения там нет. Не знаю, что он не показывает никакого вывода.
gur 24 май 2011, в 07:53
0

содержит что?
Andreas Jung 24 май 2011, в 07:54
0

и как сказано: предоставить ссылку на соответствующий файл PDF
Andreas Jung 24 май 2011, в 07:54
0

на самом деле мой pdf содержит gre текст списка слов, изображения там нет. Не знаю, что он не показывает никакого вывода. Я думаю, что может быть что-то не так в моем коде.
gur 24 май 2011, в 07:56
3

@gur что такое gre?
Lipis 24 май 2011, в 08:00
1

@Gur: вы повторяете себя - нам нужен образец документа - либо вы предоставляете его, чтобы получить помощь, либо никто не может / фактически не поможет вам.
Andreas Jung 24 май 2011, в 08:05
0

Я взял пример любого PDF-файла. (Gre wordlist gre - это экзамен, который предназначен для получения степени магистра, которую студенты, подающие заявки на магистратуру, могут подать в любом университете.) Теперь, пожалуйста, дайте мне знать, где я не прав в моем коде выше. его не показывает какой-либо вывод
gur 24 май 2011, в 08:07
0

выпускной экзамен.
gur 24 май 2011, в 08:10
0

игнорировать gre jus, возьмите любой пример в формате pdf. Я хочу преобразовать pdf в текст, как описано выше. Мой код не работает.
gur 24 май 2011, в 08:17
1

Это работает для меня с каким - либо документом в формате PDF
Andreas Jung 24 май 2011, в 08:19
0

@gur: код работает на стандартных PDF-файлах. Пожалуйста, перейдите на сайт Rapidshare.com , загрузите файл PDF, который вызывает у вас проблемы, и вернитесь сюда и дайте нам ссылку. Тогда мы можем проверить это сами.
Blair 24 май 2011, в 08:25
0

я загружаю свои книги. PDF теперь вы можете проверить
gur 24 май 2011, в 08:40
0

@gur: Это мило. Как мы можем скачать его? Если вы хотите, чтобы мы проверили его, вам нужно дать нам ссылку, по которой мы можем его скачать.
Blair 24 май 2011, в 09:06

Показать ещё 11 комментариев