Как извлечь текстовые данные из многостраничного резюме в формате PDF, используя pyPDF2?

Question

Как извлечь текстовые данные из многостраничного резюме в формате PDF, используя pyPDF2?

1

Я извлек текстовый контент из многостраничного CV в формате PDF и попытался записать этот контент в текстовый файл с использованием pyPDF2. Но при попытке написать содержимое появляется следующее сообщение об ошибке.

Вот мой код:

import PyPDF2

newFile = open('details.txt', 'w')
file = open("cv3.pdf", 'rb')

pdfreader = PyPDF2.PdfFileReader(file)
numPages = pdfreader.getNumPages()
print(numPages)

page_content = ""
for page_number in range(numPages):
    page = pdfreader.getPage(page_number)
    page_content += page.extractText()

newFile.write(page_content)
print(page_content)

file.close()
newFile.close()

Сообщение об ошибке:

Traceback (последний последний вызов): Файл "C: /Users/HP/PycharmProjects/CVParser/pdf.py", строка 16, в файле newFile.write(page_content) Файл "C:\Program Files\Python37\lib\encodings\cp1252.py ", строка 19, в кодировке return codecs.charmap_encode (вход, self.errors, encoding_table) [0] UnicodeEncodeError: кодек 'charmap' не может кодировать символ '\ u0141' в позиции 827: символьные карты для

Процесс завершен с кодом выхода 1

Этот код сменил файл PDF (файл docx, который преобразован в PDF) с несколькими страницами.

Пожалуйста, помогите мне, если кто-нибудь знает решение.

Dulmini Jayasinghe 20 сен. 2018, в 15:44

Источник

0

Содержит ли ваш page_content весь текст?
Rahul Agarwal 20 сен. 2018, в 13:09
0

Да. Он содержит весь текст в документе PDF.
Dulmini Jayasinghe 27 сен. 2018, в 05:30

Теги:

python

pdf

1 ответ

Ещё вопросы

Содержит ли ваш page_content весь текст?
Да. Он содержит весь текст в документе PDF.

Rahul Agarwal · Accepted Answer · 2018-09-27T05-39-00.000Z

Это решит вашу проблему в Python 3:

with open("Output.txt", "w") as text_file:
    print("{}".format(page_content), file=text_file)

Если выше не работает для вас как-то, попробуйте ниже:

with open("Output1.txt", "wb") as text_file:

    text_file.write(page_content.encode("UTF-8"))

Большое спасибо .. Это работает .. Первый сегмент кода был не в порядке с резюме с несколькими страницами. Но второй помог мне получить ожидаемый результат.