извлечь текст с первой страницы текстового документа с использованием Python

Question

извлечь текст с первой страницы текстового документа с использованием Python

1

Я пытаюсь найти скрипт Python, который может извлекать текст с первой страницы словарного документа. Я нашел функции, которые могли бы выполнять абзацы, но не страницы, а это не то, что мне нужно.

L Zh 25 сен. 2018, в 15:55

Источник

Теги:

python

ms-word

1 ответ

Ещё вопросы

Дмитрий Клименко · Answer 1 · 2018-09-25T10-59-00.000Z

Проблема в том, что страницы в формате docx являются чисто виртуальными. MS Word самостоятельно решает, где и когда устанавливать ограничители страниц, основываясь на размере текста и других параметрах.

Это немного проще, когда пользователь явно задавал разрывы страниц, так как они могут быть найдены, как описано там, например.

В качестве обходного пути вы можете просто рассчитать количество строк на странице и обрезать его самостоятельно, но до тех пор, как я знаю, нет "простого" метода сделать все с помощью 1 строки кода.

Понимаю. Я не думаю, что есть разрывы страниц. Могу ли я преобразовать слово doc в pdf, а затем прочитать первую страницу, используя функцию pdftotext?
Сделал это (конвертировать .doc в .pdf и прочитать первую страницу), и это сработало!
Приятно это знать! Желаю тебе всего наилучшего.