Я пытаюсь найти скрипт Python, который может извлекать текст с первой страницы словарного документа. Я нашел функции, которые могли бы выполнять абзацы, но не страницы, а это не то, что мне нужно.
Проблема в том, что страницы в формате docx являются чисто виртуальными. MS Word самостоятельно решает, где и когда устанавливать ограничители страниц, основываясь на размере текста и других параметрах.
Это немного проще, когда пользователь явно задавал разрывы страниц, так как они могут быть найдены, как описано там, например.
В качестве обходного пути вы можете просто рассчитать количество строк на странице и обрезать его самостоятельно, но до тех пор, как я знаю, нет "простого" метода сделать все с помощью 1 строки кода.