извлечь текст с первой страницы текстового документа с использованием Python

1

Я пытаюсь найти скрипт Python, который может извлекать текст с первой страницы словарного документа. Я нашел функции, которые могли бы выполнять абзацы, но не страницы, а это не то, что мне нужно.

Теги:
ms-word

1 ответ

1

Проблема в том, что страницы в формате docx являются чисто виртуальными. MS Word самостоятельно решает, где и когда устанавливать ограничители страниц, основываясь на размере текста и других параметрах.

Это немного проще, когда пользователь явно задавал разрывы страниц, так как они могут быть найдены, как описано там, например.

В качестве обходного пути вы можете просто рассчитать количество строк на странице и обрезать его самостоятельно, но до тех пор, как я знаю, нет "простого" метода сделать все с помощью 1 строки кода.

  • 0
    Понимаю. Я не думаю, что есть разрывы страниц. Могу ли я преобразовать слово doc в pdf, а затем прочитать первую страницу, используя функцию pdftotext?
  • 0
    Сделал это (конвертировать .doc в .pdf и прочитать первую страницу), и это сработало!
Показать ещё 1 комментарий

Ещё вопросы

Сообщество Overcoder
Наверх
Меню