в lxml.html как я могу получить текст, дочерние элементы и содержимое дочерних узлов?

Question

в lxml.html как я могу получить текст, дочерние элементы и содержимое дочерних узлов?

1

Я использую python lxml.html. У меня есть выражение xpath, которое захватывает текст узла, но мне нужен весь текст, включая теги дочерних тегов и их содержимого. Как мне это достичь?

JJJ 26 авг. 2011, в 20:59

Источник

0

Не могли бы вы объяснить, нужен ли вам «весь текст внутри элемента» или, скорее, «исходный код элемента»? (или что-то другое?)
Steven 29 авг. 2011, в 08:22

Теги:

python

lxml

2 ответа

Ещё вопросы

Не могли бы вы объяснить, нужен ли вам «весь текст внутри элемента» или, скорее, «исходный код элемента»? (или что-то другое?)

unutbu · Answer 1 · 2011-08-26T17-54-00.000Z

Метод text_content Element возвращает текст элемента, включая текстовое содержимое его дочерних элементов без разметки.

Terence Ng · Answer 2 · 2014-03-06T00-45-00.000Z

Я не уверен, какие теги вы используете; поэтому, я составляю sth.

Вы можете попробовать:

result = lxml.html.parse(url).xpath("//tr/td/a/text()")

//tr означает Выбирает узлы в документе из текущего узла, которые соответствуют выбору, независимо от того, где они находятся.

Вы можете использовать это выражение ('//'), чтобы захватить теги дочерних тегов.