разобрать xhtml в python 2.6

Question

разобрать xhtml в python 2.6

1

xml.etree.ElementTree.parse задыхается в моем файле xhtml. Я где-то видел, что lxml может обрабатывать html. Может ли кто-нибудь сказать мне документированный способ разбора, а затем изменить, xhtml? Я хочу добавить javascript в xhtml на лету.

Alex 26 фев. 2010, в 01:06

Источник

1

Что такое «удушье»? Разве документ не является правильно сформированным XML? Использует ли это специфичные для HTML объекты, которые не может обработать анализатор без DTD-чтения?
bobince 26 фев. 2010, в 00:56
0

Под «удушением» я подразумеваю, что когда я пытаюсь проанализировать мой xhtml-файл следующим образом: html = myElementTree.parse (myXHTMLFile) Приложение выдает следующее исключение: undefined entity & nbsp ;: строка 16, столбец 164, с которыми я сталкивался ранее на других языках. & Nbsp; является допустимым символом в HTML, но не в XML, как вы предлагаете.
Alex 02 март 2010, в 23:15

Теги:

python

xhtml

1 ответ

Ещё вопросы

Что такое «удушье»? Разве документ не является правильно сформированным XML? Использует ли это специфичные для HTML объекты, которые не может обработать анализатор без DTD-чтения?
Под «удушением» я подразумеваю, что когда я пытаюсь проанализировать мой xhtml-файл следующим образом: html = myElementTree.parse (myXHTMLFile) Приложение выдает следующее исключение: undefined entity & nbsp ;: строка 16, столбец 164, с которыми я сталкивался ранее на других языках. & Nbsp; является допустимым символом в HTML, но не в XML, как вы предлагаете.

user257111 · Accepted Answer · 2010-02-25T22-10-00.000Z

Вы пробовали BeautifulSoup? Он обрабатывает документы, которые плохо сформированы, и я нашел его довольно хорошим.

Не пробовал это. Вы анализировали xhtml с этим?
Да - я использовал в экстракторе для данных с веб-сайта XHTML, и, похоже, все в порядке. Я не уверен, насколько просто использовать BeautifulSoup для последующего редактирования документа, поскольку я только когда-либо интересовался извлечением, но он будет обрабатывать часть извлечения.