разобрать xhtml в python 2.6

1

xml.etree.ElementTree.parse задыхается в моем файле xhtml. Я где-то видел, что lxml может обрабатывать html. Может ли кто-нибудь сказать мне документированный способ разбора, а затем изменить, xhtml? Я хочу добавить javascript в xhtml на лету.

  • 1
    Что такое «удушье»? Разве документ не является правильно сформированным XML? Использует ли это специфичные для HTML объекты, которые не может обработать анализатор без DTD-чтения?
  • 0
    Под «удушением» я подразумеваю, что когда я пытаюсь проанализировать мой xhtml-файл следующим образом: html = myElementTree.parse (myXHTMLFile) Приложение выдает следующее исключение: undefined entity & nbsp ;: строка 16, столбец 164, с которыми я сталкивался ранее на других языках. & Nbsp; является допустимым символом в HTML, но не в XML, как вы предлагаете.
Теги:
xhtml

1 ответ

3
Лучший ответ

Вы пробовали BeautifulSoup? Он обрабатывает документы, которые плохо сформированы, и я нашел его довольно хорошим.

  • 0
    Не пробовал это. Вы анализировали xhtml с этим?
  • 0
    Да - я использовал в экстракторе для данных с веб-сайта XHTML, и, похоже, все в порядке. Я не уверен, насколько просто использовать BeautifulSoup для последующего редактирования документа, поскольку я только когда-либо интересовался извлечением, но он будет обрабатывать часть извлечения.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню