Python, regex и html: сопоставить последний тег в строке

Question

Python, regex и html: сопоставить последний тег в строке

1

Я смущен о жадных/не-жадных персонажах питона.

"Учитывая многострочный html, верните последний тег в каждой строке".

Я бы подумал, что это будет правильно:

re.findall('<.*?>$', html, re.MULTILINE)

Я раздражен, потому что ожидал список отдельных тегов, таких как:

"</html>", "<ul>", "</td>".

Мой O'Reilly Pocket Reference говорит, что *? wil "соответствуют 0 или более раз, но в кратчайшие сроки."

Итак, почему я получаю "жадные" совпадения, т.е. Более одного тега в некоторых (но не во всех) матчах?

MockWhy 10 нояб. 2011, в 22:12

Источник

0

Вы не должны использовать RegEx для анализа HTML. Вы должны использовать (x) html-парсер, такой как BeautifulSoup или minidom.
g.d.d.c 10 нояб. 2011, в 20:37
0

Посмотрите ответ с наибольшим количеством голосов на этот вопрос: stackoverflow.com/questions/1732348
Jim Garrison 10 нояб. 2011, в 20:41
0

В интересах краткости я не упомянул, что просто играю, чтобы лучше понять регулярные выражения. Я не осознавал, что случайно задал один из наиболее часто задаваемых вопросов о SO.
MockWhy 10 нояб. 2011, в 21:51

Показать ещё 1 комментарий

Теги:

python

regex

1 ответ

Ещё вопросы

Вы не должны использовать RegEx для анализа HTML. Вы должны использовать (x) html-парсер, такой как BeautifulSoup или minidom.
Посмотрите ответ с наибольшим количеством голосов на этот вопрос: stackoverflow.com/questions/1732348
В интересах краткости я не упомянул, что просто играю, чтобы лучше понять регулярные выражения. Я не осознавал, что случайно задал один из наиболее часто задаваемых вопросов о SO.

Firstrock · Accepted Answer · 2011-11-10T18-03-00.000Z

Ваша проблема связана с тем, что у вас есть привязка конца строки ('$'). То, как нежелательное соответствие работает, заключается в том, что вначале движок ищет первый непринужденный шаблон в строке ("<" в вашем случае). Затем он ищет первый символ ">" (который вы ограничили, с $ anchor, который находится в конце строки). Таким образом, не жадный * не отличается от жадного * в этой ситуации.

Поскольку вы не можете удалить "$" из своего RE (вы ищете окончательный тег на линии), вам нужно будет придерживаться другого подхода... см. Ответ @Mark. '<[^> <] *> $' будет работать.