Python и re.compile возвращают противоречивые результаты

Question

Python и re.compile возвращают противоречивые результаты

1

Я пытаюсь заменить все экземпляры href="../directory" на href="../directory/index.html".

В Python этот

reg = re.compile(r'<a href="../(.*?)">')
for match in re.findall(reg, input_html):
    output_html = input_html.replace(match, match+'index.html')

выводит следующий результат:

href="../personal-autonomy/index.htmlindex.htmlindex.htmlindex.html"  
href="../paternalism/index.html"  
href="../principle-beneficence/index.htmlindex.htmlindex.html"  
href="../decision-capacity/index.htmlindex.htmlindex.html"

Любая идея, почему она работает со второй ссылкой, а другие нет?

Соответствующая часть источника:

<p> 

 <a href="../personal-autonomy/">autonomy: personal</a> |
 <a href="../principle-beneficence/">beneficence, principle of</a> |
 <a href="../decision-capacity/">decision-making capacity</a> |
 <a href="../legal-obligation/">legal obligation and authority</a> |
 <a href="../paternalism/">paternalism</a> |
 <a href="../identity-personal/">personal identity</a> |
 <a href="../identity-ethics/">personal identity: and ethics</a> |
 <a href="../respect/">respect</a> |
 <a href="../well-being/">well-being</a> 

</p>

EDIT: повторяющийся "index.html" на самом деле является результатом нескольких совпадений. (например, href= "../personal-autonomy/index.htmlindex.htmlindex.htmlindex.html", потому что.. /personal -autonomy встречается четыре раза в исходном источнике).

Как общий вопрос с регулярным выражением, как бы вы заменили все экземпляры без добавления дополнительного "index.html" ко всем совпадениям?

cyrus 27 янв. 2011, в 13:56

Источник

1

Не могли бы вы показать нам, что вклад, а также, пожалуйста?
Rodrigue 27 янв. 2011, в 12:54
1

Почему вы пытаетесь разобрать HTML с регулярным выражением? Существует множество мощных синтаксических анализаторов, которые могут легко извлечь эти операторы, читая DOM. Regex не был разработан для HTML.
wheaties 27 янв. 2011, в 13:27
0

Решение, своего рода: запуск .splitlines () в исходном HTML, а затем запуск регулярного выражения в каждой строке, дал желаемый результат. Тем не менее, я до сих пор не уверен, почему это не сработало без разделения.
cyrus 27 янв. 2011, в 13:51

Показать ещё 1 комментарий

Теги:

python

regex

5 ответов

1

Думаю, я узнал о проблеме

reg = re.compile(r'<a href="../(.*?)">')

for match in re.findall(reg, input_html):

output_html = input_html.replace(match, match+'index.html')

Здесь 'input_html' изменяется внутри цикла for, а затем снова выполняется поиск 'input_html' для регулярного выражения, которое является ошибкой:)

Arovit 27 янв. 2011, в 11:15

0

Иметь другую переменную для сохранения результата
Arovit 27 янв. 2011, в 14:31

0

Проблема заключается в том, что содержимое а-тега также соответствует тому, что вы пытаетесь заменить.

Это никоим образом не идеальный способ сделать это, но я думаю, вы найдете, что он работает правильно, если вы замените регулярное выражение:

reg = re.compile(r'<a href="(\.\./.*?)">')

torkildr 27 янв. 2011, в 11:43

0

Увязаете ли вы свои первые два .?

reg = re.compile(r'<a[ ]href="[.][.]/(.*?)">')

Но я бы попытался использовать lxml.

Charles Beattie 27 янв. 2011, в 11:07

0

В python вы избегаете метасимвола внутри регулярного выражения с помощью ``
Rodrigue 27 янв. 2011, в 13:22
0

почему это имеет значение в этом случае?
SilentGhost 27 янв. 2011, в 13:24

0

В вашем регулярном выражении есть ошибка в том, что .. не соответствует двум точкам. Вместо этого это . metacharacter. Чтобы обозначить точку, вам нужно ее избежать.

Ваше регулярное выражение должно быть: <a href="\.\./(.*?)"

Кроме того, если предположить, что все ваши href имеют форму.. /somedirectory/, вы можете уйти с более простым регулярным выражением:

for match in re.compile(r'<a href="(.*?)"').findall(html):
    html = html.replace(match, match + "index.html")

Здесь регулярное выражение соответствует

<a href="    # start of the taf and attribute
(            # start of a group
 .*          # any character, any number of times
)            # end of group
"            # end of the attribute

Rodrigue 27 янв. 2011, в 10:21

0

Спасибо, Родриг. Это все еще производит тот же результат, как бы то ни было.
cyrus 27 янв. 2011, в 13:27
0

Также было бы немного не повезло, если бы теги оказались на одной линии, я думаю
torkildr 27 янв. 2011, в 13:30
0

@cyrus Я обновил свой ответ, чтобы дать больше объяснений. Я также заметил, что я забыл переназначить вывод html.replace в цикле. Мой пример работает сейчас
Rodrigue 27 янв. 2011, в 13:33
0

Кроме того, Родриг? после того, как сумма попросит регулярное выражение быть не жадным, то есть соответствовать минимально возможной, а не максимально возможной группе
torkildr 27 янв. 2011, в 13:34
0

@torkildr ты не хочешь быть жадным здесь, хотя? Разрешены ли двойные кавычки в URL? Вы хотите убедиться, что сопоставление останавливается в конце атрибута href, а не в его середине. Я прав?
Rodrigue 27 янв. 2011, в 13:45
0

Я так не думаю, нет. Возможно, вы захотите html-присвоить им -стиль в любом случае. Причина, по которой это может быть плохой идеей с жадностью, заключается в том, что если у вас есть <a href=""> </a> </ a href = ""> </a> в той же строке, это будет соответствовать: "> < / a> </ a href = "
torkildr 27 янв. 2011, в 13:46
0

@torkildr хорошая мысль. Спасибо за просветление. Я обновил свой ответ, чтобы оставить не жадную версию
Rodrigue 27 янв. 2011, в 13:54
0

Спасибо за оттачивание регулярного выражения - он хорошо работает на исходном образце. Тем не менее, он не будет работать с живым HTML - мне сначала нужно было запустить splitlines ().
cyrus 27 янв. 2011, в 13:58
1

Используйте как минимум "[^"]+" вместо "(.*?)" .
jfs 27 янв. 2011, в 14:34

Показать ещё 7 комментариев

Ещё вопросы

Не могли бы вы показать нам, что вклад, а также, пожалуйста?
Почему вы пытаетесь разобрать HTML с регулярным выражением? Существует множество мощных синтаксических анализаторов, которые могут легко извлечь эти операторы, читая DOM. Regex не был разработан для HTML.
Решение, своего рода: запуск .splitlines () в исходном HTML, а затем запуск регулярного выражения в каждой строке, дал желаемый результат. Тем не менее, я до сих пор не уверен, почему это не сработало без разделения.
Иметь другую переменную для сохранения результата
В python вы избегаете метасимвола внутри регулярного выражения с помощью ``
почему это имеет значение в этом случае?
Спасибо, Родриг. Это все еще производит тот же результат, как бы то ни было.
Также было бы немного не повезло, если бы теги оказались на одной линии, я думаю
@cyrus Я обновил свой ответ, чтобы дать больше объяснений. Я также заметил, что я забыл переназначить вывод html.replace в цикле. Мой пример работает сейчас
Кроме того, Родриг? после того, как сумма попросит регулярное выражение быть не жадным, то есть соответствовать минимально возможной, а не максимально возможной группе
@torkildr ты не хочешь быть жадным здесь, хотя? Разрешены ли двойные кавычки в URL? Вы хотите убедиться, что сопоставление останавливается в конце атрибута href, а не в его середине. Я прав?
Я так не думаю, нет. Возможно, вы захотите html-присвоить им -стиль в любом случае. Причина, по которой это может быть плохой идеей с жадностью, заключается в том, что если у вас есть <a href=""> </a> </ a href = ""> </a> в той же строке, это будет соответствовать: "> < / a> </ a href = "
@torkildr хорошая мысль. Спасибо за просветление. Я обновил свой ответ, чтобы оставить не жадную версию
Спасибо за оттачивание регулярного выражения - он хорошо работает на исходном образце. Тем не менее, он не будет работать с живым HTML - мне сначала нужно было запустить splitlines ().
Используйте как минимум "[^"]+" вместо "(.*?)" .

jfs · Accepted Answer · 2011-01-27T11-54-00.000Z

Не анализировать html с регулярными выражениями:

import re    
from lxml import html

def replace_link(link):
    if re.match(r"\.\./[^/]+/$", link):
        link += "index.html"
    return link

print html.rewrite_links(your_html_text, replace_link)

Выход

<p> 

 <a href="../personal-autonomy/index.html">autonomy: personal</a> |
 <a href="../principle-beneficence/index.html">beneficence, principle of</a> |
 <a href="../decision-capacity/index.html">decision-making capacity</a> |
 <a href="../legal-obligation/index.html">legal obligation and authority</a> |
 <a href="../paternalism/index.html">paternalism</a> |
 <a href="../identity-personal/index.html">personal identity</a> |
 <a href="../identity-ethics/index.html">personal identity: and ethics</a> |
 <a href="../respect/index.html">respect</a> |
 <a href="../well-being/index.html">well-being</a> 

</p>

Спасибо, это работает отлично, за исключением того, что полный вывод заполнен специальными символами (и т. Д.). Есть ли что-то, что мне нужно сделать до или после вызова html.rewrite?
@cyrus: передайте your_html_text как Unicode (используйте .decode() ). Кодируйте возвращаемое значение rewrite_links() используя кодировку, понятную вашей консоли, например, s.encode(sys.stdout.encoding or locale.getpreferredencoding()) .
@cyrus: если вы не знаете входную кодировку, вы можете использовать рецепт от stackoverflow.com/questions/2686709/… а затем вызвать doc.rewrite_links(replace_links)
Спасибо за ссылку, но я не могу закодировать ее любым способом. Например, я вызываю chardet.detect (content) ['encoding'] до и после того, как я .encode ('utf-8'), HTML, и он все еще говорит "ascii". Есть идеи?
@cyrus: Задайте новый вопрос, который описывает: откуда вы берете HTML (файл, веб-сайт)? Где вы передаете это (файл, экран, сеть)? Приведите пример неудачного ввода / вывода, минимальный код, который воспроизводит ошибку, саму ошибку / трассировку.