Как ввести регулярное выражение в string.replace?

Question

Как ввести регулярное выражение в string.replace?

213

Мне нужна помощь в объявлении регулярного выражения. Мои входы выглядят следующим образом:

this is a paragraph with<[1> in between</[1> and then there are cases ... where the<[99> number ranges from 1-100</[99>. 
and there are many other lines in the txt files
with<[3> such tags </[3>

Требуемый вывод:

this is a paragraph with in between and then there are cases ... where the number ranges from 1-100. 
and there are many other lines in the txt files
with such tags

Я пробовал это:

#!/usr/bin/python
import os, sys, re, glob
for infile in glob.glob(os.path.join(os.getcwd(), '*.txt')):
    for line in reader: 
        line2 = line.replace('<[1> ', '')
        line = line2.replace('</[1> ', '')
        line2 = line.replace('<[1>', '')
        line = line2.replace('</[1>', '')

        print line

Я тоже пробовал это (но похоже, что я использую неправильный синтаксис regex):

    line2 = line.replace('<[*> ', '')
    line = line2.replace('</[*> ', '')
    line2 = line.replace('<[*>', '')
    line = line2.replace('</[*>', '')

Я не хочу жестко закодировать replace от 1 до 99.,.

alvas 14 апр. 2011, в 05:39

Источник

3

Принятый ответ уже охватывает вашу проблему и решает ее. Тебе нужно что-то еще ?
HamZa 25 июнь 2013, в 14:02
0

Каким должен быть результат, where the<[99> number ranges from 1-100</[100> ?
utapyngo 26 июнь 2013, в 05:19
0

также следует удалить номер в <...> , поэтому выходные данные должны быть where the number rangers from 1-100 ? находятся в where the number rangers from 1-100 ?
alvas 26 июнь 2013, в 06:12

Показать ещё 1 комментарий

Теги:

python

string

regex

replace

7 ответов

30

str.replace() фиксированные замены. Вместо этого используйте re.sub().

Ignacio Vazquez-Abrams 14 апр. 2011, в 04:35

3

Также стоит отметить, что ваш шаблон должен выглядеть примерно так: "</ {0-1} \ d {1-2}>" или любой другой вариант регулярного выражения нотации, который использует python.
bdares 14 апр. 2011, в 04:05
3

Что означают фиксированные замены?
avi 03 июль 2015, в 11:35
0

@avi Вероятно, он имел в виду замену фиксированного слова, а не частичное нахождение слова в регулярном выражении.
Gunay Anach 11 июль 2017, в 08:48

Показать ещё 1 комментарий

19

Я бы пошел так (регулярное выражение объясняется в комментариях):

import re

# If you need to use the regex more than once it is suggested to compile it.
pattern = re.compile(r"</{0,}\[\d+>")

# <\/{0,}\[\d+>
# 
# Match the character "<" literally «<»
# Match the character "/" literally «\/{0,}»
#    Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «{0,}»
# Match the character "[" literally «\[»
# Match a single digit 0..9 «\d+»
#    Between one and unlimited times, as many times as possible, giving back as needed (greedy) «+»
# Match the character ">" literally «>»

subject = """this is a paragraph with<[1> in between</[1> and then there are cases ... where the<[99> number ranges from 1-100</[99>. 
and there are many other lines in the txt files
with<[3> such tags </[3>"""

result = pattern.sub("", subject)

print(result)

Если вы хотите узнать больше о регулярных выражениях, я рекомендую прочитать " Поваренную книгу регулярных выражений" Яна Гойваэрта и Стивена Левитана.

Lorenzo Persichetti 27 июнь 2013, в 09:09

2

Вы можете просто использовать * вместо {0,}
HamZa 27 июнь 2013, в 10:39
1

Я думаю, что {0,} более читабельно. Просто вопрос стиля
Lorenzo Persichetti 27 июнь 2013, в 11:31
2

Из документации по питону : {0,} такой же, как * , {1,} эквивалентен + , а {0,1} такой же, как ? , Лучше использовать * , + или ? когда вы можете, просто потому, что они короче и легче для чтения.
winklerrr 17 авг. 2017, в 14:07

Показать ещё 1 комментарий

12

Самый простой способ

import re

txt='this is a paragraph with<[1> in between</[1> and then there are cases ... where the<[99> number ranges from 1-100</[99>.  and there are many other lines in the txt files with<[3> such tags </[3>'

out = re.sub("(<[^>]+>)", '', txt)
print out

Ezequiel Marquez 14 май 2013, в 18:06

0

Действительно ли скобки нужны? Не будет ли это тем же регулярным выражением: <[^>]+> ? Между прочим: я думаю, что ваше регулярное выражение будет соответствовать слишком много (например, что-то вроде <html> )
winklerrr 17 авг. 2017, в 14:12

5

Метод replace для строковых объектов не принимает регулярные выражения, а только фиксированные строки (см. документацию: http://docs.python.org/2/library/stdtypes.html#str.replace).

Вы должны использовать re модуль:

import re
newline= re.sub("<\/?\[[0-9]+>", "", line)

Zac 16 май 2013, в 12:35

1

Вы должны использовать \d+ вместо [0-9]+
winklerrr 17 авг. 2017, в 14:05

2

не нужно использовать регулярное выражение (для вашей строки примера)

>>> s
'this is a paragraph with<[1> in between</[1> and then there are cases ... where the<[99> number ranges from 1-100</[99>. \nand there are many other lines in the txt files\nwith<[3> such tags </[3>\n'

>>> for w in s.split(">"):
...   if "<" in w:
...      print w.split("<")[0]
...
this is a paragraph with
 in between
 and then there are cases ... where the
 number ranges from 1-100
.
and there are many other lines in the txt files
with
 such tags

kurumi 14 апр. 2011, в 06:01

0

import os, sys, re, glob

pattern = re.compile(r"\<\[\d\>")
replacementStringMatchesPattern = "<[1>"

for infile in glob.glob(os.path.join(os.getcwd(), '*.txt')):
   for line in reader: 
      retline =  pattern.sub(replacementStringMatchesPattern, "", line)         
      sys.stdout.write(retline)
      print (retline)

Abena Saulka 24 янв. 2019, в 21:31

Ещё вопросы

Принятый ответ уже охватывает вашу проблему и решает ее. Тебе нужно что-то еще ?
Каким должен быть результат, where the<[99> number ranges from 1-100</[100> ?
также следует удалить номер в <...> , поэтому выходные данные должны быть where the number rangers from 1-100 ? находятся в where the number rangers from 1-100 ?
Также стоит отметить, что ваш шаблон должен выглядеть примерно так: "</ {0-1} \ d {1-2}>" или любой другой вариант регулярного выражения нотации, который использует python.
Что означают фиксированные замены?
@avi Вероятно, он имел в виду замену фиксированного слова, а не частичное нахождение слова в регулярном выражении.
Вы можете просто использовать * вместо {0,}
Я думаю, что {0,} более читабельно. Просто вопрос стиля
Из документации по питону : {0,} такой же, как * , {1,} эквивалентен + , а {0,1} такой же, как ? , Лучше использовать * , + или ? когда вы можете, просто потому, что они короче и легче для чтения.
Действительно ли скобки нужны? Не будет ли это тем же регулярным выражением: <[^>]+> ? Между прочим: я думаю, что ваше регулярное выражение будет соответствовать слишком много (например, что-то вроде <html> )
Вы должны использовать \d+ вместо [0-9]+

ridgerunner · Accepted Answer · 2011-04-14T06-10-00.000Z

Этот проверенный фрагмент должен сделать это:

import re
line = re.sub(r"</?\[\d+>", "", line)

Изменить: Здесь представлена комментированная версия, объясняющая, как это работает:

line = re.sub(r"""
  (?x) # Use free-spacing mode.
  <    # Match a literal '<'
  /?   # Optionally match a '/'
  \[   # Match a literal '['
  \d+  # Match one or more digits
  >    # Match a literal '>'
  """, "", line)

Regexes - это весело! Но я бы настоятельно рекомендовал потратить час или два на изучение основ. Для начала вам нужно узнать, какие символы являются особенными: "метасимволы", которые необходимо экранировать (т.е. С обратным слэшем, расположенным спереди), и правила различаются внутри и вне классов символов.) Отличное онлайн-руководство: a href= "http://www.regular-expressions.info/" rel= "noreferrer" > www.regular-expressions.info. Время, которое вы там проводите, будет многократно платить за себя. Счастливое регулярное выражение!

да, это работает !! спасибо, но не могли бы вы вкратце объяснить регулярное выражение?
Также не пренебрегайте Книгой регулярных выражений - освоением регулярных выражений Джеффри Фридлом