Регулярное выражение захватывает все совпадение, состоящее из повторяющихся групп

Question

Регулярное выражение захватывает все совпадение, состоящее из повторяющихся групп

1

Я посмотрел на форумы, но не смог точно определить, как именно решить мою проблему.

Скажем, у меня есть строка вроде следующего:

UDK .636.32/38.082.4454.2(575.3)

и я хотел бы совместить выражение с регулярным выражением, фиксируя фактическое число (в этом случае ".636.32/38.082.4454.2 (575.3)").

Могут существовать некоторые символы мусора между "UDK" и фактическим числом, а такие символы, как ".", "/" Или "-", являются действительными частями номера. По сути, это число цифр, разделенных некоторыми разрешенными символами.

То, что я придумал, - это следующее регулярное выражение:

'UDK.*(\d{1,3}[\.\,\(\)\[\]\=\'\:\"\+/\-]{0,3})+'

но он не группирует '.636.32/38.082.4454.2 (575.3)'! Это оставляет меня не более чем последней цифрой последней группы (3 в этом случае).

Любая помощь будет принята с благодарностью.

artonson 30 авг. 2011, в 16:31

Источник

Теги:

python

regex

2 ответа

Ещё вопросы

eph · Answer 1 · 2011-08-30T13-02-00.000Z

5

Во-первых, вам нужен не-жадный .*? , Во-вторых, вам не нужно избегать некоторых символов в [ ]. В-третьих, вы можете просто рассматривать его как последовательность цифр и некоторые допустимые символы? Почему существует \d{1,3} но 4454?

>>> re.match(r'UDK.*?([\d.,()\[\]=\':"+/-]+)', s).group(1)
'.636.32/38.082.4454.2(575.3)'

eph 30 авг. 2011, в 13:02

0

Почему в классе char столько символов?
NullUserException 30 авг. 2011, в 14:40
0

Вопрос до сих пор не совсем понятен, но я предлагаю вам добавить якоря: ^UDK.*?([\d.,()\[\]=\':"+/-]+)$ . Другими словами, «число» - это последняя группа подходящих символов, если некоторые из этих символов также появляются среди «мусорных символов» в середине, это не будет путать регулярное выражение.
Alan Moore 30 авг. 2011, в 18:06
0

Извините, это ошибка с группой из четырех цифр - она также должна быть включена. Идея состоит в том, что ДОЛЖНЫ быть от 1 до 4 цифр, за которыми МОЖЕТ следовать один или несколько разрешенных разделителей, таких как точки или тире. Вероятно, ответ @ eph решает проблему, однако я не уверен, что строка типа "...." или "12345/12345" также будет в порядке, но это не должно быть.
artonson 03 сен. 2011, в 20:42
0

@artonson, что значит "МОЖЕТ"? Если это означает, что разделители могут быть опущены, длина цифр может быть бесконечной.
eph 04 сен. 2011, в 08:33
0

@artonson Соответствующее регулярное выражение соответствует тому, для чего оно используется, а не тому, чем оно является на самом деле. Вы хотите ограничить ввод или просто извлечь из того, что вы уверены, что нет таких вещей, как 12345 ? Для первого требуется больше деталей, например, может ли / должна / никогда / не начинаться / заканчиваться группа без цифр, является ли UDK началом строки / строки или следует за некоторыми буквами, что именно может быть до / после основной группы, какая группа в UDK 123 456 должно быть захвачено. Вы можете получить большое и медленное регулярное выражение в конце, в то время как для более позднего оно может быть простым и быстрым. Может быть, так же просто, как UDK\s+(\S+) .
eph 04 сен. 2011, в 08:46
0

Если имеется более одной группы цифр, разделители не могут быть опущены. Если только один, не может быть разделителей.
artonson 04 сен. 2011, в 08:49
0

@artonson Например, ^UDK +([.,()\[\]=\':"+/-]*(\d{1,4}[.,()\[\]=\':"+/-]+)*\d{1,4}[.,()\[\]=\':"+/-]*)$ соответствует строке, начинающейся с UDK, за которой следует один или несколько белых пробелы, затем основная группа для всей оставшейся строки, которая содержит одну или несколько групп цифр длиной 1 ~ 4, разделенных некоторыми разрешенными символами, которые также могут находиться в начале или конце основной группы.
eph 04 сен. 2011, в 08:58

Показать ещё 5 комментариев

Adam Parkin · Answer 2 · 2011-08-30T14-12-00.000Z

Не так много прямого ответа на вашу проблему, но общий совет регулярного выражения: используйте Kodos (http://kodos.sourceforge.net/). Это просто потрясающе для составления/тестирования регулярных выражений. Вы можете ввести некоторый образец текста и "опробовать" регулярные выражения против него, увидеть, какие совпадения, группы и т.д. Он даже генерирует код Python, когда вы закончите. Хорошая вещь.

Изменение: с помощью Kodos я придумал:

UDK.*?(?P<number>[\d/.)(]+)

как регулярное выражение, которое соответствует данному примеру. Код, который производит Kodos, это:

import re

rawstr = r"""UDK.*?(?P<number>[\d/.)(]+)"""
matchstr = """UDK .636.32/38.082.4454.2(575.3)"""

# method 1: using a compile object
compile_obj = re.compile(rawstr)
match_obj = compile_obj.search(matchstr)

# Retrieve group(s) by name
number = match_obj.group('number')