Регулярное выражение для соответствия сбалансированным скобкам

Question

Регулярное выражение для соответствия сбалансированным скобкам

214

Мне нужно регулярное выражение для выбора всего текста между двумя внешними скобками.

Пример: some text(text here(possible text)text(possible text(more text)))end text

Результат: (text here(possible text)text(possible text(more text)))

Я много часов пробовал, помните, что мои знания о регулярном выражении - это не то, что мне бы хотелось:-), поэтому любая помощь будет с благодарностью получена.

DaveF 13 фев. 2009, в 14:35

Источник

3

Этот вопрос очень плохой, потому что не ясно, о чем он спрашивает. Все ответы интерпретировали это по-разному. @DaveF не могли бы вы уточнить вопрос?
Matt Fenwick 17 дек. 2012, в 18:25
1

Ответил в этом сообщении: stackoverflow.com/questions/6331065/…
sship21 06 дек. 2013, в 22:47

Теги:

regex

15 ответов

73

Вы можете использовать рекурсию регулярных выражений:

\(([^()]|(?R))*\)

rogal111 08 нояб. 2013, в 17:25

3

Пример был бы действительно полезен здесь, я не могу заставить это работать для таких вещей, как "(1, (2, 3)) (4, 5)".
Andy Hayden 15 окт. 2014, в 00:01
1

@AndyHayden это потому, что "(1, (2, 3)) (4, 5)" имеет две группы, разделенные пробелом. Используйте мое регулярное выражение с глобальным флагом: / (([^ ()] | (? R)) *) / g. Вот онлайн тест: regex101.com/r/lF0fI1/1
rogal111 23 окт. 2014, в 09:45
1

Я задал вопрос об этой прошлой неделе stackoverflow.com/questions/26385984/recursive-pattern-in-regex
Andy Hayden 23 окт. 2014, в 17:20
5

В .NET 4.5 я получаю следующую ошибку для этого шаблона: Unrecognized grouping construct .
nam 28 июнь 2015, в 00:16
3

Потрясающие! Это отличная особенность регулярных выражений. Спасибо, что вы единственный, кто действительно ответил на вопрос. Кроме того, этот сайт regex101 хорош.
Andrew 26 дек. 2015, в 02:47
0

Очень хороший ответ. Notepad ++ 6.8.8 поддерживает это.
bers 15 фев. 2016, в 21:44
0

Как будет использоваться ваше выражение с глобальным флагом (тот, который вы дали в онлайн-тесте) с c ++ <regex> ???? Я пытаюсь разбить строку на куски в отношении их скобок.
Jared Smith 08 апр. 2016, в 03:19
0

Это должно быть ответом
Tomer Peled 14 сен. 2016, в 19:08
0

@nam Вам нужно PCRE , чтобы использовать рекурсивную функцию в этом выражении. Более подробное объяснение здесь .
jsirr13 14 нояб. 2016, в 22:45
0

Хороший ответ - это регулярное выражение стало значительно более эффективным, если изменить его на: \(([^()]+|(?R))*\)
Addison 02 нояб. 2018, в 03:24
0

Как примечание, это как-то неправильно названо, потому что настоящее регулярное выражение не является рекурсивным .
EJoshuaS 12 дек. 2018, в 14:19
0

это должно быть помечено как ответ
Jay 29 март 2019, в 08:29

Показать ещё 10 комментариев

67

Я хочу добавить этот ответ для быстрой ссылки. Не стесняйтесь обновлять.

.NET Regex с использованием балансировочных групп.

\((?>\((?<c>)|[^()]+|\)(?<-c>))*(?(c)(?!))\)

Где c используется как счетчик глубины.

Демо на Regexstorm.com

PCRE с использованием рекурсивного шаблона.

\((?>[^)(]+|(?R))*+\)

Демо в regex101; Или без чередования:

\((?>[^)(]*(?R)?)*+\)

Демо в regex101; Или разворачивается для производительности:

\([^)(]*(?:(?R)[^)(]*)*+\)

Демо в regex101; Шаблон наклеивается на (?R) который представляет (?0).

Perl, PHP, Notepad++, R: perl = TRUE, Python: пакет Regex с (?V1) для поведения Perl.

Ruby, используя вызовы подвыражения.

С Ruby 2.0 \g<0> можно использовать для вызова полного шаблона.

\((?>[^)(]+|\g<0>)*\)

Демо в Rubular; Ruby 1.9 поддерживает только захват групповой рекурсии:

(\((?>[^)(]+|\g<1>)*\))

Демо в Rubular (атомная группировка с Ruby 1.9.3)

JavaScript API :: XRegExp.matchRecursive

XRegExp.matchRecursive(str, '\\(', '\\)', 'g');

JS, Java и другие регулярные выражения без рекурсии до 2 уровней вложенности:

\((?:[^)(]+|\((?:[^)(]+|\([^)(]*\))*\))*\)

Демо в regex101. Более глубокое вложение нужно добавить к шаблону.
Чтобы сбой быстрее в несбалансированных скобках, сбросьте квант +.

Java: интересная идея с использованием прямых ссылок от @jaytea.

_{Ссылка. Что означает это регулярное выражение?}

bobble bubble 08 фев. 2016, в 13:48

24

[^\(]*(\(.*\))[^\)]*

[^\(]* соответствует всем, что не является открывающей скобкой в начале строки, (\(.*\)) фиксирует требуемую подстроку, заключенную в скобки, а [^\)]* соответствует всем, что не является закрывающей скобкой в конце Струна. Обратите внимание, что это выражение не пытается сопоставить скобки; простой парсер (см. ответ дехмана) был бы более подходящим для этого.

Zach Scrivena 13 фев. 2009, в 16:32

0

скобка внутри класса не нуждается в экранировании. Так как внутри это не метасимвол.
José Leal 13 фев. 2009, в 15:59
9

Этот expr не работает с чем-то вроде «text (text) text (text) text« return »(text) text (text)». Регулярные выражения не могут считать скобки.
Christian Klauser 13 фев. 2009, в 16:02

14

(?<=\().*(?=\))

Если вы хотите выбрать текст между двумя совпадающими скобками, вам не повезло с регулярными выражениями. Это невозможно ^(*).

Это регулярное выражение просто возвращает текст между первым открытием и последними закрывающимися скобками в вашей строке.

^(*) Если ваш механизм регулярного выражения не имеет таких функций, как балансировочные группы или рекурсия. Количество двигателей, поддерживающих такие функции, медленно растет, но они по-прежнему не являются общедоступными.

Tomalak 13 фев. 2009, в 17:08

0

Что означают знаки «<=» и «=»? На какой механизм регулярных выражений нацелено это выражение?
Christian Klauser 13 фев. 2009, в 15:58
1

Это осмотр, или, точнее, «утверждения упреждения / упущения нулевой ширины». Большинство современных двигателей регулярных выражений поддерживают их.
Tomalak 13 фев. 2009, в 16:01
0

Согласно примеру ОП, он хочет включить в матч самые дальние парни. Это регулярное выражение выбрасывает их.
Alan Moore 15 фев. 2009, в 05:09
1

@ Алан М: Вы правы. Но согласно тексту вопроса, он хочет все, что между внешними парнями. Выберите свой выбор. Он сказал, что пытался часами, поэтому даже не рассматривал «все, включая самых крайних парней», как намерение, потому что это так тривиально: «(. *)».
Tomalak 15 фев. 2009, в 10:29
0

Кроме того, если вы разрешите рекурсивные регулярные выражения, это не «невозможно». Добавление «невозможно» в вопросы StackOverflow без квалификации, когда это возможно, приводит к плохому прочтению. Я бы предложил добавить оговорку для рекурсии или обсуждения грамматики.
ghayes 12 янв. 2015, в 07:47
3

@ghayes Ответ с 2009 года. Это давно ; механизмы регулярных выражений, которые допускают некоторую форму рекурсии, были более необычными, чем сейчас (и они все еще довольно редки). Я упомяну это в своем ответе.
Tomalak 12 янв. 2015, в 07:54

Показать ещё 4 комментария

11

На самом деле это можно сделать с использованием регулярных выражений .NET, но это не так, но читайте внимательно.

Здесь вы можете прочитать хорошую статью здесь. Вам также может потребоваться прочитать регулярные выражения .NET. Вы можете начать читать здесь.

Угловые скобки <> использовались, потому что они не требуют экранирования.

Регулярное выражение выглядит следующим образом:

<
[^<>]*
(
    (
        (?<Open><)
        [^<>]*
    )+
    (
        (?<Close-Open>>)
        [^<>]*
    )+
)*
(?(Open)(?!))
>

Alexander Bartosh 23 сен. 2011, в 20:10

4

Этот ответ объясняет теоретическое ограничение того, почему регулярные выражения не являются подходящим инструментом для этой задачи.

Регулярные выражения не могут этого сделать.

Регулярные выражения основаны на вычислительной модели, известной как Finite State Automata (FSA). Как указано в названии, a FSA может помнить только текущее состояние, оно не имеет информации о предыдущих состояниях.

На приведенной выше диаграмме S1 и S2 являются двумя состояниями, где S1 является начальным и конечным шагами. Поэтому, если мы попытаемся использовать строку 0110, переход будет выглядеть следующим образом:

      0     1     1     0
-> S1 -> S2 -> S2 -> S2 ->S1

В приведенных выше шагах, когда мы находимся во втором S2, то есть после разбора 01 of 0110, FSA не имеет информации о предыдущем 0 в 01, поскольку он может только помнить текущее состояние и следующий входной символ.

В вышеприведенной задаче нам нужно знать отсутствие открывающей скобки; это означает, что он должен храниться в каком-либо месте. Но так как FSAs не может этого сделать, регулярное выражение не может быть записано.

Однако для достижения цели можно написать алгоритм. Алгоритмы обычно подпадают под Pushdown Automata (PDA). PDA - это один уровень выше FSA. У КПК есть дополнительный стек, чтобы что-то хранить. КПК могут быть использованы для решения вышеуказанной проблемы, потому что мы можем "push" открывать скобки в стеке и "pop" их, как только мы сталкиваемся с закрывающей скобкой. Если в конце стопка пуста, откроются скобки и закрывающая скобка. В противном случае нет.

Подробное обсуждение можно найти здесь.

Somnath Musib 21 сен. 2017, в 02:30

0

Push и pop возможны в регулярном выражении stackoverflow.com/questions/17003799/… .: регулярные выражения.info/ balancing.html
Marco 23 авг. 2018, в 19:35
0

Здесь есть несколько ответов, которые доказывают, что это возможно.
Jiří Herník 20 сен. 2018, в 10:48

3

Это окончательное регулярное выражение:

\(
(?<arguments> 
(  
  ([^\(\)']*) |  
  (\([^\(\)']*\)) |
  '(.*?)'

)*
)
\)

Пример:

input: ( arg1, arg2, arg3, (arg4), '(pip' )

output: arg1, arg2, arg3, (arg4), '(pip'

обратите внимание, что '(pip' правильно управляется как строка. (проверено в регуляторе: http://sourceforge.net/projects/regulator/)

Marco 15 май 2012, в 08:45

2

Я написал небольшую библиотеку javascript под названием balanced, чтобы справиться с этой задачей, вы можете сделать это, выполнив

balanced.matches({
    source: source,
    open: '(',
    close: ')'
});

вы можете даже выполнять замены

balanced.replacements({
    source: source,
    open: '(',
    close: ')',
    replace: function (source, head, tail) {
        return head + source + tail;
    }
});

heres более сложный и интерактивный пример JSFiddle

Chad Scira 02 авг. 2014, в 09:15

2

Регулярное выражение с использованием Ruby (версия 1.9.3 или выше):

/(?<match>\((?:\g<match>|[^()]++)*\))/

Демо на рублевом

Joy Hu 21 авг. 2013, в 09:26

1

так что вам нужна первая и последняя родительская, используйте smth, как это str.indexOf('('); - это даст вам первое появление str.lastIndexOf( ')'); - последний

так что вам нужна строка между ними, Строка searchString = str.substring(str1.indexOf('('), str1.lastIndexOf(')');

Shell Scott 08 июль 2016, в 15:58

0

просто и читабельно!
orangesherbert 28 янв. 2019, в 17:55

1

Вот настраиваемое решение, позволяющее одиночные символьные литералы в Java:

public static List<String> getBalancedSubstrings(String s, Character markStart, 
                                 Character markEnd, Boolean includeMarkers) 

{
        List<String> subTreeList = new ArrayList<String>();
        int level = 0;
        int lastOpenDelimiter = -1;
        for (int i = 0; i < s.length(); i++) {
            char c = s.charAt(i);
            if (c == markStart) {
                level++;
                if (level == 1) {
                    lastOpenDelimiter = (includeMarkers ? i : i + 1);
                }
            }
            else if (c == markEnd) {
                if (level == 1) {
                    subTreeList.add(s.substring(lastOpenDelimiter, (includeMarkers ? i + 1 : i)));
                }
                if (level > 0) level--;
            }
        }
        return subTreeList;
    }
}

Использование образца:

String s = "some text(text here(possible text)text(possible text(more text)))end text";
List<String> balanced = getBalancedSubstrings(s, '(', ')', true);
System.out.println("Balanced substrings:\n" + balanced);
// => [(text here(possible text)text(possible text(more text)))]

Wiktor Stribiżew 13 май 2016, в 11:15

0

Посмотрите онлайн демо Java для доказательства того, что он работает с несколькими совпадениями.
Wiktor Stribiżew 08 нояб. 2017, в 13:11

0

Этот тоже работал

re.findall(r'\(.+\)', s)

DataScienceStep 05 июль 2018, в 05:18

0

"""
Here is a simple python program showing how to use regular
expressions to write a paren-matching recursive parser.

This parser recognises items enclosed by parens, brackets,
braces and <> symbols, but is adaptable to any set of
open/close patterns.  This is where the re package greatly
assists in parsing. 
"""

import re


# The pattern below recognises a sequence consisting of:
#    1. Any characters not in the set of open/close strings.
#    2. One of the open/close strings.
#    3. The remainder of the string.
# 
# There is no reason the opening pattern can't be the
# same as the closing pattern, so quoted strings can
# be included.  However quotes are not ignored inside
# quotes.  More logic is needed for that....


pat = re.compile("""
    ( .*? )
    ( \( | \) | \[ | \] | \{ | \} | \< | \> |
                           \' | \" | BEGIN | END | $ )
    ( .* )
    """, re.X)

# The keys to the dictionary below are the opening strings,
# and the values are the corresponding closing strings.
# For example "(" is an opening string and ")" is its
# closing string.

matching = { "(" : ")",
             "[" : "]",
             "{" : "}",
             "<" : ">",
             '"' : '"',
             "'" : "'",
             "BEGIN" : "END" }

# The procedure below matches string s and returns a
# recursive list matching the nesting of the open/close
# patterns in s.

def matchnested(s, term=""):
    lst = []
    while True:
        m = pat.match(s)

        if m.group(1) != "":
            lst.append(m.group(1))

        if m.group(2) == term:
            return lst, m.group(3)

        if m.group(2) in matching:
            item, s = matchnested(m.group(3), matching[m.group(2)])
            lst.append(m.group(2))
            lst.append(item)
            lst.append(matching[m.group(2)])
        else:
            raise ValueError("After <<%s %s>> expected %s not %s" %
                             (lst, s, term, m.group(2)))

# Unit test.

if __name__ == "__main__":
    for s in ("simple string",
              """ "double quote" """,
              """ 'single quote' """,
              "one'two'three'four'five'six'seven",
              "one(two(three(four)five)six)seven",
              "one(two(three)four)five(six(seven)eight)nine",
              "one(two)three[four]five{six}seven<eight>nine",
              "one(two[three{four<five>six}seven]eight)nine",
              "oneBEGINtwo(threeBEGINfourENDfive)sixENDseven",
              "ERROR testing ((( mismatched ))] parens"):
        print "\ninput", s
        try:
            lst, s = matchnested(s)
            print "output", lst
        except ValueError as e:
            print str(e)
    print "done"

Gene Olson 01 сен. 2016, в 07:04

0

Ответ зависит от того, нужно ли вам сопоставлять совпадающие наборы скобок или просто сначала открывать до последнего закрытия входного текста.

Если вам нужно сопоставить вложенные скобки, вам нужно что-то большее, чем регулярные выражения. - см. @dehmann

Если он сначала открывается для закрытия, см. @Zach

Решите, с чем хотите:

abc ( 123 ( foobar ) def ) xyz ) ghij

Вам нужно решить, что ваш код должен соответствовать в этом случае.

Douglas Leeder 13 фев. 2009, в 17:45

1

Это не ответ.
Alan Moore 23 нояб. 2015, в 05:45
0

Да, требование об изменении в вопросе должно быть дано в качестве комментария,
Gangnus 16 дек. 2015, в 10:32

Ещё вопросы

Этот вопрос очень плохой, потому что не ясно, о чем он спрашивает. Все ответы интерпретировали это по-разному. @DaveF не могли бы вы уточнить вопрос?
Ответил в этом сообщении: stackoverflow.com/questions/6331065/…
Пример был бы действительно полезен здесь, я не могу заставить это работать для таких вещей, как "(1, (2, 3)) (4, 5)".
@AndyHayden это потому, что "(1, (2, 3)) (4, 5)" имеет две группы, разделенные пробелом. Используйте мое регулярное выражение с глобальным флагом: / (([^ ()] | (? R)) *) / g. Вот онлайн тест: regex101.com/r/lF0fI1/1
Я задал вопрос об этой прошлой неделе stackoverflow.com/questions/26385984/recursive-pattern-in-regex
В .NET 4.5 я получаю следующую ошибку для этого шаблона: Unrecognized grouping construct .
Потрясающие! Это отличная особенность регулярных выражений. Спасибо, что вы единственный, кто действительно ответил на вопрос. Кроме того, этот сайт regex101 хорош.
Очень хороший ответ. Notepad ++ 6.8.8 поддерживает это.
Как будет использоваться ваше выражение с глобальным флагом (тот, который вы дали в онлайн-тесте) с c ++ <regex> ???? Я пытаюсь разбить строку на куски в отношении их скобок.
@nam Вам нужно PCRE , чтобы использовать рекурсивную функцию в этом выражении. Более подробное объяснение здесь .
Хороший ответ - это регулярное выражение стало значительно более эффективным, если изменить его на: \(([^()]+|(?R))*\)
Как примечание, это как-то неправильно названо, потому что настоящее регулярное выражение не является рекурсивным .
это должно быть помечено как ответ
скобка внутри класса не нуждается в экранировании. Так как внутри это не метасимвол.
Этот expr не работает с чем-то вроде «text (text) text (text) text« return »(text) text (text)». Регулярные выражения не могут считать скобки.
Что означают знаки «<=» и «=»? На какой механизм регулярных выражений нацелено это выражение?
Это осмотр, или, точнее, «утверждения упреждения / упущения нулевой ширины». Большинство современных двигателей регулярных выражений поддерживают их.
Согласно примеру ОП, он хочет включить в матч самые дальние парни. Это регулярное выражение выбрасывает их.
@ Алан М: Вы правы. Но согласно тексту вопроса, он хочет все, что между внешними парнями. Выберите свой выбор. Он сказал, что пытался часами, поэтому даже не рассматривал «все, включая самых крайних парней», как намерение, потому что это так тривиально: «(. *)».
Кроме того, если вы разрешите рекурсивные регулярные выражения, это не «невозможно». Добавление «невозможно» в вопросы StackOverflow без квалификации, когда это возможно, приводит к плохому прочтению. Я бы предложил добавить оговорку для рекурсии или обсуждения грамматики.
@ghayes Ответ с 2009 года. Это давно ; механизмы регулярных выражений, которые допускают некоторую форму рекурсии, были более необычными, чем сейчас (и они все еще довольно редки). Я упомяну это в своем ответе.
Push и pop возможны в регулярном выражении stackoverflow.com/questions/17003799/… .: регулярные выражения.info/ balancing.html
Здесь есть несколько ответов, которые доказывают, что это возможно.
Посмотрите онлайн демо Java для доказательства того, что он работает с несколькими совпадениями.
Да, требование об изменении в вопросе должно быть дано в качестве комментария,

Frank · Accepted Answer · 2009-02-13T16-19-00.000Z

109

Лучший ответ

Регулярные выражения являются неправильным инструментом для задания, потому что вы имеете дело с вложенными структурами, то есть с рекурсией.

Но для этого есть простой алгоритм, который я описал в этом ответе на предыдущем вопросе.

Frank 13 фев. 2009, в 16:19

0

Я играл с этой идеей, но думал, что смогу сделать это с RegExp. Вернусь к моему первоначальному плану. Спасибо всем
DaveF 13 фев. 2009, в 16:25
12

Реализация .NET имеет [Определения балансирующей группы msdn.microsoft.com/en-us/library/…, которые допускают подобные вещи.
Carl G 13 июнь 2010, в 04:08
16

Я не согласен с тем, что регулярные выражения являются неправильным инструментом для этого по нескольким причинам. 1) Большинство реализаций регулярных выражений имеют работоспособное, если не идеальное решение для этого. 2) Часто вы пытаетесь найти сбалансированные пары разделителей в контексте, где также используются другие критерии, хорошо подходящие для регулярных выражений. 3) Часто вы передаете регулярное выражение в некоторый API, который принимает только регулярные выражения, и у вас нет выбора.
Kenneth Baltrinic 02 май 2014, в 03:31
1

Вот реализация Javascript алгоритма Фрэнка
pilau 23 нояб. 2014, в 11:00
18

Regex - ПРАВИЛЬНЫЙ инструмент для работы. Этот ответ не прав. Смотрите ответ rogal111.
Andrew 26 дек. 2015, в 02:48
0

Рекурсия Regex, безусловно, может и должна использоваться в этом сценарии.
Phil Tune 07 март 2016, в 20:28
3

Абсолютно согласен с ответом. Хотя в regexp есть несколько реализаций рекурсии, они равны конечным автоматам и не предназначены для работы с вложенными структурами, но это делают контекстно-свободные грамматики. Посмотрите на иерархию формальных грамматик Хомского.
Nick Roz 20 апр. 2016, в 10:52
0

Франк прав, контекстно-свободные грамматики не могут быть описаны с помощью регулярных выражений. Это ключевой момент к этому ответу.
juliccr 18 июль 2017, в 22:07

Показать ещё 6 комментариев