Можно ли использовать регулярные выражения для сопоставления с вложенными шаблонами? [Дубликат]

Question

Можно ли использовать регулярные выражения для сопоставления с вложенными шаблонами? [Дубликат]

216

Можно ли написать регулярное выражение, которое соответствует вложенному шаблону, который встречается неизвестным числом раз? Например, может ли регулярное выражение соответствовать открывающей и закрывающейся скобке, если в внешних фигурных скобках имеется неизвестное количество открытых/закрывающих скобок?

Например:

public MyMethod()
{
  if (test)
  {
    // More { }
  }

  // More { }
} // End

Должно соответствовать:

{
  if (test)
  {
    // More { }
  }

  // More { }
}

Richard Dorman 25 сен. 2008, в 15:58

Источник

23

Чтобы однозначно ответить на этот вопрос, сначала нужно определить термин: «регулярное выражение».
ridgerunner 15 март 2011, в 02:58
3

Из книг регулярные выражения не могут сделать это, но выражения без контекста могут. Из инструментов современные парсеры выражений будут вызывать regular expression чем-то, использующим внешний стек, то есть способным возвращаться назад, то есть способным к повторению: на практике это context-free expressions зависящие от context-free expressions и поэтому вы можете сделать это как однострочник с simili- PCRE2 (PHP, Java, .NET, Perl, ...) или ICU- совместимые (Obj-C / Swift) инструменты, часто с синтаксисом (?>...) , или альтернативы, такие как (?R) или (?0) синтаксис.
Cœur 05 авг. 2015, в 07:38

Теги:

regex

nested

finite-automata

13 ответов

33

Возможно, работающее решение Perl, если строка находится в одной строке:

my $NesteD ;
$NesteD = qr/ \{( [^{}] | (??{ $NesteD }) )* \} /x ;

if ( $Stringy =~ m/\b( \w+$NesteD )/x ) {
    print "Found: $1\n" ;
  }

НТН

РЕДАКТИРОВАТЬ: проверить:

http://dev.perl.org/perl6/rfc/145.html
информация о рубине: http://www.ruby-forum.com/topic/112084
more perl: http://www.perlmonks.org/?node_id=660316
еще больше perl: https://metacpan.org/pod/Text::Balanced
perl, perl, perl: http://perl.plover.com/yak/regex/samples/slide083.html

И еще одна вещь Torsten Marek (кто правильно указал, что это не регулярное выражение):

http://coding.derkeiler.com/Archive/Perl/comp.lang.perl.misc/2008-03/msg01047.html

Zsolt Botykai 25 сен. 2008, в 16:25

9

Ага. «Регулярные выражения» в Perl - нет (и не очень давно). Следует отметить, что рекурсивные регулярные выражения являются новой функцией в Perl 5.10 и что даже если вы можете сделать это, вам, вероятно, не следует делать это в большинстве случаев, которые обычно встречаются (например, при разборе HTML).
Michael Carman 25 сен. 2008, в 15:09
0

perldoc.perl.org/perlretut.html
Brad Gilbert 16 окт. 2008, в 16:30

30

Использование регулярных выражений для проверки вложенных шаблонов очень просто.

'/(\((?>[^()]+|(?1))*\))/'

MichaelRushton 03 окт. 2010, в 18:49

2

Согласен. Однако одна проблема с синтаксисом атомарной группы (?>...) (в PHP 5.2) заключается в том, что часть ?> Интерпретируется как: «конец сценария»! Вот как бы я это написал: /$(?:[^()]++|(?R))*+$/ . Это немного более эффективно для сопоставления и несоответствия. В своей минимальной форме /$([^()]|(?R))*$/ это действительно прекрасная вещь!
ridgerunner 12 март 2011, в 06:35
1

Двойной +? Я использовал (?1) чтобы комментарии были в другом тексте (я разорвал его и упростил из регулярного выражения моего адреса электронной почты). И (?> Был использован, потому что я считаю, что это заставляет его работать быстрее (если требуется). Это не правильно?
MichaelRushton 19 март 2011, в 12:27
7

Можете ли вы добавить объяснение для каждой части регулярного выражения?
Dwayne 15 янв. 2015, в 18:01
0

Для строки '(a (bc)) (de)' использование простого выражения '/$[^()]*$/' дает мне тот же результат. Есть ли преимущества для вашего длинного выражения?
Cœur 13 окт. 2015, в 07:38
0

Попробуйте использовать /^($(?>[^()]+|(?1))*$)+$/ и /^$[^()]*$+$/ для сопоставления (a (bc))(de) . Первые совпадают, а последние нет.
MichaelRushton 13 окт. 2015, в 09:16
0

@MichaelRushton ваше решение отлично сработало для меня. Но мне просто интересно, в чем разница ?> И ?: ? Пробовал с ними обоими, и все они, кажется, работают.
elquimista 01 фев. 2016, в 15:18
0

Это делает его атомной группой и используется для предотвращения катастрофического возврата .
MichaelRushton 01 фев. 2016, в 18:58
0

Как насчет большего объяснения, чем "Это очень легко" ... это регулярное выражение - бред
Tofandel 29 март 2019, в 02:51

Показать ещё 6 комментариев

18

Да, если это .NET RegEx-движок..Net поддерживает конечный конечный автомат, поставляемый с внешним стеклом. см. подробности

Pavlush 05 дек. 2008, в 07:18

9

Как уже упоминали другие, .NET не единственный способный движок регулярных выражений, чтобы сделать это.
Ben S 15 март 2010, в 00:18

14

Лекция о перекачке для правильных языков - причина, по которой вы не можете этого сделать.

Сгенерированный автомат будет иметь конечное число состояний, скажем k, поэтому строка из k + 1 открывающих фигурных скобок связана с тем, что состояние повторяется где-то (поскольку автомат обрабатывает символы). Часть строки между одним и тем же состоянием может быть продублирована бесконечно много раз, и автомат не узнает разницу.

В частности, если он принимает k + 1 открывающих скобок, за которыми следуют k + 1 закрывающие скобки (что он должен), он также примет количество накачиваемых открывающих фигурных скобок, за которым следуют неизменные k + 1 замыкающие браки (что не должно).

Rafał Dowgird 25 сен. 2008, в 15:46

12

Правильные регулярные выражения не смогут сделать это, так как вы покинете область обычных языков для приземления на территориях контекстного свободного языка.

Тем не менее, пакеты "регулярного выражения", предлагаемые многими языками, являются более мощными.

Например, Lua в регулярных выражениях есть распознаватель <%b(), который будет соответствовать сбалансированным скобкам. В вашем случае вы будете использовать "%b{}"

Другим сложным инструментом, похожим на sed, является gema, где вы легко сопоставляете сбалансированные фигурные фигурные скобки с помощью {#}.

Итак, в зависимости от инструментов, которые у вас есть, ваше "регулярное выражение" (в более широком смысле) может соответствовать вложенным скобкам.

Remo.D 25 сен. 2008, в 15:58

5

Использование рекурсивного соответствия в PHP-регулярном выражении значительно быстрее процедурного соответствия скобок. особенно с более длинными строками.

http://php.net/manual/en/regexp.reference.recursive.php

например.

$patt = '!\( (?: (?: (?>[^()]+) | (?R) )* ) \)!x';

preg_match_all( $patt, $str, $m );

против.

matchBrackets( $str );

function matchBrackets ( $str, $offset = 0 ) {

    $matches = array();

    list( $opener, $closer ) = array( '(', ')' );

    // Return early if there no match
    if ( false === ( $first_offset = strpos( $str, $opener, $offset ) ) ) {
        return $matches;
    }

    // Step through the string one character at a time storing offsets
    $paren_score = -1;
    $inside_paren = false;
    $match_start = 0;
    $offsets = array();

    for ( $index = $first_offset; $index < strlen( $str ); $index++ ) {
        $char = $str[ $index ];

        if ( $opener === $char ) {
            if ( ! $inside_paren ) {
                $paren_score = 1;
                $match_start = $index;
            }
            else {
                $paren_score++;
            }
            $inside_paren = true;
        }
        elseif ( $closer === $char ) {
            $paren_score--;
        }

        if ( 0 === $paren_score ) {
            $inside_paren = false;
            $paren_score = -1;
            $offsets[] = array( $match_start, $index + 1 );
        }
    }

    while ( $offset = array_shift( $offsets ) ) {

        list( $start, $finish ) = $offset;

        $match = substr( $str, $start, $finish - $start );
        $matches[] = $match;
    }

    return $matches;
}

Pete B 17 сен. 2012, в 09:08

3

Как упоминалось в zsolt, некоторые двигатели регулярных выражений поддерживают рекурсию - конечно, обычно это те, которые используют алгоритм обратного отслеживания, поэтому он не будет особенно эффективен. Пример: /(?>[^{}]*){(?>[^{}]*)(?R)*(?>[^{}]*)}/sm

sirnotappearingonthissite 25 сен. 2008, в 16:02

2

ДА

... предполагая, что есть некоторое максимальное количество гнезд, с которыми вы были бы счастливы остановиться.

Позволь мне объяснить.

@torsten-marek прав, что регулярное выражение не может проверять вложенные шаблоны, подобные этому, НО можно определить вложенный шаблон регулярного выражения, который позволит вам фиксировать вложенные структуры, подобные этому, до некоторой максимальной глубины. Я создал один, чтобы записать комментарии в стиле EBNF (попробуйте здесь), например:

(* This is a comment (* this is nested inside (* another level! *) hey *) yo *)

Регулярное выражение (для комментариев с одной глубиной) выглядит следующим образом:

m{1} = \(+\*+(?:[^*(]|(?:\*+[^)*])|(?:\(+[^*(]))*\*+\)+

Это можно легко адаптировать для ваших целей, заменив $+\*+ и \*+$+ на { и } и заменив все между простыми [^{}]:

p{1} = \{(?:[^{}])*\}

(Здесь ссылка, чтобы попробовать это.)

Чтобы гнездо, просто разрешите этот шаблон внутри самого блока:

p{2} = \{(?:(?:p{1})|(?:[^{}]))*\}
  ...or...
p{2} = \{(?:(?:\{(?:[^{}])*\})|(?:[^{}]))*\}

Чтобы найти тройные вложенные блоки, используйте:

p{3} = \{(?:(?:p{2})|(?:[^{}]))*\}
  ...or...
p{3} = \{(?:(?:\{(?:(?:\{(?:[^{}])*\})|(?:[^{}]))*\})|(?:[^{}]))*\}

Появилась ясная картина. Чтобы найти комментарии, вложенные в глубину N, просто используйте регулярное выражение:

p{N} = \{(?:(?:p{N-1})|(?:[^{}]))*\}

  where N > 1 and
  p{1} = \{(?:[^{}])*\}

Сценарий можно записать для рекурсивного генерации этих регулярных выражений, но это выходит за рамки того, что мне нужно для этого. (Это остается как упражнение для читателя. )

awwsmm 28 март 2018, в 12:36

2

Нет, вы попадаете в область Контекстные бесплатные грамматики в этой точке.

Craig H 25 сен. 2008, в 14:49

0

Мой вопрос + ответ связан, и я делаю выражение и мета-выражение, которое может соответствовать произвольным (конечным) уровням вложенности. Это довольно изящно, но что еще вы можете ожидать? Используйте обратные ссылки в матче, если ваш движок поддерживает его.

Steven Lu 17 апр. 2013, в 21:47

0

Это работает: /(\{(?:\{.*\}|[^\{])*\})/m

Sean Huber 01 апр. 2010, в 21:57

2

Кажется, он также соответствует {{} что не должно
Stijn Sanders 02 янв. 2014, в 06:52

-3

Нет. Вам нужен полноразмерный парсер для этого типа проблем.

Adam Rosenfield 25 сен. 2008, в 15:36

Ещё вопросы

Чтобы однозначно ответить на этот вопрос, сначала нужно определить термин: «регулярное выражение».
Из книг регулярные выражения не могут сделать это, но выражения без контекста могут. Из инструментов современные парсеры выражений будут вызывать regular expression чем-то, использующим внешний стек, то есть способным возвращаться назад, то есть способным к повторению: на практике это context-free expressions зависящие от context-free expressions и поэтому вы можете сделать это как однострочник с simili- PCRE2 (PHP, Java, .NET, Perl, ...) или ICU- совместимые (Obj-C / Swift) инструменты, часто с синтаксисом (?>...) , или альтернативы, такие как (?R) или (?0) синтаксис.
Ага. «Регулярные выражения» в Perl - нет (и не очень давно). Следует отметить, что рекурсивные регулярные выражения являются новой функцией в Perl 5.10 и что даже если вы можете сделать это, вам, вероятно, не следует делать это в большинстве случаев, которые обычно встречаются (например, при разборе HTML).
Согласен. Однако одна проблема с синтаксисом атомарной группы (?>...) (в PHP 5.2) заключается в том, что часть ?> Интерпретируется как: «конец сценария»! Вот как бы я это написал: /$(?:[^()]++|(?R))*+$/ . Это немного более эффективно для сопоставления и несоответствия. В своей минимальной форме /$([^()]|(?R))*$/ это действительно прекрасная вещь!
Двойной +? Я использовал (?1) чтобы комментарии были в другом тексте (я разорвал его и упростил из регулярного выражения моего адреса электронной почты). И (?> Был использован, потому что я считаю, что это заставляет его работать быстрее (если требуется). Это не правильно?
Можете ли вы добавить объяснение для каждой части регулярного выражения?
Для строки '(a (bc)) (de)' использование простого выражения '/$[^()]*$/' дает мне тот же результат. Есть ли преимущества для вашего длинного выражения?
Попробуйте использовать /^($(?>[^()]+|(?1))*$)+$/ и /^$[^()]*$+$/ для сопоставления (a (bc))(de) . Первые совпадают, а последние нет.
@MichaelRushton ваше решение отлично сработало для меня. Но мне просто интересно, в чем разница ?> И ?: ? Пробовал с ними обоими, и все они, кажется, работают.
Это делает его атомной группой и используется для предотвращения катастрофического возврата .
Как насчет большего объяснения, чем "Это очень легко" ... это регулярное выражение - бред
Как уже упоминали другие, .NET не единственный способный движок регулярных выражений, чтобы сделать это.
Кажется, он также соответствует {{} что не должно

Torsten Marek · Accepted Answer · 2008-09-25T16-23-00.000Z

Нет. Это так просто. Конечный автомат (который является структурой данных, лежащей в основе регулярного выражения) не имеет памяти, кроме состояния, в котором он находится, и если у вас есть произвольно глубокое вложение, вам нужен произвольно большой автомат, который сталкивается с понятием конечного автомата.

Вы можете сопоставить вложенные/парные элементы с фиксированной глубиной, где глубина ограничена только вашей памятью, потому что автомат становится очень большим. На практике, однако, вы должны использовать push-down automaton, т.е. Синтаксический анализатор для контекстно-свободной грамматики, например LL (сверху вниз) или LR (снизу вверх). Вы должны учитывать худшее поведение во время выполнения: O (n ^ 3) по сравнению с O (n), с n = длина (ввод).

Существует много генераторов синтаксического анализатора, например ANTLR для Java. Найти существующую грамматику для Java (или C) также не сложно.
Для получения дополнительной информации: Теория автоматов в Википедии

Торстен прав в теории. На практике многие реализации имеют некоторые хитрости, чтобы позволить вам выполнять рекурсивные «регулярные выражения». Например, см. Главу «Рекурсивные шаблоны» в php.net/manual/en/regexp.reference.php.
Я избалован моим воспитанием в области обработки естественного языка и включенной в него теорией автоматов.
Освежающе ясный ответ. Лучшее «почему нет» я когда-либо видел.
Регулярные выражения в теории языка и регулярные выражения на практике - разные звери ... так как регулярные выражения не могут иметь таких тонкостей, как обратные ссылки, прямые ссылки и т. Д.
Конечный автомат (который является структурой данных, лежащей в основе регулярного выражения) не имеет памяти, кроме состояния, в котором он находится, и если у вас сколь угодно глубокая вложенность, вам нужен сколь угодно большой автомат, который сталкивается с понятием конечного автомата. - лучший ответ на эту тему я видел до сих пор
@TorstenMarek - можете ли вы подтвердить, что это все еще верно? Другие источники утверждают, что если механизм регулярных выражений поддерживает такие функции, как обратные ссылки, он становится грамматикой класса 2 (без контекста), а не классом 3 (обычная грамматика). Поэтому, например, PCRE - способен обрабатывать вложенные структуры. Путаница возникает из-за того, что «регулярные выражения» в реальном мире больше не являются регулярными в техническом смысле. Если это правильно, было бы здорово обновить этот ответ.
Есть способ сделать это, но это не будет просто регулярное выражение. Вам нужно сопоставить каждый экземпляр скобок / скобок / паренов (глобальный), а затем использовать некоторый язык программирования для рекурсивной замены / пометки вложенных совпадений в родительском элементе.
Этот ответ намного выше моей головы. И тогда я нашел работающее регулярное выражение: drregex.com/2017/11/match-nested-brackets-with-regex-new.html
Исправление ... это регулярное выражение работает в большинстве случаев :(