C ++ - регулярное выражение STD вылетает в MSVC во время длинного многострочного соответствия

Question

C ++ - регулярное выражение STD вылетает в MSVC во время длинного многострочного соответствия

0

Я пытаюсь извлечь /*... */ комментарии стиля из исходных файлов, используя std :: regex. Но "regex_search" иногда приводит к сбоям (необработанное исключение) при длинных совпадениях, охватывающих несколько строк.

Пример STD (не работает)

Этот пример падает для меня:

#include <iostream>
#include <regex>

int main()
{
    std::string in = "/*\naaa\naaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaa\naaaaaaaaa\n*/";
    std::regex e(".*/\\*(\n|.)*?\\*/");
    std::smatch m;

    while (std::regex_search(in, m, e))
    {
        std::cout << m[0].str() << std::endl;

        in = m.suffix();
    }

    return 0;
}

Я использую Visual Studio 2013, поэтому это может быть проблемой, связанной с компилятором.

Изменить. Как отмечал @TC в комментариях, код работает под GCC 4.9, и он выдает исключение. Это может быть проблемой только для компилятора Visual C++, или просто потому, что GCC выделяет больший стек.

Пример Qt (рабочий)

Я пробовал реализовать то же самое в Qt без проблем, поэтому я не думаю, что допустил ошибки. Но я бы очень хотел не полагаться на какие-либо внешние библиотеки.

QRegularExpression re(".*/\\*(\n|.)*?\\*/");
QRegularExpressionMatchIterator it = re.globalMatch(QString(in.c_str()));
while (it.hasNext())
{
    QRegularExpressionMatch match = it.next();
    QString word = match.captured(0);
}

Вопрос

Возможно, это ошибка в реализации std :: regex? Я допустил ошибку?

Adelost 06 дек. 2014, в 12:21

Источник

0

У меня работает (clang ++ на OS X). Однако регулярное выражение "/\\*(\n|.)*\\*/" должно делать то же самое, я не прав?
tnull 06 дек. 2014, в 11:28
0

@tnull Первый .* выражения не важен для примера, но я использовал его, потому что хотел уловить уровень отступа комментария. А если я пропущу ? часть, то я думаю, что это будет захватывать несколько комментариев, таких как /* ... */ /* ... */ как один огромный комментарий.
Adelost 06 дек. 2014, в 11:38
2

GCC (4.8) от ideone не имеет полезной поддержки <regex> , поэтому то, что вы видите, неудивительно. Ваш код работает правильно с GCC 4.9 .
T.C. 06 дек. 2014, в 11:40
0

@TC Я вижу, тогда я удалю свою ссылку на ideone из вопроса, так как это вводит в заблуждение.
Adelost 06 дек. 2014, в 11:47
1

Мой VS2013 падает с переполнением стека в режиме отладки или с regex_error с кодом ошибки std::regex_constants::error_complexity в режиме выпуска
T.C. 06 дек. 2014, в 11:47

Показать ещё 3 комментария

Теги:

c++

regex

std

2 ответа

Ещё вопросы

У меня работает (clang ++ на OS X). Однако регулярное выражение "/\\*(\n|.)*\\*/" должно делать то же самое, я не прав?
@tnull Первый .* выражения не важен для примера, но я использовал его, потому что хотел уловить уровень отступа комментария. А если я пропущу ? часть, то я думаю, что это будет захватывать несколько комментариев, таких как /* ... */ /* ... */ как один огромный комментарий.
GCC (4.8) от ideone не имеет полезной поддержки <regex> , поэтому то, что вы видите, неудивительно. Ваш код работает правильно с GCC 4.9 .
@TC Я вижу, тогда я удалю свою ссылку на ideone из вопроса, так как это вводит в заблуждение.
Мой VS2013 падает с переполнением стека в режиме отладки или с regex_error с кодом ошибки std::regex_constants::error_complexity в режиме выпуска

Casimir et Hippolyte · Answer 1 · 2014-12-06T08-38-00.000Z

2

Я думаю, что это не проблема компилятора (если вы не используете gcc <4.9). Крушение регулярного выражения, потому что количество шагов для получения результата слишком велико. Попробуйте сделать то же самое с этим шаблоном:

/\\*[\\s\\S]*?\\*/

или с этим, который эмулирует притяжательный квантор:

/\\*(?=((?:[^*]+|\\*(?!/))*))\\1\\*/

(Эти два шаблона предназначены для работы с режимом ECMAScript, то есть, если я не ошибаюсь, режим по умолчанию вашего механизма регулярных выражений)

о вашем оригинальном шаблоне:

Первая ошибка заключается в том, чтобы начать свой шаблон с помощью .* (Это не требуется, так как вы используете метод regex_search). Поскольку квантификатор по умолчанию жадный, этот первый подшаблон будет соответствовать всем символам до конца каждой строки. После получения соответствия движок регулярного выражения должен возвращать символ по символу, пока не найдет /* в строке (обратите внимание, что если у вас несколько /* в одной строке, будет найдено только последнее).

Вторая ошибка - использовать что-то вроде (\\n|.)*? для описания всех символов до следующего (т.е. */).

Использование такого типа конструкции имеет несколько затрат:

вы используете группу захвата, поэтому вы оплачиваете стоимость хранения каждого символа (один за другим).
вы оплатили стоимость чередования, потому что большую часть времени . будет соответствовать, а \\n будет тестироваться ничем (однако это зависит от того, как выглядят ваши комментарии, но запись (?:.|\\n)*? может быть более эффективной).
наиболее важная стоимость, вероятно, заключается в том, что вы используете группу с не-жадным квантификатором, потому что она заставляет механизм регулярных выражений для всех символов вводить группу и оставлять группу для каждого символа. Без ленивого квантификатора в некотором двигателе регулярного выражения (?:a)+ a+ (?:a)+ может быть в 150 раз медленнее, чем a+

На вопрос, который вы задаете в комментариях, я дам вам общий ответ.

Да, количество шагов или шагов отступлений где-то ограничено. Если механизм регулярных выражений достаточно умен, во время предварительного анализа он может обнаружить, что шаблон заставит слишком много работать, прежде чем пытаться что-то сделать, но это не всегда так.

Чтобы точно знать, что происходит, вы можете поместить свой шаблон регулярного выражения в блок try/catch и проверить эти две ошибки:

if (e.code() == std::regex_constants::error_complexity)
    std::cerr << "The complexity of an attempted match against a regular expression exceeded a pre-set level.\n";
else if (e.code() == std::regex_constants::error_stack)
    std::cerr << "There was insufficient memory to determine whether the regular expression could match the specified character sequence.\n";

Casimir et Hippolyte 06 дек. 2014, в 08:38

0

Мне придется рассмотреть ваше предложение. Однако как «количество шагов для получения результата» может стать слишком высоким? Реализация с использованием буфера фиксированного размера. Есть ли способ узнать предел?
Adelost 06 дек. 2014, в 11:45
0

В библиотеке по-прежнему есть ошибка, связанная с тем, что стандарт не допускает сбоя реализации (с переполнением стека). Он должен regex_error и позволить пользователю восстановиться.
T.C. 06 дек. 2014, в 12:06
0

Большое спасибо за ваш ответ. Я узнал много нового о регулярных выражениях в процессе его чтения. Однако, хотя ´ \\ S´ работает с захватом «новой строки», например, на regexpal.com, в реализации STD этого не происходит, и ваш эмулированный притяжательный квантификатор по-прежнему вызывает «исключение переполнения стека», как упомянуто @ TC. Кроме того, шаблон, по-видимому, не выбрасывает какой-либо "std :: regex_error" (даже если он, вероятно, должен генерировать что-то с "недостаточным объемом памяти"), так что это было что-то вроде красной сельди. Но теперь я буду уверенно использовать группы без захвата для повышения производительности.
Adelost 06 дек. 2014, в 14:15
0

Но, короче говоря, кажется, что нет никакого способа сопоставить шаблоны, которые я хочу использовать с использованием STD и использования компилятора Visual Studio 2013, так как ваше первое решение не захватывает многострочные комментарии, а ваше второе решение вызывает то же исключение переполнения стека, что и мое первое решение.
Adelost 06 дек. 2014, в 14:18
0

Хотя я не упоминаю об этом в примере, причина, по которой я начинаю шаблон с «/ *», заключается в том, что я хочу выяснить, на каком уровне отступа находится комментарий, так что он мне, вероятно, все еще понадобится, даже если это неудачно. он может захватывать несколько комментариев, а также код, не являющийся частью комментария.
Adelost 06 дек. 2014, в 14:28
0

Как уже упоминалось, я многое узнал об оптимизации моего регулярного выражения из вашего ответа. Но я все еще немного растерялся. Считаете ли вы, что я использовал regex неправильно, или вы согласны с тем, что использование моего или второго решения не должно приводить к исключению переполнения стека?
Adelost 06 дек. 2014, в 14:38
0

@Adelost: Второй шаблон (как и первый) работает хорошо, вы, вероятно, что-то упустили или это связано с версией gcc. Проверьте эти ссылки: melpon.org/wandbox/permlink/75n3Q9Bj1mjWEKsq melpon.org/wandbox/permlink/MhHY37bmq1lHf8Cl По моему мнению, второй способ гораздо более эффективен, в частности, когда шаблон не работает (например, если */ отсутствует, например) ,
Casimir et Hippolyte 06 дек. 2014, в 14:41
0

@Adelost: чтобы быть более понятным, \\S - это сокращенный класс символов, который содержит все символы, которые не являются пробелами. \\s содержит все пробелы (включая символ новой строки.)
Casimir et Hippolyte 06 дек. 2014, в 14:48
0

@Adelost: Если у вас нет доступа к версии> 4.9 gcc и вы решили использовать QT или boost в режиме perl, вы можете использовать: /\\*(?:[^*]+|\\*(?!/))*+\\*/ (так, собственнический квантификатор напрямую)
Casimir et Hippolyte 06 дек. 2014, в 15:05
0

Я не думаю, что я что-то пропустил. Я согласен, что ваше решение, вероятно, гораздо более эффективно. Но посмотрите, дело в том, что мой "пример STD", а также ваш "второй пример" выдают исключение переполнения стека в VS2013. Но под GCC ваши решения, как и мое оригинальное решение, «работает». Это мое оригинальное решение в GCC: melpon.org/wandbox/permlink/kQD0Gbpfl1vG97su
Adelost 06 дек. 2014, в 15:23
0

Также рассмотрите ваше первое решение. В GCC следующий код возвращает 4 совпадения, но на моем компьютере, на котором выполняется тот же код в Visual Studio, он возвращает только 2 совпадения: melpon.org/wandbox/permlink/wAPcLky80s9SzAkL Вероятно, вы правы в том, что «разрыв строки» обычно совпадает с \w . Но если вы попробуете это на сайте, таком как " regexpal.com ", вместо этого окажется, что вместо этого "разрыв строки" принадлежит \W , поэтому он не является строгим стандартом. Я думаю, что мы оба можем согласиться с тем, что это проблема с компилятором MSVC2013. :)
Adelost 06 дек. 2014, в 15:25
0

Но все еще остается вопрос, реализована ли версия GCC для regex_search полностью отличной от версии Microsoft C ++ или, если версия GCC также потерпит крах, если у нее будет меньший выделенный стек.
Adelost 06 дек. 2014, в 15:39
0

@Adelost: это «строгий стандарт», вы смешали \\s и \\w в своей голове, единственное различие, которое вы видите между языками и режимами, заключается в поддержке (или нет) символов Юникода. Посмотрите здесь наиболее распространенные сокращенные классы символов: регулярные выражения.info/shorthand.html . Я не знаю компилятор от Microsoft, но возможно, что он не обрабатывает некоторые сокращенные сокращенные классы, такие как \\S Таким образом, он игнорирует обратную косую черту и видит S как литерал.
Casimir et Hippolyte 06 дек. 2014, в 15:40
0

Ой, плохо! Я неправильно написал \W я хотел написать \S Но я не ошибся. Если вы напишите [\S]* в «regexpal», оно будет соответствовать чему-либо, кроме пробелов (включая «разрыв строки»). Но при ближайшем рассмотрении также выясняется, что запись [\s]* соответствует всему пробелу (включая «разрыв строки») в вашем примере, поэтому, возможно, вы поймете, почему я был сбит с толку.
Adelost 06 дек. 2014, в 15:54
0

Я бы никогда не попытался получить доступ к контейнеру совпадений по индексу, не проверив, пуст он или нет. Да, спецификации regex говорят, что если regex_search возвращает true, оно не должно быть пустым, но примеры повторяют просмотр совпадений smatch.size (): en.cppreference.com/w/cpp/regex/regex_search
Alexander V 06 дек. 2014, в 15:58
0

@AlexanderVX Спасибо AlexanderVX, возможно, было бы полезно знать об этом, но исключение выдается в «regex_search», поэтому оно не может быть частью настоящей проблемы.
Adelost 06 дек. 2014, в 16:12
0

@Adelost, как насчет распечатать фактическое сообщение об исключении: cplusplus.com/reference/regex/regex_error Я хочу поймать его и проанализировать, что там.
Alexander V 06 дек. 2014, в 16:18
0

@CasimiretHippolyte Я теперь заметил еще одно несоответствие под Microsoft C ++. Если я пишу выражение как [\\s\\S] оно полностью игнорирует часть \s , но если я переписываю его как (?:\\s|\\S) оно работает нормально, и я получаю "" и " \ n "персонажи! Таким образом, кажется, что обратная косая черта не игнорируется, но в компиляторе определенно есть странные вещи.
Adelost 06 дек. 2014, в 16:20
0

@AlexanderVX Странно, но я не могу поймать исключение, которое даже не срабатывает catch (...) . Возможно, не возможно восстановить после исключения переполнения? Полное сообщение об ошибке, если вас заинтересовало бы следующее Unhandled exception at 0x76EEDDB3 (ntdll.dll) in UnitTests.exe: 0xC00000FD: Stack overflow (parameters: 0x00000001, 0x00652FF4) .
Adelost 06 дек. 2014, в 16:34
0

Переполнение стека, я вижу.
Alexander V 06 дек. 2014, в 16:39

Показать ещё 18 комментариев

user484068 · Answer 2 · 2015-05-08T14-32-00.000Z

Хех. Недавно у меня была такая же проблема с моим статическим аналитическим кодом. Итак, вот решение, хотя оно и полагается на стороннюю библиотеку (мой):

// http://www.benhanson.net/lexertl.html
#include <lexertl/generator.hpp>
#include <lexertl/iterator.hpp>

int main()
{
    std::string in = "/*\naaa\naaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\naaaaaaaaaaaaaaaaa\naaaaaaaaa\naaaaaaaaa\naaaaaaaaa\n*/";
    lexertl::rules rules;
    lexertl::state_machine sm;

    rules.push("[/][*](\n|.)*?[*][/]", 1);
    rules.push(".|\n", rules.skip());
    lexertl::generator::build(rules, sm);

    lexertl::citerator iter(in.c_str(), in.c_str() + in.size(), sm);
    lexertl::citerator end;

    for (; iter != end; ++iter)
    {
        std::cout << iter->str() << std::endl;
    }

    return 0;
}

Я также заметил, что std::regex e(".*/\\*[\\x00-\\xff]*?\\*/"); тоже работает