PHP регулярное выражение странное поведение

Question

PHP регулярное выражение странное поведение

1

Я разрабатывал простое регулярное выражение для анализа части URL-адреса, регулярное выражение должно уметь фиксировать часть URL-адреса в именованной группе, есть только несколько допустимых символов (a-z0-9 и -), если присутствуют другие символы regexp должен терпеть неудачу для данной строки, и захват не будет выполнен.

Но, как вы можете видеть на скриншоте, когда регулярное выражение обнаруживает знак%, он останавливается и захватывает часть перед ней (если она длиннее двух символов), результат остается без границ слов (\ b).

Я не могу понять, почему% действует как \n, и движок захватывает предыдущие символы и останавливает% не в разрешенном списке символов, поэтому он должен терпеть неудачу для этой строки... или нет?

Я тоже пробовал в реальном PHP-коде, с тем же результатом.

ИЗМЕНИТЬ 1:

Фактический код PHP:

if (preg_match('/fixed_url_part/\b(?P<codename>[a-z0-9-]{2,})\b', $url, $regs)) {
    return $regs['codename'];
}

SubniC 25 авг. 2015, в 19:24

Источник

2

Точный код в вопросе будет полезен. Похоже, что ваш заполнитель просто ищет буквенно-цифровые символы, за исключением % .
mario 25 авг. 2015, в 17:02
0

Я отредактировал ответ с помощью кода, но суть в том, почему с% он захватывает предыдущие символы и с, например, _ в строке, он терпит неудачу? почему не с ошибкой%?
SubniC 25 авг. 2015, в 17:16
2

Без конечной привязки (как указал @Halcyon) ваш шаблон соответствует только « до тех пор, пока » не найдет больше подходящих символов. И слово \b граница сохраняется при встрече с % .
mario 25 авг. 2015, в 17:23
0

Спасибо @mario, я не знал, что% был границей слова
SubniC 25 авг. 2015, в 19:14

Показать ещё 2 комментария

Теги:

php

regex

1 ответ

Ещё вопросы

Точный код в вопросе будет полезен. Похоже, что ваш заполнитель просто ищет буквенно-цифровые символы, за исключением % .
Я отредактировал ответ с помощью кода, но суть в том, почему с% он захватывает предыдущие символы и с, например, _ в строке, он терпит неудачу? почему не с ошибкой%?
Без конечной привязки (как указал @Halcyon) ваш шаблон соответствует только « до тех пор, пока » не найдет больше подходящих символов. И слово \b граница сохраняется при встрече с % .
Спасибо @mario, я не знал, что% был границей слова

Halcyon · Accepted Answer · 2015-08-25T15-25-00.000Z

Вы не сказали, чтобы он соответствовал всей линии. Добавьте $ чтобы он соответствовал концу.

^/fixed_url_part/\b(?P<codename>[a-z0-9\-]{2,})\b$
^-- match start of line                          ^-- match end of line

держать - также в группе, как хочет ОП.
Я также добавил бы ^ , на всякий случай. (Я полагаю, что abc/fixed_url_part/def должен потерпеть неудачу.)
С концом якоря строки ($) он работает нормально, но я хочу знать, почему с% в строке регулярное выражение захватывает часть этого, когда оно должно потерпеть неудачу (как это происходит, если символ _ вместо%) ,
Я думаю, что это из-за \b (границы слова). % считается границей слова, а _ - нет. Так что % вызывает \b вызывая совпадение.