Как сопоставить «что-нибудь до этой последовательности символов» в регулярном выражении?

Question

Как сопоставить «что-нибудь до этой последовательности символов» в регулярном выражении?

246

Возьмем это регулярное выражение: /^[^abc]/. Это будет соответствовать любому одиночному символу в начале строки, кроме a, b или c.

Если вы добавите * после него - /^[^abc]*/ - регулярное выражение будет продолжать добавлять каждый последующий символ к результату, пока не встретит либо a, или b, или c.

Например, с исходной строкой "qwerty qwerty whatever abc hello" выражение будет соответствовать "qwerty qwerty wh".

Но что, если я хочу, чтобы строка соответствия была "qwerty qwerty whatever "

... Другими словами, как я могу сопоставить все до (но не включая) точную последовательность "abc"?

callum 19 авг. 2011, в 16:04

Источник

0

Что вы подразумеваете под match but not including ?
Toto 19 авг. 2011, в 16:53
4

Я имею в виду, что я хочу соответствовать "qwerty qwerty whatever " - не включая "abc". Другими словами, я не хочу, чтобы полученное совпадение было "qwerty qwerty whatever abc" .
callum 19 авг. 2011, в 17:03
0

В javascript вы можете просто do string.split('abc')[0] . Конечно, не официальный ответ на эту проблему, но я нахожу это более простым, чем регулярное выражение.
Wylliam Judd 23 май 2018, в 17:45
2

@Wylliam Джадд - Если бы все было в Javascript, а? :)
Jack_Hu 24 сен. 2018, в 21:49

Показать ещё 2 комментария

Теги:

regex

9 ответов

68

Если вы хотите захватить все до "abc":

/^(.*?)abc/

Пояснение:

( ) захватить выражение внутри круглых скобок для доступа с помощью $1, $2 и т.д.

^ соответствует началу строки

.* соответствовать чему-либо, ? не жадному (соответствует минимальному количеству символов) - [1]

[1] Причина, по которой это необходимо, заключается в том, что в противном случае в следующей строке:

whatever whatever something abc something abc

по умолчанию, регулярные выражения являются жадными, то есть они будут соответствовать как можно больше. Поэтому /^.*abc/ будет соответствовать "независимо от чего-то что-то". Добавление не-жадного квантификатора ? делает регулярное выражение только "независимо от чего-то".

Jared Ng 19 авг. 2011, в 17:09

2

Спасибо, но ваш один действительно включает Азбуки в матче. Другими словами, полученное совпадение - «что угодно, что-то, abc».
callum 19 авг. 2011, в 17:05
1

Не могли бы вы объяснить, что вы в конечном итоге пытаетесь сделать? Если ваш сценарий: (A) Вы хотите получить все, что приводит к «abc» - просто используйте скобки вокруг того, что вы хотите захватить. (B) Вы хотите сопоставить строку с «abc» - вы все равно должны проверить abc, поэтому она должна быть частью регулярного выражения независимо от этого. Как еще можно проверить, что это там?
Jared Ng 19 авг. 2011, в 17:09
0

Кажется, что sed не поддерживает не жадное сопоставление и не поддерживает обзор ( (?=...) ). Что еще я могу сделать? Пример команды: echo "ONE: two,three, FOUR FIVE, six,seven" | sed -n -r "s/^ONE: (.+?), .*/\1/p" возвращает two,three, FOUR FIVE , но я ожидаю two,three ...
CoDEmanX 23 авг. 2015, в 14:52
1

@CoDEmanX Вы, вероятно, должны опубликовать это как отдельный вопрос, а не как комментарий, тем более что речь идет именно о sed. При этом, чтобы ответить на ваш вопрос: вы можете посмотреть на ответы на этот вопрос . Также обратите внимание, что в вашем примере не жадный осведомленный интерпретатор вернул бы только two , а не two,three .
Jared Ng 29 авг. 2015, в 19:27
0

Вы правы, спасибо за ссылку, хотя. Почему бы вернуть только two ? Есть запятая в two,three , но без пробела.
CoDEmanX 29 авг. 2015, в 19:35
0

Ой, ты прав. Я пропустил место в вашем регулярном выражении. Подтвердил это: echo "ONE: two,three, FOUR FIVE, six,seven" | perl -pe 's/^ONE: (.+?), .*/\1/' дает two,three
Jared Ng 30 авг. 2015, в 03:53
2

Вот как должен выглядеть КАЖДЫЙ ответ регулярного выражения - пример и объяснение всех частей ...
jave.web 01 сен. 2016, в 14:20
0

в блокноте ++ (. *) abc найдет что-нибудь перед "abc", включая abc
demian 22 сен. 2016, в 13:17
0

«Жадное» упоминание было очень полезно, спасибо! Я так долго занимался жадным регулярным выражением, время менять.
Bilbo 10 май 2017, в 19:47
0

Как мы можем поставить условие ИЛИ здесь? то есть проверьте abc или xyz?
MasterJoe2 01 июнь 2017, в 22:21

Показать ещё 8 комментариев

15

Как отмечали @Jared Ng и @Issun, ключ для решения такого типа RegEx, как "сопоставление всего до определенного слова или подстроки" или "сопоставление всего после определенного слова или подстроки" называется "lookaround" zero -length. Подробнее о них здесь.

В вашем конкретном случае это может быть разрешено положительным взглядом. Одна картинка стоит тысячи слов. См. Подробное объяснение на снимке экрана.

Devy 21 сен. 2015, в 19:57

8

Что вам нужно, посмотрите вокруг утверждения вроде .+? (?=abc).

Смотрите: Утверждения с нулевой длиной Lookahead и Lookbehind

Помните, что [abc] не совпадает с abc. Внутри скобок это не строка - каждый символ является лишь одной из возможностей. За пределами скобок она становится строкой.

aevanko 19 авг. 2011, в 19:07

1

Для regex в Java, и я верю также в большинство движков регулярных выражений, если вы хотите включить последнюю часть, это будет работать:

.+?(abc)

Например, в этой строке:

I have this very nice senabctence

выберите все символы до "abc", а также включите abc

используя наше регулярное выражение, результат будет: I have this very nice senabc

Проверьте это: https://regex101.com/r/mX51ru/1

707 30 нояб. 2016, в 09:38

0

Это будет иметь смысл в отношении регулярного выражения.

Точное слово можно получить из следующей команды regex:

( "(. *?)" )/Г

Здесь мы можем получить точное слово глобально, которое входит в двойные кавычки. Например, Если наш текст поиска,

Это пример слов с двойными кавычками

то мы получим "двойное кавычку" из этого предложения.

Ponmurugan Mohanraj 25 май 2017, в 07:24

0

Добро пожаловать в StackOverflow и спасибо за вашу попытку помочь. Однако мне трудно понять, как это помогает цели, изложенной в вопросе. Можете ли вы уточнить? Можете ли вы применить его к приведенным примерам? Вы, кажется, сосредоточены на обработке " , что мне кажется несущественным для вопроса.
Yunnosch 25 май 2017, в 07:07
0

Привет, я объяснил, как получить слово или предложения между специальными символами. Здесь наш вопрос также «что-нибудь, пока последовательность специальных символов». поэтому я попытался с двойными кавычками и объяснил это здесь. Благодарю.
Ponmurugan Mohanraj 25 май 2017, в 09:08

0

Я считаю, что вам нужны подвыражения. Если я правильно помню, вы можете использовать обычные скобки () для подвыражений.

Эта часть из руководства grep:

 Back References and Subexpressions
       The back-reference \n, where n is a single digit, matches the substring
       previously matched  by  the  nth  parenthesized  subexpression  of  the
       regular expression.

Сделайте что-то вроде ^[^(abc)], чтобы сделать трюк.

Software Mechanic 19 авг. 2011, в 17:56

0

Извините, это не работает. Ввод букв в скобках, похоже, не имеет никакого значения. Они по-прежнему рассматриваются как «ИЛИ b ИЛИ c».
callum 19 авг. 2011, в 17:04

-2

попробуйте это

.+?efg

Запрос:

select REGEXP_REPLACE ('abcdefghijklmn','.+?efg', '') FROM dual;

вывод:

hijklmn

Balakrishna Gondesi 28 окт. 2016, в 14:18

-2

$ обозначает конец строки, поэтому что-то вроде этого должно работать: [[^abc]*]$, где вы ищете что-то НЕ ЗАВЕРШЕНО в любой итерации abc, но это должно быть в конце

Также, если вы используете язык сценариев с регулярным выражением (например, php или js), у них есть функция поиска, которая останавливается, когда она впервые встречает шаблон (и вы можете указать начало слева или начинать с правой стороны, или с php, вы можете сделать imode для зеркалирования строки).

jacob 19 авг. 2011, в 17:44

Ещё вопросы

Что вы подразумеваете под match but not including ?
Я имею в виду, что я хочу соответствовать "qwerty qwerty whatever " - не включая "abc". Другими словами, я не хочу, чтобы полученное совпадение было "qwerty qwerty whatever abc" .
В javascript вы можете просто do string.split('abc')[0] . Конечно, не официальный ответ на эту проблему, но я нахожу это более простым, чем регулярное выражение.
@Wylliam Джадд - Если бы все было в Javascript, а? :)
Спасибо, но ваш один действительно включает Азбуки в матче. Другими словами, полученное совпадение - «что угодно, что-то, abc».
Не могли бы вы объяснить, что вы в конечном итоге пытаетесь сделать? Если ваш сценарий: (A) Вы хотите получить все, что приводит к «abc» - просто используйте скобки вокруг того, что вы хотите захватить. (B) Вы хотите сопоставить строку с «abc» - вы все равно должны проверить abc, поэтому она должна быть частью регулярного выражения независимо от этого. Как еще можно проверить, что это там?
Кажется, что sed не поддерживает не жадное сопоставление и не поддерживает обзор ( (?=...) ). Что еще я могу сделать? Пример команды: echo "ONE: two,three, FOUR FIVE, six,seven" | sed -n -r "s/^ONE: (.+?), .*/\1/p" возвращает two,three, FOUR FIVE , но я ожидаю two,three ...
@CoDEmanX Вы, вероятно, должны опубликовать это как отдельный вопрос, а не как комментарий, тем более что речь идет именно о sed. При этом, чтобы ответить на ваш вопрос: вы можете посмотреть на ответы на этот вопрос . Также обратите внимание, что в вашем примере не жадный осведомленный интерпретатор вернул бы только two , а не two,three .
Вы правы, спасибо за ссылку, хотя. Почему бы вернуть только two ? Есть запятая в two,three , но без пробела.
Ой, ты прав. Я пропустил место в вашем регулярном выражении. Подтвердил это: echo "ONE: two,three, FOUR FIVE, six,seven" | perl -pe 's/^ONE: (.+?), .*/\1/' дает two,three
Вот как должен выглядеть КАЖДЫЙ ответ регулярного выражения - пример и объяснение всех частей ...
в блокноте ++ (. *) abc найдет что-нибудь перед "abc", включая abc
«Жадное» упоминание было очень полезно, спасибо! Я так долго занимался жадным регулярным выражением, время менять.
Как мы можем поставить условие ИЛИ здесь? то есть проверьте abc или xyz?
Добро пожаловать в StackOverflow и спасибо за вашу попытку помочь. Однако мне трудно понять, как это помогает цели, изложенной в вопросе. Можете ли вы уточнить? Можете ли вы применить его к приведенным примерам? Вы, кажется, сосредоточены на обработке " , что мне кажется несущественным для вопроса.
Привет, я объяснил, как получить слово или предложения между специальными символами. Здесь наш вопрос также «что-нибудь, пока последовательность специальных символов». поэтому я попытался с двойными кавычками и объяснил это здесь. Благодарю.
Извините, это не работает. Ввод букв в скобках, похоже, не имеет никакого значения. Они по-прежнему рассматриваются как «ИЛИ b ИЛИ c».

sidyll · Accepted Answer · 2011-08-19T18-27-00.000Z

Вы не указали, какой аромат регулярного выражения вы используете, но это будет работать в любом из самых популярных, которые можно считать "полными".

/.+?(?=abc)/

Как это работает

Часть .+? - это нежелательная версия .+ (одна или несколько что-нибудь). Когда мы используем .+, двигатель будет в основном соответствовать всем. Затем, если в регулярном выражении есть что-то еще, он вернется по шагам пытаясь соответствовать следующей части. Это поведение жадного, что означает как можно больше, чтобы удовлетворить.

При использовании .+? вместо одновременного совпадения и возврата другие условия (если они есть), двигатель будет соответствовать следующим символам шаг, пока последующая часть регулярного выражения не будет сопоставлена (опять же, если таковая имеется). Это un-greedy, что означает соответствие максимально возможного удовлетворяют условию.

/.+X/  ~ "abcXabcXabcX"        /.+/  ~ "abcXabcXabcX"
          ^^^^^^^^^^^^                  ^^^^^^^^^^^^

/.+?X/ ~ "abcXabcXabcX"        /.+?/ ~ "abcXabcXabcX"
          ^^^^                          ^

После этого мы имеем (?= {contents} ), нулевую ширину утверждение, взгляд вокруг. Эта сгруппированная конструкция соответствует содержимое, но не считается совпадающим символом (нулевая ширина). Это возвращается только в случае совпадения (утверждение).

Таким образом, другими словами, регулярное выражение /.+?(?=abc)/ означает:

Сопоставьте любые символы как можно меньше, пока не будет найдено "abc", без учета "abc".

Это, вероятно, не будет работать с переносами строк, если они должны быть захвачены.
Отличное описание функциональности кода.
@ robbie0630 + означает 1 или более, где * означает 0 или более. Включение / исключение ? сделает его жадным или не жадным.
Как мы можем поставить условие ИЛИ здесь? то есть проверьте abc или xyz?
@ JohnWrensby- Спасибо. Это. +? (? <= Abc | xyz) также дает мне текст abc / xyz.
Я пытался использовать sed на Mac, но не поддерживает использование "?" таким образом, я перешел на Perl.
Это не работает в мультилинии. Вопрос требует "что-нибудь"
@AbhinandanDubey вы можете заменить. с [^], и это будет работать.
@einord Если вам нужно работать с переносами строк, вы можете добавить флаг / s к своему регулярному выражению.
Я заметил, что ничего не выбирается, если шаблон, который вы ищете, не существует, вместо этого, если вы используете ^(?:(?!abc)(?!def).)* Вы можете связать, чтобы исключить шаблоны, которых вы не хотите, и он все равно будет захватывать все по мере необходимости, даже если шаблон не существует
как насчет пробела или пробела? что такое RegEx для этого?