Регулярное выражение для соответствия строке, которая не содержит слова?

Question

Регулярное выражение для соответствия строке, которая не содержит слова?

3715

Я знаю, что можно совместить слово, а затем разворачивать спички, используя другие инструменты (например, grep -v). Тем не менее, я хотел бы знать, возможно ли совпадение строк, которые не содержат конкретного слова (например, hede), с использованием регулярного выражения.

Input:

hoho
hihi
haha
hede

код:

grep "<Regex for 'doesn't contain hede'>" input

Требуемый вывод:

hoho
hihi
haha

knaser 02 янв. 2009, в 06:45

Источник

75

Вероятно, на пару лет позже, но что не так с: ([^h]*(h([^e]|$)|he([^d]|$)|hed([^e]|$)))* ? Идея проста. Продолжайте сопоставлять до тех пор, пока не увидите начало нежелательной строки, а затем сопоставляйте только в N-1 случаях, когда строка не завершена (где N - длина строки). Этими случаями N-1 являются «h, за которыми следует не-e», «он следует за не-d» и «hed, за которым следует не-e». Если вам удалось пропустить эти случаи N-1, вы не соответствовали нежелательной строке, поэтому вы можете снова начать поиск [^h]*
stevendesu 29 сен. 2011, в 03:44
279

@stevendesu: попробуйте это как «очень-очень-длинное слово» или даже лучше половину предложения. Весело печатать. Кстати, это почти не читается. Не знаю о влиянии на производительность.
Peter Schuetze 30 янв. 2012, в 18:45
13

@PeterSchuetze: Конечно, это не очень красиво для очень длинных слов, но это жизнеспособное и правильное решение. Хотя я не проводил тесты на производительность, я бы не подумал, что она слишком медленная, так как большинство последних правил игнорируются, пока вы не увидите h (или первую букву слова, предложения и т. Д.). И вы можете легко сгенерировать строку регулярного выражения для длинных строк, используя итеративную конкатенацию. Если это работает и может генерироваться быстро, важна ли разборчивость? Вот для чего нужны комментарии.
stevendesu 02 фев. 2012, в 03:14
52

@stevendesu: я даже позже, но этот ответ почти полностью неверен. с одной стороны, он требует, чтобы субъект содержал «h», чего не должно быть, учитывая, что задание «сопоставить строки, которые [не содержат] конкретного слова». давайте предположим, что вы хотели сделать внутреннюю группу необязательной, а шаблон привязан: ^([^h]*(h([^e]|$)|he([^d]|$)|hed([^e]|$))?)*$ это терпит неудачу, когда экземплярам "hede" предшествуют частичные экземпляры "hede", такие как в "hhede".
jaytea 10 сен. 2012, в 10:41
6

Этот вопрос был добавлен в FAQ по регулярным выражениям Stack Overflow в разделе «Advanced Regex-Fu».
aliteralmind 10 апр. 2014, в 01:30
0

Related: Regex: Сопоставление по исключению, без прогнозирования - возможно ли это?
jfs 07 дек. 2016, в 16:53

Показать ещё 4 комментария

Теги:

regex

regex-negation

regex-lookarounds

regex-group

regex-greedy

28 ответов

596

Обратите внимание, что решение не начинается с "hede" :

^(?!hede).*$

как правило, намного эффективнее, чем решение не содержит "hede" :

^((?!hede).)*$

Первая проверяет "hede" только на первой позиции входных строк, а не на каждой позиции.

JoshuaDavid 17 март 2011, в 04:46

4

Спасибо, я использовал его для проверки того, что строка не содержит последовательность цифр ^ ((?! \ D {5,}).) *
Samih A 10 май 2015, в 10:42
0

^((?!hede).)*$ работал на меня, используя плагин jQuery DataTable, чтобы исключить строку из набора данных
Alex 26 июнь 2015, в 10:34
2

Здравствуйте! Я не могу сочинять , не заканчивается "хеде" регулярное выражение. Вы можете помочь с этим?
Aleks Ya 18 окт. 2015, в 21:33
1

@AleksYa: просто используйте версию «Содержать» и включите конечный якорь в строку поиска: измените строку на «не совпадает» с «hede» на «hede $»
Nyerguds 04 май 2016, в 10:42
0

Чтобы сопоставить строки, которые не заканчиваются на «hede» , можно использовать ^.*(?!hede).{4} . Число в скобках должно соответствовать длине несоответствующего текста, который вы хотите (например, «hede» - это длина 4).
doubleDown 06 фев. 2017, в 06:09
0

Я действительно не получаю двойные скобки ... тоже не поняла объяснение выше ... Итак, первый набор говорит: "Убедитесь, что этого не существует впереди". но для чего второй набор?
carinlynchin 14 июль 2017, в 23:29
0

например ...: ^ (?! override) _ * labour_cost -> соответствует только "labour_cost" из следующих тестов ..... [default_labor_cost, testing_override, labour_cost, override_labor_cost]. Исходя из объяснений, приведенных выше, кажется, что я должен получить что-нибудь с необязательным _, за которым следует labour_cost ... поэтому у меня должно быть два прохода, но только один.
carinlynchin 14 июль 2017, в 23:40
1

@AleksYa: неоконченная версия может быть сделана с использованием отрицательного вида как: (.*)(?<!hede)$ . Версия @Nyerguds тоже подойдет, но совершенно не учитывает производительность, о которой говорится в ответе.
thisismydesign 14 сен. 2017, в 16:53
1

Почему так много ответов говорят ^((?!hede).)*$ ? Разве не эффективнее использовать ^(?!.*hede).*$ ? Он делает то же самое, но за меньшее количество шагов
JackPRead 15 янв. 2019, в 10:53

Показать ещё 7 комментариев

180

Если вы просто используете его для grep, вы можете использовать grep -v hede для получения всех строк, которые не содержат hede.

ETA О, перечитав вопрос, grep -v, вероятно, вы подразумеваете под "инструментальными опциями".

Athena 02 янв. 2009, в 08:31

18

Совет: для постепенной фильтрации того, что вам не нужно: grep -v "hede" | grep -v "хихи" | ...так далее.
Olivier Lalonde 05 май 2014, в 22:08
43

Или используя только один процесс grep -v -e hede -e hihi -e ...
Olaf Dietsche 26 апр. 2015, в 05:42
12

Или просто grep -v "hede\|hihi" :)
Putnik 09 дек. 2016, в 15:29
1

Если у вас есть много шаблонов, которые вы хотите отфильтровать, поместите их в файл и используйте файл grep -vf pattern_file file
codeforester 11 март 2018, в 18:35
0

Или просто egrep или grep -Ev "hede|hihi|etc" чтобы избежать неловкого побега.
Amit Naidu 03 июнь 2018, в 10:54

Показать ещё 3 комментария

129

Ответ:

^((?!hede).)*$

Объяснение:

^ начало строки, ( и захватить до \1 (0 или более раз (сопоставление максимально возможной суммы)),
(?! Посмотрите вперед, чтобы увидеть, нет ли этого,

hede ваша строка,

) конец ожидания, . любой символ кроме \n,
)* end of\1 (Примечание: поскольку вы используете квантификатор для этого захвата, только LAST повторение захваченного шаблона будет сохранено в \1)
$ перед необязательным \n, а конец строки

Jessica 10 май 2014, в 16:50

13

здорово, что у меня ^((?!DSAU_PW8882WEB2|DSAU_PW8884WEB2|DSAU_PW8884WEB).)*$ в возвышенном тексте 2, используя несколько слов ' ^((?!DSAU_PW8882WEB2|DSAU_PW8884WEB2|DSAU_PW8884WEB).)*$ '
Damodar Bashyal 11 авг. 2015, в 02:07
2

@DamodarBashyal Я знаю, что я довольно поздно здесь, но вы можете полностью удалить второй срок там, и вы получите точно такие же результаты
forresthopkinsa 12 июнь 2017, в 16:19

93

Данные ответы совершенно прекрасные, просто академические точки:

Регулярные выражения в значении теоретических компьютерных наук НЕ ДОЛЖНЫ делать это так. Для них это должно было выглядеть примерно так:

^([^h].*$)|(h([^e].*$|$))|(he([^h].*$|$))|(heh([^e].*$|$))|(hehe.+$)

Это соответствует только FULL. Выполнение этого для вспомогательных матчей было бы еще более неудобным.

Hades32 02 сен. 2011, в 16:36

1

Важно отметить, что в нем используются только основные регулярные выражения POSIX.2, и поэтому он более переносим, когда PCRE недоступен.
Steve-o 19 фев. 2014, в 17:25
5

Согласен. Многие, если не большинство регулярных выражений, не являются регулярными языками и не могут быть распознаны конечными автоматами.
ThomasMcLeod 22 март 2014, в 21:36
0

@ThomasMcLeod, Hades32: Находится ли в пределах возможного регулярного языка возможность говорить « не » и « и », а также « или » выражения, такого как « (hede|Hihi) »? (Это может быть вопрос для CS.)
James Haigh 13 июнь 2014, в 16:54
7

@JohnAllen: Я !!! … Ну, не фактическое регулярное выражение, а академическая справка, которая также тесно связана с вычислительной сложностью; PCRE принципиально не может гарантировать такую же эффективность, как регулярные выражения POSIX.
James Haigh 13 июнь 2014, в 17:04
0

@JamesHaigh, не <string> определенно регулярно, но имеет ли смысл? Задайте новый вопрос и сообщите мне в комментарии, и я постараюсь ответить на него.
ThomasMcLeod 13 июнь 2014, в 19:50
4

Извините - этот ответ просто не работает, он будет совпадать с хе-хе и даже частично совпадать с хе-хе (вторая половина)
Falco 13 авг. 2014, в 12:57
0

Это может быть синтаксически упрощено до ^([^h].*|h([^e].*)?|he([^h].*)?|heh([^e].*)?|hehe.+)$ или ^(([^h]|h[^e]|he[^h]|heh[^e]|hehe.).*|h|he|heh)$ .
Dukeling 13 июль 2015, в 18:59
0

Смотрите мой ответ о том, как это сделать для субматчей тоже. Что касается инвертирования RE, обратное всегда существует без дополнительных операторов. У Грааля есть инструмент для его поиска, который я использовал в своем ответе.
Pedro Gimeno 29 янв. 2018, в 21:59

Показать ещё 6 комментариев

51

Здесь хорошее объяснение, почему нелегко свести на нет произвольное регулярное выражение. Я должен согласиться с другими ответами, хотя: если это что-то другое, кроме гипотетического вопроса, тогда регулярное выражение здесь не является правильным выбором.

Josh Lee 02 янв. 2009, в 09:32

10

Некоторые инструменты, в частности mysqldumpslow, предлагают только такой способ фильтрации данных, поэтому в таком случае поиск регулярного выражения для этого является лучшим решением, кроме переписывания инструмента (различные исправления для этого не включены в MySQL AB / Sun). Оракул.
FGM 07 авг. 2012, в 12:21
1

Точно аналогично моей ситуации. Шаблонный движок Velocity использует регулярные выражения, чтобы решить, когда применять преобразование (escape html), и я хочу, чтобы он всегда работал, КРОМЕ в одной ситуации.
Henno Vermeulen 18 окт. 2013, в 14:43
1

Какая альтернатива есть? Я никогда не сталкивался с чем-то, что могло бы сделать точное соответствие строк, кроме регулярных выражений. Если OP использует язык программирования, могут быть доступны другие инструменты, но если он / она использует не пишущий код, другого выбора, вероятно, нет.
kingfrito_5005 20 окт. 2016, в 18:32
1

Один из многих негипотетических сценариев, где регулярное выражение - лучший доступный выбор: я нахожусь в IDE (Android Studio), которая показывает вывод журнала, и единственные предоставляемые инструменты фильтрации: простые строки и регулярное выражение. Попытка сделать это с простыми строками будет полным провалом.
LarsH 05 дек. 2016, в 16:11

Показать ещё 2 комментария

49

Если вы хотите, чтобы тест регулярного выражения завершился неудачей, только если вся строка совпадает, будет работать следующее:

^(?!hede$).*

Например, если вы хотите разрешить все значения, кроме "foo" (то есть "foofoo", "barfoo" и "foobar" пройдут, но "foo" завершится ошибкой), используйте: ^(?!foo$).*

Конечно, если вы проверяете точное равенство, лучшим общим решением в этом случае является проверка на равенство строк, т.е.

myStr !== 'foo'

Вы могли бы даже поставить отрицание вне теста, если вам нужны какие-либо функции регулярных выражений (здесь, нечувствительность к регистру и соответствие диапазона):

!/^[a-f]oo$/i.test(myStr)

Однако решение regex в верхней части этого ответа может быть полезным в ситуациях, когда требуется положительный тест regex (возможно, через API).

Roy Tinker 03 янв. 2013, в 22:34

0

как насчет конечных пробелов? Например, если я хочу, чтобы проверка " hede " неудачей со строкой " hede " ?
eagor 12 май 2017, в 09:45
0

@eagor директива \s соответствует одному символу пробела
Roy Tinker 12 май 2017, в 21:07
0

спасибо, но мне не удалось обновить регулярное выражение, чтобы сделать эту работу.
eagor 13 май 2017, в 19:22
1

@eagor: ^(?!\s*hede\s*$).*
Roy Tinker 15 май 2017, в 17:33

Показать ещё 2 комментария

43

FWIW, поскольку регулярные языки (ака рациональные языки) замкнуты относительно дополнения, всегда можно найти регулярное выражение (aka рациональное выражение), которое отрицает другое выражение. Но это не так много инструментов.

Vcsn поддерживает этот оператор (который он обозначает {c}, postfix).

Сначала вы определяете тип своих выражений: ярлыки - буква (lal_char) для выбора из a в z например (определение алфавита при работе с дополнением, конечно, очень важно), а "значение", рассчитанное для каждого слова, просто логическое: true слово принято, false, отклонено.

В Python:

In [5]: import vcsn
        c = vcsn.context('lal_char(a-z), b')
        c
Out[5]: {a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z} → ?

то вы вводите свое выражение:

In [6]: e = c.expression('(hede){c}'); e
Out[6]: (hede)^c

преобразуйте это выражение в автомат:

In [7]: a = e.automaton(); a

наконец, преобразуем этот автомат обратно в простое выражение.

In [8]: print(a.expression())
        \e+h(\e+e(\e+d))+([^h]+h([^e]+e([^d]+d([^e]+e[^]))))[^]*

где + обычно обозначается | , \e обозначает пустое слово, а [^] обычно записывается . (любой символ). Итак, с немного переписыванием ()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).*.

Вы можете увидеть этот пример здесь, и попробовать VCSN онлайн там.

akim 05 авг. 2015, в 08:06

5

Правда, но некрасиво и выполнимо только для небольших наборов символов. Вы не хотите делать это со строками Unicode :-)
reinierpost 08 нояб. 2015, в 23:43
0

Есть больше инструментов, которые позволяют это, одним из самых впечатляющих является Ragel . Там это будет записано как (any * - ('hehe' any *)) для начального совпадения или (any * - ('hehe' any *)) для невыровненного.
Peter K 18 нояб. 2016, в 15:09
1

@reinierpost: почему это некрасиво и в чем проблема с юникодом? Я не могу согласиться с обоими. (У меня нет опыта работы с vcsn, но есть с DFA).
Peter K 18 нояб. 2016, в 15:39
0

Регулярное выражение ()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).* Не работать на меня, используя egrep . Это соответствует hede . Я также пытался привязать его к началу и концу, и он все еще не работал.
Pedro Gimeno 06 дек. 2016, в 23:18
2

@PedroGimeno Когда вы поставили на якорь, вы сначала поставили это регулярное выражение в скобки? В противном случае приоритеты между якорями и | не будет играть хорошо '^(()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).*)$' . '^(()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).*)$' .
akim 08 дек. 2016, в 09:03
0

@akim Это, похоже, проблема, спасибо и извините (см. мой ответ для полного соответствия подстроки). И забыл сказать, что на графике нигде нет [^ d]. Я подозреваю, что это ошибка.
Pedro Gimeno 09 дек. 2016, в 15:45
0

@PedroGimeno Спасибо за указание на это. Когда я первый ответил я прочитал неправильно , и думал , что hehe был отказаться. Я исправил текст, но забыл исправить снимок.
akim 11 дек. 2016, в 07:02
0

Я думаю, стоит отметить, что этот метод предназначен для сопоставления строк, которые не являются словом «хеде», а не строк, а не содержат слово «хеде», о котором просил ОП. Смотрите мой ответ для последнего.
Pedro Gimeno 29 янв. 2019, в 00:05

Показать ещё 6 комментариев

43

Бенчмарки

Я решил оценить некоторые из представленных опций и сравнить их производительность, а также использовать некоторые новые функции. Бенчмаркинг в .NET Regex Engine: http://regexhero.net/tester/

Контрольный текст:

Первые 7 строк не должны совпадать, так как они содержат искомое выражение, в то время как нижние 7 строк должны совпадать!

Regex Hero is a real-time online Silverlight Regular Expression Tester.
XRegex Hero is a real-time online Silverlight Regular Expression Tester.
Regex HeroRegex HeroRegex HeroRegex HeroRegex Hero is a real-time online Silverlight Regular Expression Tester.
Regex Her Regex Her Regex Her Regex Her Regex Her Regex Her Regex Hero is a real-time online Silverlight Regular Expression Tester.
Regex Her is a real-time online Silverlight Regular Expression Tester.Regex Hero
egex Hero egex Hero egex Hero egex Hero egex Hero egex Hero Regex Hero is a real-time online Silverlight Regular Expression Tester.
RRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRegex Hero is a real-time online Silverlight Regular Expression Tester.

Regex Her
egex Hero
egex Hero is a real-time online Silverlight Regular Expression Tester.
Regex Her is a real-time online Silverlight Regular Expression Tester.
Regex Her Regex Her Regex Her Regex Her Regex Her Regex Her is a real-time online Silverlight Regular Expression Tester.
Nobody is a real-time online Silverlight Regular Expression Tester.
Regex Her o egex Hero Regex  Hero Reg ex Hero is a real-time online Silverlight Regular Expression Tester.

Результаты:

Результаты - Итерации в секунду в качестве медианы из 3 прогонов - Большее число = лучше

01: ^((?!Regex Hero).)*$                    3.914   // Accepted Answer
02: ^(?:(?!Regex Hero).)*$                  5.034   // With Non-Capturing group
03: ^(?>[^R]+|R(?!egex Hero))*$             6.137   // Lookahead only on the right first letter
04: ^(?>(?:.*?Regex Hero)?)^.*$             7.426   // Match the word and check if you're still at linestart
05: ^(?(?=.*?Regex Hero)(?#fail)|.*)$       7.371   // Logic Branch: Find Regex Hero? match nothing, else anything

P1: ^(?(?=.*?Regex Hero)(*FAIL)|(*ACCEPT))  ?????   // Logic Branch in Perl - Quick FAIL
P2: .*?Regex Hero(*COMMIT)(*FAIL)|(*ACCEPT) ?????   // Direct COMMIT & FAIL in Perl

Так как .NET не поддерживает действие Глаголы (* FAIL и т.д.), я не смог проверить решения P1 и P2.

Резюме:

Я попытался протестировать большинство предлагаемых решений, некоторые оптимизации возможны для определенных слов. Например, если первые две буквы строки поиска не совпадают, ответ 03 может быть расширен до ^(?>[^R]+|R+(?!egex Hero))*$, что приводит к небольшому усилению производительности.

Но общее наиболее читаемое и быстродействующее решение, похоже, имеет значение 05, используя условное выражение или 04 с вероятным квантором. Я думаю, что решения Perl должны быть еще быстрее и более легко читаемыми.

Falco 13 авг. 2014, в 15:41

4

Тебе тоже нужно время ^(?!.*hede) . /// Кроме того, вероятно, лучше ранжировать выражения для совпадающего и несовпадающего корпусов по отдельности, потому что это обычно тот случай, когда большинство совпадений строк или большинство строк этого не делают.
ikegami 23 авг. 2016, в 00:07

38

С отрицательным взглядом регулярное выражение может соответствовать тому, что не содержит определенного шаблона. Об этом отвечает и объясняет Барт Кирс. Отличное объяснение!

Тем не менее, с ответом Барта Кирса, контрольная часть будет проверять от 1 до 4 символов вперед при сопоставлении любого отдельного символа. Мы можем избежать этого и позволить обзорной части проверить весь текст, гарантировать, что нет "hede" , а затем нормальная часть (. *) Может съесть весь текст за один раз.

Вот улучшенное регулярное выражение:

/^(?!.*?hede).*$/

Обратите внимание, что (*?) ленивый квантификатор в отрицательной части обзора необязателен, вместо этого вы можете использовать (*) жадный квантификатор, в зависимости от ваших данных: если "hede" присутствует и в начале половины текста, ленивый квантификатор может быть быстрее; в противном случае, жадный квантор будет быстрее. Однако, если "hede" не присутствует, оба будут равными медленными.

Вот демон-код .

Для получения дополнительной информации о lookahead, посмотрите отличную статью: Освоение Lookahead и Lookbehind.

Кроме того, ознакомьтесь с RegexGen.js, генератором регулярных выражений JavaScript, который помогает создавать сложные регулярные выражения. С помощью RegexGen.js вы можете создать регулярное выражение более читаемым образом:

var _ = regexGen;

var regex = _(
    _.startOfLine(),             
    _.anything().notContains(       // match anything that not contains:
        _.anything().lazy(), 'hede' //   zero or more chars that followed by 'hede',
                                    //   i.e., anything contains 'hede'
    ), 
    _.endOfLine()
);

amobiz 14 июль 2014, в 19:05

3

поэтому просто проверьте, не содержит ли данная строка строки str1 и str2: ^(?!.*(str1|str2)).*$
S.Serpooshan 01 март 2017, в 07:20
1

Да, или вы можете использовать ленивый квантификатор: ^(?!.*?(?:str1|str2)).*$ , В зависимости от ваших данных. Добавил ?: как нам не нужно его захватывать.
amobiz 02 март 2017, в 09:59
0

Это, безусловно, лучший ответ в 10 раз. Если вы добавили свой код jsfiddle и результаты в ответ, люди могут заметить это. Интересно, почему ленивая версия быстрее жадной версии, когда нет хеде. Разве они не должны занимать одинаковое количество времени?
user5389726598465 23 июль 2017, в 09:06
0

Да, они занимают одинаковое количество времени, поскольку они оба проверяют весь текст.
amobiz 03 авг. 2017, в 03:50

Показать ещё 2 комментария

33

Не регулярное выражение, но я нашел логичным и полезным использовать последовательные greps с трубкой для устранения шума.

например. искать конфигурационный файл apache без комментариев -

grep -v '\#' /opt/lampp/etc/httpd.conf      # this gives all the non-comment lines

и

grep -v '\#' /opt/lampp/etc/httpd.conf |  grep -i dir

Логика последовательного grep (не комментарий) и (соответствует dir)

kiwalk 23 фев. 2011, в 14:12

2

Я думаю, что он запрашивает регулярную версию grep -v
Angel.King.47 12 июль 2011, в 15:27
9

Это опасно Также пропускает строки вроде good_stuff #comment_stuff
Xavi Montero 01 март 2013, в 19:54

27

при этом вы избегаете проверки взглядов на каждую позицию:

/^(?:[^h]+|h++(?!ede))*+$/

эквивалент (для.net):

^(?>(?:[^h]+|h+(?!ede))*)$

Старый ответ:

/^(?>[^h]+|h+(?!ede))*$/

Casimir et Hippolyte 14 апр. 2013, в 04:04

7

Хорошая точка зрения; Я удивлен, что никто не упомянул этот подход раньше. Тем не менее, это конкретное регулярное выражение склонно к катастрофическому откату назад применительно к тексту, который не соответствует. Вот как бы я это сделал: /^[^h]*(?:h+(?!ede)[^h]*)*$/
Alan Moore 14 апр. 2013, в 05:26
0

... или вы можете просто сделать все квантификаторы притяжательными. ;)
Alan Moore 15 апр. 2013, в 15:17
0

@ Алан Мур - я тоже удивлен. Я видел ваш комментарий (и лучшее регулярное выражение в куче) здесь только после публикации этого же паттерна в ответе ниже.
ridgerunner 20 дек. 2013, в 03:08
0

@ridgerunner, не обязательно быть лучшим. Я видел тесты, где лучший ответ работает лучше. (Я был удивлен этим.)
Qtax 20 фев. 2014, в 13:10

Показать ещё 2 комментария

18

Вот как бы я это сделал:

^[^h]*(h(?!ede)[^h]*)*$

Точный и эффективный, чем другие ответы. Он реализует технику эффективности "разворачивания в петлю" Friedl и требует гораздо меньшего возврата.

ridgerunner 20 дек. 2013, в 04:55

17

Вышеупомянутый (?:(?!hede).)* велик, потому что он может быть привязан.

^(?:(?!hede).)*$               # A line without hede

foo(?:(?!hede).)*bar           # foo followed by bar, without hede between them

Но в этом случае достаточно:

^(?!.*hede)                    # A line without hede

Это упрощение готово к добавлению предложений "И":

^(?!.*hede)(?=.*foo)(?=.*bar)   # A line with foo and bar, but without hede
^(?!.*hede)(?=.*foo).*bar       # Same

ikegami 23 авг. 2016, в 01:49

16

Если вы хотите совместить символ, чтобы отменить слово, аналогичное классу отрицательных символов:

Например, строка:

<?
$str="aaa        bbb4      aaa     bbb7";
?>

Не использовать:

<?
preg_match('/aaa[^bbb]+?bbb7/s', $str, $matches);
?>

Использование:

<?
preg_match('/aaa(?:(?!bbb).)+?bbb7/s', $str, $matches);
?>

Примечание "(?!bbb)." не является ни lookbehind, ни lookahead, он выглядит как текущий, например:

"(?=abc)abcde", "(?!abc)abcde"

diyism 23 март 2012, в 08:52

3

В регулярном выражении Perl нет «lookcurrent». Это действительно отрицательный прогноз (префикс (?! ). Положительный префикс Lookahead будет (?= то время как соответствующие префиксы lookbehind будут (?<! И (?<= Соответственно). Предварительный просмотр означает, что вы читаете следующие символы (следовательно, «Вперед»), не потребляя их. Взгляд назад означает, что вы проверяете уже использованные символы.
Didier L 21 май 2012, в 16:35

12

В OP не указывалось или Tag сообщение, указывающее контекст (язык программирования, редактор, инструмент), в котором будет использоваться Regex.

Для меня иногда требуется сделать это, редактируя файл с помощью Textpad.

Textpad поддерживает некоторое Regex, но не поддерживает lookahead или lookbehind, поэтому требуется несколько шагов.

Если я хочу сохранить все строки, что НЕ содержит строку hede, я бы сделал это следующим образом:

1. Найдите/замените весь файл, чтобы добавить уникальный "тег" в начало каждой строки, содержащей любой текст.

    Search string:^(.)  
    Replace string:<@#-unique-#@>\1  
    Replace-all

2. Удалите все строки, содержащие строку hede (строка замены пуста):

    Search string:<@#-unique-#@>.*hede.*\n  
    Replace string:<nothing>  
    Replace-all

3. На этом этапе все оставшиеся строки NOT содержат строку hede. Удалите уникальный "тег" со всех строк (строка замены пуста):

    Search string:<@#-unique-#@>
    Replace string:<nothing>  
    Replace-all

Теперь у вас есть исходный текст со всеми строками, содержащими строку hede.

Если я ищу Do Something Else только строки, в которых NOT содержит строку hede, я бы сделал это следующим образом:

1. Найдите/замените весь файл, чтобы добавить уникальный "тег" в начало каждой строки, содержащей любой текст.

    Search string:^(.)  
    Replace string:<@#-unique-#@>\1  
    Replace-all

2. Для всех строк, содержащих строку hede, удалите уникальный "тег" :

    Search string:<@#-unique-#@>(.*hede)
    Replace string:\1  
    Replace-all

3. На этом этапе все строки, начинающиеся с уникального "тега", NOT содержат строку hede. Теперь я могу сделать свой Something Else только для этих строк.

4. Когда я закончил, я удаляю уникальный "тег" со всех строк (строка замены пуста):

    Search string:<@#-unique-#@>
    Replace string:<nothing>  
    Replace-all

Kevin Fegan 27 апр. 2013, в 00:10

0

хаха - я использовал замену всего, это простой трюк.
huuthang 12 нояб. 2018, в 02:50

8

С момента введения ruby-2.4.1 мы можем использовать новый Absent Operator в регулярных выражениях Rubys

из официального doc

(?~abc) matches: "", "ab", "aab", "cccc", etc.
It doesn't match: "abc", "aabc", "ccccabc", etc.

Таким образом, в вашем случае ^(?~hede)$ выполняется задание для вас

2.4.1 :016 > ["hoho", "hihi", "haha", "hede"].select{|s| /^(?~hede)$/.match(s)}
 => ["hoho", "hihi", "haha"]

aelor 23 март 2017, в 15:32

8

Через глагол PCRE (*SKIP)(*F)

^hede$(*SKIP)(*F)|^.*$

Это полностью пропустит строку, которая содержит точную строку hede и соответствует всем оставшимся строкам.

DEMO

Выполнение частей:

Рассмотрим приведенное выше регулярное выражение, разделив его на две части.

Часть перед символом |. Часть не должна совпадать.
```
^hede$(*SKIP)(*F)
```
Часть после символа |. Часть должна быть сопоставлена .
```
^.*$
```

ЧАСТЬ 1

Механизм Regex начнет выполнение с первой части.

^hede$(*SKIP)(*F)

Объяснение:

^ Утверждается, что мы находимся в начале.
hede Соответствует строке hede
$ Указывает, что мы находимся на конце строки.

Таким образом, строка, содержащая строку hede, будет сопоставлена. Как только механизм регулярных выражений увидит следующий (*SKIP)(*F) (Примечание: вы можете написать (*F) как (*FAIL)) глагол, он пропустит и сделает совпадение неудачным. | называется изменением или логическим оператором OR, добавленным рядом с глаголом PCRE, который inturn соответствует всем границам, существующим между каждым символом во всех строках, за исключением того, что строка содержит точную строку hede. См. Демонстрацию здесь. То есть, он пытается сопоставить символы из оставшейся строки. Теперь будет выполняться регулярное выражение во второй части.

ЧАСТЬ 2

^.*$

Объяснение:

^ Утверждается, что мы находимся в начале. т.е. он соответствует всем путям строк, кроме одного в строке hede. См. Демонстрацию здесь.
.* В многострочном режиме . будет соответствовать любому символу, кроме символов новой строки или символа возврата каретки. И * повторит предыдущий символ ноль или более раз. Таким образом, .* будет соответствовать всей строке. См. Демонстрацию здесь.

Привет, почему вы добавили. * вместо. +?

Потому что .* будет соответствовать пустой строке, но .+ не будет соответствовать пробелу. Мы хотим сопоставить все строки, кроме hede, может быть возможность пустых строк также на входе. поэтому вы должны использовать .* вместо .+. .+ повторял предыдущий символ один или несколько раз. См. .* соответствует пустой строке здесь.
$ Здесь не требуется завершение привязки линии.

Avinash Raj 09 окт. 2014, в 07:12

7

Поскольку никто другой не дал прямого ответа на заданный вопрос, я сделаю это.

Ответ заключается в том, что с POSIX grep невозможно буквально удовлетворить этот запрос:

grep "Regex for doesn't contain hede" Input

Причина в том, что POSIX grep требуется только для работы с Basic Regular Expressions, которые просто недостаточно эффективны для выполнения этой задачи (они не способны анализировать обычные языки из-за отсутствия чередования и группировки).

Однако GNU grep реализует расширения, которые позволяют это. В частности, \| является оператором чередования в реализации GNU BRE, а $ и $ - операторы группировки. Если ваш механизм регулярных выражений поддерживает чередование, отрицательные выражения скобок, группировку и звезду Kleene и способен привязывать к началу и концу строки, все, что вам нужно для этого подхода.

С GNU grep было бы что-то вроде:

grep "^\([^h]\|h\(h\|eh\|edh\)*\([^eh]\|e[^dh]\|ed[^eh]\)\)*\(\|h\(h\|eh\|edh\)*\(\|e\|ed\)\)$" Input

(найденный с Grail и некоторые дальнейшие оптимизации, сделанные вручную).

Вы также можете использовать инструмент, который реализует расширенные регулярные выражения, например egrep, для устранения обратных косых черт:

egrep "^([^h]|h(h|eh|edh)*([^eh]|e[^dh]|ed[^eh]))*(|h(h|eh|edh)*(|e|ed))$" Input

Вот скрипт для его проверки (обратите внимание, что он генерирует файл testinput.txt в текущем каталоге):

#!/bin/bash
REGEX="^\([^h]\|h\(h\|eh\|edh\)*\([^eh]\|e[^dh]\|ed[^eh]\)\)*\(\|h\(h\|eh\|edh\)*\(\|e\|ed\)\)$"

# First four lines as in OP testcase.
cat > testinput.txt <<EOF
hoho
hihi
haha
hede

h
he
ah
head
ahead
ahed
aheda
ahede
hhede
hehede
hedhede
hehehehehehedehehe
hedecidedthat
EOF
diff -s -u <(grep -v hede testinput.txt) <(grep "$REGEX" testinput.txt)

В моей системе он печатает:

Files /dev/fd/63 and /dev/fd/62 are identical

как и ожидалось.

Для тех, кто интересуется деталями, применяемая техника состоит в том, чтобы преобразовать регулярное выражение, которое соответствует слову, в конечный автомат, а затем инвертировать автомат, изменив каждое состояние принятия на непринятие и наоборот, а затем преобразуя полученную FA обратно в регулярное выражение.

Наконец, как все отметили, если ваш механизм регулярных выражений поддерживает негативный взгляд, это значительно упрощает задачу. Например, с GNU grep:

grep -P '^((?!hede).)*$' Input

Обновление: Недавно я нашел отличную библиотеку FormalTheory от Kendall Hopkins, написанную на PHP, которая обеспечивает функциональность, похожую на Grail. Используя это и упроститель, написанный мной, я смог написать онлайн-генератор отрицательных регулярных выражений с учетом входной фразы (только буквенно-цифровые и пробельные символы, которые в настоящее время поддерживаются): http://www.formauri.es/personal/pgimeno/разное/неигровые-регулярное выражение /

Для hede он выводит:

^([^h]|h(h|e(h|dh))*([^eh]|e([^dh]|d[^eh])))*(h(h|e(h|dh))*(ed?)?)?$

что эквивалентно приведенному выше.

Pedro Gimeno 06 дек. 2016, в 21:53

6

Он может быть более поддерживаемым для двух регулярных выражений в вашем коде, один для первого совпадения, а затем, если он совпадает с run, второе регулярное выражение проверяет наличие случаев, которые вы хотите заблокировать, например, ^.*(hede).*, затем имеет соответствующую логику в ваш код.

Хорошо, я признаю, что на самом деле это не ответ на опубликованный вопрос, и он может также использовать немного больше обработки, чем одно регулярное выражение. Но для разработчиков, которые пришли сюда, чтобы найти быстрое исправление для случая превышения, это решение не следует упускать из виду.

andrew pate 18 фев. 2015, в 12:02

5

Язык TXR поддерживает отрицание регулярных выражений.

$ txr -c '@(repeat)
@{nothede /~hede/}
@(do (put-line nothede))
@(end)'  Input

Более сложный пример: сопоставьте все строки, которые начинаются с a и заканчиваются на z, но не содержат подстроку hede:

$ txr -c '@(repeat)
@{nothede /a.*z&~.*hede.*/}
@(do (put-line nothede))
@(end)' -
az         <- echoed
az
abcz       <- echoed
abcz
abhederz   <- not echoed; contains hede
ahedez     <- not echoed; contains hede
ace        <- not echoed; does not end in z
ahedz      <- echoed
ahedz

Отрицание регулярных выражений не особенно полезно само по себе, но когда у вас также есть пересечение, вещи становятся интересными, поскольку у вас есть полный набор операций с булевыми множествами: вы можете выразить "множество, которое соответствует этому, за исключением вещей, которые соответствуют этому".

Kaz 25 июнь 2014, в 01:42

0

Обратите внимание, что это также решение для регулярного выражения ElasticSearch на основе Lucene.
Wiktor Stribiżew 19 фев. 2018, в 07:30

3

Функция ниже поможет вам получить желаемый результат

<?PHP
      function removePrepositions($text){

            $propositions=array('/\bfor\b/i','/\bthe\b/i'); 

            if( count($propositions) > 0 ) {
                foreach($propositions as $exceptionPhrase) {
                    $text = preg_replace($exceptionPhrase, '', trim($text));

                }
            $retval = trim($text);

            }
        return $retval;
    }


?>

Daniel Nyamasyo 21 дек. 2016, в 05:06

1

На мой взгляд, более читаемый вариант верхнего ответа:

^(?!.*hede)

По сути, "сопоставлять в начале строки тогда и только тогда, когда в ней нет слова" хеде "", поэтому требование почти напрямую переводится в регулярное выражение.

Конечно, это может иметь несколько требований отказа:

^(?!.*(hede|hodo|hada))

Детали: Якорь ^ гарантирует, что механизм регулярных выражений не повторяет совпадение в каждом месте строки, что соответствует каждой строке.

Якорь ^ в начале предназначен для обозначения начала строки. Инструмент grep сопоставляет каждую строку по одной за раз, в тех случаях, когда вы работаете с многострочной строкой, вы можете использовать флаг "m":

/^(?!.*hede)/m # JavaScript syntax

или же

(?m)^(?!.*hede) # Inline flag

staafl 24 нояб. 2018, в 18:54

0

С помощью ConyEdit вы можете использовать командную строку cc.gl ! /hede/ для получения строк, которые не содержат соответствия регулярных выражений, или используйте командную строку cc.dl/hede/ для удаления строк, содержащих соответствие регулярных выражений. Они имеют одинаковый результат.

Donald 09 июль 2018, в 17:35

0

Я не понимаю потребности в сложном регулярном выражении или даже взглядах:

/hede|^(.*)$/gm

Не помещайте в группу захвата вещь, которую вы не хотите, но используйте ее для всего остального. Это будет соответствовать всем строкам, которые не содержат "hede".

OddBrew 26 июнь 2018, в 23:52

0

Возможно, вы найдете это в Google, пытаясь написать регулярное выражение, которое может соответствовать сегментам строки (в отличие от целых строк), которые не содержат подстроку. Поймайте мне время, чтобы разобраться, поэтому я поделюсь:

Учитывая строку: barfoobaz

Я хочу сопоставить теги  которые не содержат подстроку "bad".

/<span(?:(?!bad).)*?> будет соответствовать  и .

Обратите внимание, что есть два набора (слоев) круглых скобок:

Самый внутренний - для негативного взгляда (это не группа захвата)
Самый внешний интерпретируемый Ruby как группа захвата, но мы не хотим, чтобы он был группой захвата, поэтому я добавил?: При этом он начинается и больше не интерпретируется как группа захвата.

Демо в Ruby:

s = '<span class="good">bar</span><span class="bad">foo</span><span class="ugly">baz</span>'
s.scan(/<span(?:(?!bad).)*?>/)
# => ["<span class=\"good\">", "<span class=\"ugly\">"]

BrunoFacca 25 апр. 2018, в 19:27

0

Как использовать контрольные глаголы PCRE backtracking для соответствия строке, не содержащей слова

Вот метод, который я раньше не видел:

/.*hede(*COMMIT)^|/

Как это работает

Сначала он пытается найти "hede" где-то в строке. В случае успеха (*COMMIT) в этот момент указывает движку не только не возвращаться в случае сбоя, но и не пытаться выполнить дальнейшее сопоставление в этом случае. Затем мы пытаемся сопоставить то, что не может совпадать (в данном случае ^).

Если строка не содержит "hede", вторая альтернатива, пустой подшаблон, успешно соответствует теме.

Этот метод не более эффективен, чем негативный взгляд, но я решил, что просто брошу его здесь, если кто-то найдет его отличным и найдет для него использование для других, более интересных приложений.

jaytea 11 окт. 2017, в 11:56

-1

Более простым решением является использование неоператора !

Ваш оператор if должен соответствовать "содержит" и не соответствует "исключает".

var contains = /abc/;
var excludes =/hede/;

if(string.match(contains) && !(string.match(excludes))){  //proceed...

Я считаю, что дизайнеры RegEx предполагали использование не операторов.

JohnP2 13 сен. 2016, в 15:13

Ещё вопросы

Вероятно, на пару лет позже, но что не так с: ([^h]*(h([^e]|$)|he([^d]|$)|hed([^e]|$)))* ? Идея проста. Продолжайте сопоставлять до тех пор, пока не увидите начало нежелательной строки, а затем сопоставляйте только в N-1 случаях, когда строка не завершена (где N - длина строки). Этими случаями N-1 являются «h, за которыми следует не-e», «он следует за не-d» и «hed, за которым следует не-e». Если вам удалось пропустить эти случаи N-1, вы не соответствовали нежелательной строке, поэтому вы можете снова начать поиск [^h]*
@stevendesu: попробуйте это как «очень-очень-длинное слово» или даже лучше половину предложения. Весело печатать. Кстати, это почти не читается. Не знаю о влиянии на производительность.
@PeterSchuetze: Конечно, это не очень красиво для очень длинных слов, но это жизнеспособное и правильное решение. Хотя я не проводил тесты на производительность, я бы не подумал, что она слишком медленная, так как большинство последних правил игнорируются, пока вы не увидите h (или первую букву слова, предложения и т. Д.). И вы можете легко сгенерировать строку регулярного выражения для длинных строк, используя итеративную конкатенацию. Если это работает и может генерироваться быстро, важна ли разборчивость? Вот для чего нужны комментарии.
@stevendesu: я даже позже, но этот ответ почти полностью неверен. с одной стороны, он требует, чтобы субъект содержал «h», чего не должно быть, учитывая, что задание «сопоставить строки, которые [не содержат] конкретного слова». давайте предположим, что вы хотели сделать внутреннюю группу необязательной, а шаблон привязан: ^([^h]*(h([^e]|$)|he([^d]|$)|hed([^e]|$))?)*$ это терпит неудачу, когда экземплярам "hede" предшествуют частичные экземпляры "hede", такие как в "hhede".
Этот вопрос был добавлен в FAQ по регулярным выражениям Stack Overflow в разделе «Advanced Regex-Fu».
Related: Regex: Сопоставление по исключению, без прогнозирования - возможно ли это?
Спасибо, я использовал его для проверки того, что строка не содержит последовательность цифр ^ ((?! \ D {5,}).) *
^((?!hede).)*$ работал на меня, используя плагин jQuery DataTable, чтобы исключить строку из набора данных
Здравствуйте! Я не могу сочинять , не заканчивается "хеде" регулярное выражение. Вы можете помочь с этим?
@AleksYa: просто используйте версию «Содержать» и включите конечный якорь в строку поиска: измените строку на «не совпадает» с «hede» на «hede $»
Чтобы сопоставить строки, которые не заканчиваются на «hede» , можно использовать ^.*(?!hede).{4} . Число в скобках должно соответствовать длине несоответствующего текста, который вы хотите (например, «hede» - это длина 4).
Я действительно не получаю двойные скобки ... тоже не поняла объяснение выше ... Итак, первый набор говорит: "Убедитесь, что этого не существует впереди". но для чего второй набор?
например ...: ^ (?! override) _ * labour_cost -> соответствует только "labour_cost" из следующих тестов ..... [default_labor_cost, testing_override, labour_cost, override_labor_cost]. Исходя из объяснений, приведенных выше, кажется, что я должен получить что-нибудь с необязательным _, за которым следует labour_cost ... поэтому у меня должно быть два прохода, но только один.
@AleksYa: неоконченная версия может быть сделана с использованием отрицательного вида как: (.*)(?<!hede)$ . Версия @Nyerguds тоже подойдет, но совершенно не учитывает производительность, о которой говорится в ответе.
Почему так много ответов говорят ^((?!hede).)*$ ? Разве не эффективнее использовать ^(?!.*hede).*$ ? Он делает то же самое, но за меньшее количество шагов
Совет: для постепенной фильтрации того, что вам не нужно: grep -v "hede" | grep -v "хихи" | ...так далее.
Или используя только один процесс grep -v -e hede -e hihi -e ...
Если у вас есть много шаблонов, которые вы хотите отфильтровать, поместите их в файл и используйте файл grep -vf pattern_file file
Или просто egrep или grep -Ev "hede|hihi|etc" чтобы избежать неловкого побега.
здорово, что у меня ^((?!DSAU_PW8882WEB2|DSAU_PW8884WEB2|DSAU_PW8884WEB).)*$ в возвышенном тексте 2, используя несколько слов ' ^((?!DSAU_PW8882WEB2|DSAU_PW8884WEB2|DSAU_PW8884WEB).)*$ '
@DamodarBashyal Я знаю, что я довольно поздно здесь, но вы можете полностью удалить второй срок там, и вы получите точно такие же результаты
Важно отметить, что в нем используются только основные регулярные выражения POSIX.2, и поэтому он более переносим, когда PCRE недоступен.
Согласен. Многие, если не большинство регулярных выражений, не являются регулярными языками и не могут быть распознаны конечными автоматами.
@ThomasMcLeod, Hades32: Находится ли в пределах возможного регулярного языка возможность говорить « не » и « и », а также « или » выражения, такого как « (hede|Hihi) »? (Это может быть вопрос для CS.)
@JohnAllen: Я !!! … Ну, не фактическое регулярное выражение, а академическая справка, которая также тесно связана с вычислительной сложностью; PCRE принципиально не может гарантировать такую же эффективность, как регулярные выражения POSIX.
@JamesHaigh, не <string> определенно регулярно, но имеет ли смысл? Задайте новый вопрос и сообщите мне в комментарии, и я постараюсь ответить на него.
Извините - этот ответ просто не работает, он будет совпадать с хе-хе и даже частично совпадать с хе-хе (вторая половина)
Это может быть синтаксически упрощено до ^([^h].*|h([^e].*)?|he([^h].*)?|heh([^e].*)?|hehe.+)$ или ^(([^h]|h[^e]|he[^h]|heh[^e]|hehe.).*|h|he|heh)$ .
Смотрите мой ответ о том, как это сделать для субматчей тоже. Что касается инвертирования RE, обратное всегда существует без дополнительных операторов. У Грааля есть инструмент для его поиска, который я использовал в своем ответе.
Некоторые инструменты, в частности mysqldumpslow, предлагают только такой способ фильтрации данных, поэтому в таком случае поиск регулярного выражения для этого является лучшим решением, кроме переписывания инструмента (различные исправления для этого не включены в MySQL AB / Sun). Оракул.
Точно аналогично моей ситуации. Шаблонный движок Velocity использует регулярные выражения, чтобы решить, когда применять преобразование (escape html), и я хочу, чтобы он всегда работал, КРОМЕ в одной ситуации.
Какая альтернатива есть? Я никогда не сталкивался с чем-то, что могло бы сделать точное соответствие строк, кроме регулярных выражений. Если OP использует язык программирования, могут быть доступны другие инструменты, но если он / она использует не пишущий код, другого выбора, вероятно, нет.
Один из многих негипотетических сценариев, где регулярное выражение - лучший доступный выбор: я нахожусь в IDE (Android Studio), которая показывает вывод журнала, и единственные предоставляемые инструменты фильтрации: простые строки и регулярное выражение. Попытка сделать это с простыми строками будет полным провалом.
как насчет конечных пробелов? Например, если я хочу, чтобы проверка " hede " неудачей со строкой " hede " ?
@eagor директива \s соответствует одному символу пробела
спасибо, но мне не удалось обновить регулярное выражение, чтобы сделать эту работу.
Правда, но некрасиво и выполнимо только для небольших наборов символов. Вы не хотите делать это со строками Unicode :-)
Есть больше инструментов, которые позволяют это, одним из самых впечатляющих является Ragel . Там это будет записано как (any * - ('hehe' any *)) для начального совпадения или (any * - ('hehe' any *)) для невыровненного.
@reinierpost: почему это некрасиво и в чем проблема с юникодом? Я не могу согласиться с обоими. (У меня нет опыта работы с vcsn, но есть с DFA).
Регулярное выражение ()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).* Не работать на меня, используя egrep . Это соответствует hede . Я также пытался привязать его к началу и концу, и он все еще не работал.
@PedroGimeno Когда вы поставили на якорь, вы сначала поставили это регулярное выражение в скобки? В противном случае приоритеты между якорями и | не будет играть хорошо '^(()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).*)$' . '^(()|h(ed?)?|([^h]|h([^e]|e([^d]|d([^e]|e.)))).*)$' .
@akim Это, похоже, проблема, спасибо и извините (см. мой ответ для полного соответствия подстроки). И забыл сказать, что на графике нигде нет [^ d]. Я подозреваю, что это ошибка.
@PedroGimeno Спасибо за указание на это. Когда я первый ответил я прочитал неправильно , и думал , что hehe был отказаться. Я исправил текст, но забыл исправить снимок.
Я думаю, стоит отметить, что этот метод предназначен для сопоставления строк, которые не являются словом «хеде», а не строк, а не содержат слово «хеде», о котором просил ОП. Смотрите мой ответ для последнего.
Тебе тоже нужно время ^(?!.*hede) . /// Кроме того, вероятно, лучше ранжировать выражения для совпадающего и несовпадающего корпусов по отдельности, потому что это обычно тот случай, когда большинство совпадений строк или большинство строк этого не делают.
поэтому просто проверьте, не содержит ли данная строка строки str1 и str2: ^(?!.*(str1|str2)).*$
Да, или вы можете использовать ленивый квантификатор: ^(?!.*?(?:str1|str2)).*$ , В зависимости от ваших данных. Добавил ?: как нам не нужно его захватывать.
Это, безусловно, лучший ответ в 10 раз. Если вы добавили свой код jsfiddle и результаты в ответ, люди могут заметить это. Интересно, почему ленивая версия быстрее жадной версии, когда нет хеде. Разве они не должны занимать одинаковое количество времени?
Да, они занимают одинаковое количество времени, поскольку они оба проверяют весь текст.
Я думаю, что он запрашивает регулярную версию grep -v
Это опасно Также пропускает строки вроде good_stuff #comment_stuff
Хорошая точка зрения; Я удивлен, что никто не упомянул этот подход раньше. Тем не менее, это конкретное регулярное выражение склонно к катастрофическому откату назад применительно к тексту, который не соответствует. Вот как бы я это сделал: /^[^h]*(?:h+(?!ede)[^h]*)*$/
... или вы можете просто сделать все квантификаторы притяжательными. ;)
@ Алан Мур - я тоже удивлен. Я видел ваш комментарий (и лучшее регулярное выражение в куче) здесь только после публикации этого же паттерна в ответе ниже.
@ridgerunner, не обязательно быть лучшим. Я видел тесты, где лучший ответ работает лучше. (Я был удивлен этим.)
В регулярном выражении Perl нет «lookcurrent». Это действительно отрицательный прогноз (префикс (?! ). Положительный префикс Lookahead будет (?= то время как соответствующие префиксы lookbehind будут (?<! И (?<= Соответственно). Предварительный просмотр означает, что вы читаете следующие символы (следовательно, «Вперед»), не потребляя их. Взгляд назад означает, что вы проверяете уже использованные символы.
хаха - я использовал замену всего, это простой трюк.
Обратите внимание, что это также решение для регулярного выражения ElasticSearch на основе Lucene.

Bart Kiers · Accepted Answer · 2009-01-02T10-22-00.000Z

Понятие о том, что регулярное выражение не поддерживает обратное совпадение, не совсем верно. Вы можете имитировать это поведение, используя негативные образы:

^((?!hede).)*$

Регулярное выражение выше будет соответствовать любой строке или строке без разрыва строки, не, содержащей (под) строку 'hede'. Как уже упоминалось, это не то, что регулярное выражение "хорошо" (или должно делать), но все же возможно.

И если вам нужно также совместить символы разрыва строки, используйте модификатор DOT-ALL (конечный s в следующем шаблоне ):

/^((?!hede).)*$/s

или используйте его в строке:

/(?s)^((?!hede).)*$/

(где /.../ являются разделителями регулярных выражений, т.е. не являются частью шаблона)

Если модификатор DOT-ALL недоступен, вы можете имитировать такое же поведение с классом символов [\s\S]:

/^((?!hede)[\s\S])*$/

Описание

Строка - это всего лишь список символов n. До и после каждого символа есть пустая строка. Таким образом, список символов n будет содержать n+1 пустые строки. Рассмотрим строку "ABhedeCD":

    ┌──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┐
S = │e1│ A │e2│ B │e3│ h │e4│ e │e5│ d │e6│ e │e7│ C │e8│ D │e9│
    └──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┘

index    0      1      2      3      4      5      6      7

где e - это пустые строки. Регулярное выражение (?!hede). смотрит вперед, чтобы увидеть, нет ли подстроки "hede", и если это так (так что что-то еще видно), то . (точка) будет соответствовать любому символу, кроме разрыва строки, Look-arounds также называются утверждениями с нулевой шириной, потому что они не потребляют никаких символов. Они только утверждают/проверяют что-то.

Итак, в моем примере каждая пустая строка сначала проверяется, чтобы увидеть, нет ли "hede" впереди, прежде чем символ будет потребляться . (точка). Регулярное выражение (?!hede). будет делать это только один раз, поэтому оно завернуто в группу и повторяется ноль или более раз: ((?!hede).)*. Наконец, начало и конец ввода привязаны, чтобы убедиться, что весь вход потреблен: ^((?!hede).)*$

Как вы можете видеть, вход "ABhedeCD" завершится с ошибкой, потому что на e3 не выполняется повторное выражение (?!hede) (впереди есть "hede"!).

Я бы не сказал, что это плохо для регулярных выражений. Удобство этого решения довольно очевидно, и снижение производительности по сравнению с программным поиском часто оказывается несущественным.
Строго говоря, отрицательный перебор делает регулярное выражение нерегулярным.
@PeterK, конечно, но это ТАК, а не MathOverflow или CS-Stackexchange. Люди, задающие вопрос здесь, обычно ищут практический ответ. Большинство библиотек или инструментов (таких как grep , о котором упоминает OP) с поддержкой регулярных выражений имеют функции, которые делают их нерегулярными в теоретическом смысле.
@ Барт Киерс, не обижайся на тебя, ответь, только это злоупотребление терминологией меня немного раздражает. Действительно запутанная часть в том, что регулярные выражения в строгом смысле слова могут делать то, что хочет OP, но общий язык их написания этого не позволяет, что приводит к (математически некрасивым) обходным путям, таким как упреждающие просмотры. Пожалуйста, посмотрите этот ответ ниже и мой комментарий для (теоретически выровненного) правильного способа сделать это. Излишне говорить, что он работает быстрее на больших входах.
Если вы когда-нибудь задумывались, как это сделать в vim: ^$\(hede$\@!.\)*$
Этот ответ работал лучше для меня. Можете ли вы объяснить разницу между ^((?!hede).)*$ И ^(?!hede).*$ ?
@ Z.Khullah Тебе не хватает флага m Добавление его в ваше регулярное выражение не сработало, но создание нового теста с помощью m сработало на Regexr: regexr.com/3hj1b Короче говоря: это ошибка в Regexr.
Привет, подскажите, пожалуйста, как сделать это для re2 от Google? github.com/google/re2 support.google.com/a/answer/1346938?hl=ru
Lookbacks / lookarounds поддерживаются только в pcre superuser.com/a/596499/658319 . Возможно, следует добавить отказ от ответственности.
@ alpha_989 верно, но я не думаю, что отказ от ответственности необходим. Это SO, а не Math Overflow или CS-SE, и почти все популярные языки программирования с поддержкой регулярных выражений PCRE (близки к этому).
то же самое с границами слова: ^((?!\bhede\b).)*$
Почему так много ответов говорят ^((?!hede).)*$ ? Разве не эффективнее использовать ^(?!.*hede).*$ ? Он делает то же самое, но за меньшее количество шагов.
Небольшое расширение, я знаю, что это не было в вопросе, но могло бы быть полезным. Что делать, если вы хотите отфильтровать более одного слова, в то же время сопоставить эти слова отдельно и дополнительно удалить пробелы и разрывы строк. Я проверил это на Python: import re; exp = re.compile(r'(?!\s)(?:AND|OR|NOT|$|$|(?:(?!OR|AND|NOT|\s{2:})(?:[-\w: ]))+)(?<!\s)'); exp.findall('foobar AND (foo loves bar OR NOT bla bla)') результаты: ['foobar', 'AND', '(', 'foo loves bar', 'OR', 'NOT', 'bla bla', ')']