Регулярные выражения: есть оператор AND?

Question

Регулярные выражения: есть оператор AND?

494

Очевидно, вы можете использовать | (pipe?) для представления OR, но есть ли способ представления AND?

В частности, я хотел бы совместить абзацы текста, содержащие ВСЕ определенную фразу, но не в определенном порядке.

Hugoware 22 янв. 2009, в 17:18

Источник

1

Вы имеете в виду, что вы хотите найти фразы в тексте, где каждая такая фраза является действительной перестановкой слов в данной фразе?
Nietzche-jou 22 янв. 2009, в 21:32
2

Я помещаю это здесь, потому что три или четыре ответа игнорируют это. Lookahead не соответствует одинаковой длине для каждого предложения, если только они не заканчиваются на $. Один взгляд может соответствовать четырем символам, а другой 6. Например, (? = A *) (? = Aab) будет соответствовать aabaaaaba
Zachary Vance 20 авг. 2010, в 19:56
2

попробуйте использовать только символ «пробел» для оператора «И».
user1045737 14 нояб. 2011, в 14:08
0

1. I'd like to match paragraphs of text . 2. Содержащие испорченный текст. Номер 1 открыт для интерпретации. Номер 2 можно сделать несколькими способами. Способ 1: (?:(?:(?(1)(?!))\b(phrase1)\b.*?|(?(2)(?!))\b(phrase2)\b.*?)){2} , путь 2: (?=.*\bphrase1\b)(?=.*\bphrase2\b) где в этом случае сопоставление абзаца в этом случае не определено, пока определение абзаца не будет формализовано ,
sln 08 янв. 2019, в 02:30

Показать ещё 2 комментария

Теги:

regex

lookahead

13 ответов

Ещё вопросы

Вы имеете в виду, что вы хотите найти фразы в тексте, где каждая такая фраза является действительной перестановкой слов в данной фразе?
Я помещаю это здесь, потому что три или четыре ответа игнорируют это. Lookahead не соответствует одинаковой длине для каждого предложения, если только они не заканчиваются на $. Один взгляд может соответствовать четырем символам, а другой 6. Например, (? = A *) (? = Aab) будет соответствовать aabaaaaba
попробуйте использовать только символ «пробел» для оператора «И».
1. I'd like to match paragraphs of text . 2. Содержащие испорченный текст. Номер 1 открыт для интерпретации. Номер 2 можно сделать несколькими способами. Способ 1: (?:(?:(?(1)(?!))\b(phrase1)\b.*?|(?(2)(?!))\b(phrase2)\b.*?)){2} , путь 2: (?=.*\bphrase1\b)(?=.*\bphrase2\b) где в этом случае сопоставление абзаца в этом случае не определено, пока определение абзаца не будет формализовано ,

Jason Cohen · Answer 1 · 2009-01-22T17-13-00.000Z

277

Используйте непотребляющее регулярное выражение.

Типичная (например, Perl/Java) нотация:

(?= выражение )

Это означает "match expr, но после этого продолжить сопоставление в исходной точке совпадения".

Вы можете делать столько, сколько хотите, и это будет "и". Пример:

(?=match this expression)(?=match this too)(?=oh, and this)

Вы даже можете добавлять группы захвата внутри не потребляющих выражений, если вам нужно сохранить некоторые данные в нем.

Jason Cohen 22 янв. 2009, в 17:13

0

Вы просто размещаете их все подряд, без разделителей? то есть (? = яблоко) (? = апельсин) (? = груша)
Hugoware 22 янв. 2009, в 17:39
0

Разделители (или любые символы) указывают на то, что они должны существовать до следующей непотребляющей группы.
Robert P 22 янв. 2009, в 18:18
0

Попробовать ... Я не думаю, что это именно то, что он имеет в виду.
Robert P 22 янв. 2009, в 18:24
3

perl -e "q {некоторые вещи и вещи} = ~ / (? = некоторые) (? = вещи) (? = вещи) /? print 'yes': print 'no' 'печатает' no '.
Robert P 22 янв. 2009, в 18:27
0

Спасибо за хорошие комментарии; Я обновил ответ, чтобы включить примеры.
Jason Cohen 22 янв. 2009, в 20:57
21

Следует отметить, что этот конкретный пример называется положительным прогнозным утверждением. Он имеет иное применение, чем «и». Обратите внимание, что текст не используется.
strager 22 янв. 2009, в 21:11
6

Использование (? =) Как это приводит к регулярному выражению, которое никогда не может быть успешным. Но это аналог конъюнкции к |. ОП просто ошибается в том, что, по его мнению, решит его проблему.
Nietzche-jou 22 янв. 2009, в 21:30
9

perl -e "q {некоторые вещи и вещи} = ~ /(?=.*some)(?=.*stuff)(?=.*things)/? print 'yes': напечатать 'no'"
kriss 14 июнь 2010, в 22:32
3

Можете ли вы добавить несколько простых примеров в коде perl в вашем ответе?
Pithikos 25 нояб. 2011, в 13:59
3

Стоит отметить, что lookahead не поддерживается в japavascript.
Jageen 23 авг. 2017, в 00:26

Показать ещё 8 комментариев

Alan Moore · Answer 2 · 2009-01-22T20-38-00.000Z

Вам нужно использовать lookahead, как говорили некоторые из других респондентов, но в lookahead должны учитываться другие символы между его целевым словом и текущей совпадающей позицией. Например:

(?=.*word1)(?=.*word2)(?=.*word3)

.* в первом lookahead позволяет ему сопоставлять любое количество символов, которое ему нужно, прежде чем оно попадет в "word1". Тогда позиция соответствия reset, а второй lookahead ищет слово "word2". reset снова, а заключительная часть соответствует "word3"; так как это последнее слово, которое вы проверяете, не обязательно, чтобы оно было в поиске, но это не повредило.

Чтобы соответствовать целому абзацу, вам необходимо привязать регулярное выражение с обоих концов и добавить окончательный .*, чтобы использовать оставшиеся символы. Используя нотацию в стиле Perl, это будет:

/^(?=.*word1)(?=.*word2)(?=.*word3).*$/m

Модификатор 'm' предназначен для режима multline; он позволяет совпадению ^ и $ на границах абзаца ( "границы строк" в режиме регулярного выражения). В этом случае важно, чтобы вы не использовали модификатор 's', который позволяет метасимволу точек совпадать с символами новой строки, а также со всеми другими символами.

Наконец, вы хотите убедиться, что вы соответствуете целым словам, а не только фрагментам более длинных слов, поэтому вам нужно добавить границы слов:

/^(?=.*\bword1\b)(?=.*\bword2\b)(?=.*\bword3\b).*$/m

Совершенно верно - об этом тоже есть учебник! ocpsoft.org/tutorials/regular-expressions/and-in-regex
Большое спасибо. * Это имеет значение
+1 для ясного и краткого ответа, демонстрирующего одно из лучших применений для поиска (в отличие от использования, такого как взлом для подсчета совпадения пароля в процентах). :)
Поддерживается ли это в MySQL regexp ()?
@Liam :. MySQL использует POSIX ERE, поэтому нет. Он эффективно жертвует функциями в пользу производительности, что мне кажется разумным. Там больше информации здесь .
замените .* на [\s\S]* в javascript, если у вас есть новые строки как . в движке регулярных выражений javascript не совпадает с новыми строками и не может быть сделан с помощью модификаторов

fanjabi · Answer 3 · 2011-04-20T12-47-00.000Z

23

Посмотрите на этот пример:

У нас есть 2 регулярных выражения A и B, и мы хотим сопоставить их оба, поэтому в псевдокоде это выглядит так:

pattern = "/A AND B/"

Он может быть записан без использования оператора AND следующим образом:

pattern = "/NOT (NOT A OR NOT B)/"

в PCRE:

"/^(^A|^B)/"

regexp_match(pattern,data)

fanjabi 20 апр. 2011, в 12:47

21

Это верно с точки зрения формальной логики, но здесь это абсолютно не поможет. В регулярных выражениях NOT может быть даже сложнее выразить, чем AND.
Alan Moore 14 нояб. 2011, в 14:32
0

Умная точка. любое И может быть составлено с использованием НЕ и ИЛИ
Codemole 28 май 2013, в 14:52
1

здорово, именно то, что я искал! Спасибо!
Stefan 28 июнь 2013, в 14:57
0

Это работает на практике или не работает?
petermeissner 16 окт. 2013, в 12:59
0

@marvin_dpr У меня это работало в CMake, а другое предложение (?=expr) нет. Кажется, это зависит от реализации.
Melebius 18 нояб. 2013, в 10:25
31

Разве ^ не означает «начало строки» в синтаксисе регулярных выражений?
Lambda Fairy 30 дек. 2013, в 01:57
1

В регулярных выражениях вообще ^ - это отрицание только в начале класса символов. Если только CMake не делает что-то действительно прикольное (до такой степени, что называть их язык сопоставления с образцом "регулярным выражением" можно считать вводящим в заблуждение или неправильным), я предполагаю, что тот факт, что это сработало для вас, был изолированной случайностью.
tripleee 17 фев. 2015, в 12:41
0

Большое спасибо, я чувствую себя богом :)
Nishchal Gautam 13 июнь 2016, в 08:20

Показать ещё 6 комментариев

Juha Syrjälä · Answer 4 · 2009-01-22T19-51-00.000Z

Вы можете сделать это с регулярным выражением, но, вероятно, вы захотите кого-то еще. Например, используйте несколько регулярных выражений и объедините их в условии if.

Вы можете перечислить все возможные перестановки со стандартным регулярным выражением, как это (соответствует a, b и c в любом порядке):

(abc)|(bca)|(acb)|(bac)|(cab)|(cba)

Однако это делает очень длинное и, вероятно, неэффективное регулярное выражение, если у вас более пары.

Если вы используете расширенную версию regexp, такую как Perl или Java, у них есть лучшие способы сделать это. Другие ответы предполагают использование положительной функции обзора.

Я не думаю, что ваш подход более неэффективен, чем 3 вида назад с их катастрофическим отступлением. Конечно, писать дольше, но учтите, что вы можете легко сгенерировать шаблон автоматически. Обратите внимание, что вы можете улучшить его, чтобы он быстрее a(bc|cb)|b(ac|ca)|c(ab|ba) с a(bc|cb)|b(ac|ca)|c(ab|ba) . И самое главное, вы можете использовать его с любым вкусом регулярных выражений.

Emanuele Del Grande · Answer 5 · 2014-06-30T12-13-00.000Z

Оператор AND неявный в синтаксисе RegExp.
Вместо этого оператор OR должен быть указан с помощью трубы.
Следующий RegExp:

var re = /ab/;

означает букву a И письмо b.
Он также работает с группами:

var re = /(co)(de)/;

это означает группу co AND группу de.
Замена (неявного) И с помощью OR потребует следующих строк:

var re = /a|b/;
var re = /(co)|(de)/;

К сожалению, это не то, о чем просил ОП. Это находит что-нибудь в этом порядке, тогда как они хотели их в любом порядке. Проверьте ответ по stackoverflow.com/users/20938/alan-moore ниже, который является правильным.
@JESii, спасибо за вашу точку зрения, вы правы, и я неправильно понял вопрос Hugoware, я сосредоточился на его первом предложении. Правильный ответ - правильное использование оператора lookahead, как писал AlanMoore. В любом случае, я думаю, что кто-то может найти мои разъяснения полезными, так как за них уже проголосовали, так что я бы не стал все выбрасывать. С уважением.

mug896 · Answer 6 · 2013-12-27T14-57-00.000Z

Почему бы не использовать awk?
с awk regex AND, OR вопросы настолько просты

awk '/WORD1/ && /WORD2/ && /WORD3/' myfile

user54579 · Answer 7 · 2009-01-22T18-14-00.000Z

8

Невозможно ли в вашем случае сделать AND на нескольких подходящих результатах? в псевдокоде

regexp_match(pattern1, data) && regexp_match(pattern2, data) && ...

user54579 22 янв. 2009, в 18:14

1

Я нахожусь в ситуации, когда у меня есть некоторый код, который представляет собой таблицу данных правил, с одной строкой соответствия шаблону регулярного выражения для проверки действительности правила. Переход к нескольким тестам - это не то, что я могу сделать в моем случае, и обычно в случаях других людей!
Alan Wolfe 04 сен. 2015, в 20:33

jpalecek · Answer 8 · 2009-01-22T17-58-00.000Z

Если вы используете регулярные выражения Perl, вы можете использовать позитивный просмотр:

Например

(?=[1-9][0-9]{2})[0-9]*[05]\b

будет числом больше 100 и делится на 5

garbagecollector · Answer 9 · 2014-11-20T22-57-00.000Z

Вы можете передать свой вывод другому регулярному выражению. Используя grep, вы можете сделать это:

grep A | grep B

DevWL · Answer 10 · 2015-11-13T13-17-00.000Z

В дополнение к принятому ответу

Я приведу вам некоторые практические примеры, которые помогут вам понять некоторые из вас. Например, допустим, что у нас есть три строки текста:

[12/Oct/2015:00:37:29 +0200] // only this + will get selected
[12/Oct/2015:00:37:x9 +0200]
[12/Oct/2015:00:37:29 +020x]

Смотрите демонстрацию здесь DEMO

Что мы хотим сделать здесь, это выбрать знак +, но только если он после двух чисел с пробелом и если он до четырех чисел. Это единственные ограничения. Для этого мы будем использовать это регулярное выражение:

'~(?<=\d{2} )\+(?=\d{4})~g'

Обратите внимание, что если вы отделите выражение, оно даст вам разные результаты.

Или, возможно, вы хотите выбрать текст между тегами... но не теги! Затем вы можете использовать:

'~(?<=<p>).*?(?=<\/p>)~g'

для этого текста:

<p>Hello !</p> <p>I wont select tags! Only text with in</p>

Смотрите демонстрацию здесь DEMO

Какой ответ был принят? Пожалуйста, добавьте ссылку на него для будущего меня.

Hammad Khan · Answer 11 · 2011-09-09T20-12-00.000Z

Используйте AND вне регулярного выражения. В PHP оператор lookahead, похоже, не работал у меня, вместо этого я использовал этот

if( preg_match("/^.{3,}$/",$pass1) && !preg_match("/\s{1}/",$pass1))
    return true;
else
    return false;

Вышеупомянутое регулярное выражение будет соответствовать, если длина пароля составляет 3 или более символов, и в пароле нет пробелов.

Bill the Lizard · Answer 12 · 2017-06-27T14-17-00.000Z

Самый простой способ сделать это - это просто использовать два регулярных выражения, соединенных с логическим оператором and, предоставленным вашим языком. В синтаксисе Perl это будет выглядеть так:

if ( /phrase 1/ and /phrase 2/ ) {
    // it a match
}

Если вы хотите сделать одно и то же в одном регулярном выражении, вы всегда можете найти "фразу 1, за которой следует фраза 2" ИЛИ "фраза 2, за которой следует фраза 1"

if ( /phrase 1.*phrase 2|phrase 2.*phrase 1/ ) {
    // it a match
}

Это будет очень сложно, если вы начнете добавлять фразы, но я бы не рекомендовал его для более длинных списков слов и фраз.

pilif · Answer 13 · 2009-01-22T18-17-00.000Z

Порядок всегда подразумевается в структуре регулярного выражения. Чтобы выполнить то, что вы хотите, вам придется сопоставлять входную строку несколько раз с различными выражениями.

То, что вы хотите сделать, невозможно с одним регулярным выражением.

Это технически невозможно, но не стоит реализовывать. Я не знаю, почему кто-то проголосовал, хотя ...
Вероятно, потому что это не только возможно, но и просто, если предположить, что ваш regex-артикль поддерживает прогнозирование. И это хорошая ставка; большинство современных языков программирования поддерживают их.