В чем разница между re.search и re.match?

Question

В чем разница между re.search и re.match?

366

В чем разница между функциями search() и match() в Python re module?

Я прочитал документацию ( текущая документация), но я никогда не помню его. Я продолжаю искать и переучивать его. Я надеюсь, что кто-то ясно ответит на это примерами, чтобы (возможно) это застряло у меня в голове. Или, по крайней мере, у меня будет лучшее место, чтобы вернуться с моим вопросом, и для его изучения потребуется меньше времени.

Daryl Spitzer 08 окт. 2008, в 01:41

Источник

Теги:

python

regex

match

search

8 ответов

71

search → найти что-нибудь в строке и вернуть объект соответствия.

match → найти что-то в начале строки и вернуть объект соответствия.

Dhanasekaran Anbalagan 31 дек. 2011, в 12:07

46

re.search поиск es для шаблона по всей строке, тогда как re.match не ищет шаблон; если это не так, у него нет другого выбора, кроме match в начале строки.

xilun 08 окт. 2008, в 02:35

4

Почему совпадение в начале, но не до конца строки ( fullmatch в fullmatch 3.4)?
Smit Johnth 14 июль 2015, в 19:21

23

Разница заключается в том, что re.match() вводит в заблуждение любого, кто привык к сопоставлению регулярных выражений Perl, grep или sed, а re.search() - нет.: -)

Более трезвый, Как замечает Джон Д. Кук, re.match() "ведет себя так, как если бы каждый шаблон имел" добавленный". Другими словами, re.match('pattern') равно re.search('^pattern'). Таким образом, он фиксирует левую сторону шаблона. Но он также не привязывает правую сторону шаблона: это все еще требует завершения $.

Откровенно говоря, я сказал, что re.match() должен быть устаревшим. Мне было бы интересно узнать причины, по которым его следует сохранить.

CODE-REaD 21 май 2016, в 15:07

3

"ведет себя так, как будто каждый шаблон имеет ^ предваряющий." Истинно, только если вы не используете многострочный параметр. Правильное утверждение "... имеет \ A в начале"
JoelFan 27 июнь 2017, в 23:38

22

вы можете ссылаться на приведенный ниже пример, чтобы понять работу re.match и re.search

a = "123abc"
t = re.match("[a-z]+",a)
t = re.search("[a-z]+",a)

re.match не вернет none, но re.search вернет abc.

ldR 30 июль 2015, в 05:28

3

Просто хотел бы добавить, что поиск вернет объект _sre.SRE_Match (или None, если не найден). Чтобы получить 'abc', вам нужно вызвать t.group ()
SanD 01 март 2017, в 15:09

16

Соответствие выполняется намного быстрее, чем поиск, поэтому вместо выполнения regex.search("word") вы можете выполнить regex.match((. *?) word (. *?)) и получить массу производительности, если работаете с миллионами образцы.

Этот комментарий @ivan_bilan под принятым ответом выше заставил меня задуматься о том, действительно ли такой хак ускоряет что-либо, поэтому давайте выясним, сколько тонн производительности вы действительно получите.

Я подготовил следующий набор тестов:

import random
import re
import string
import time

LENGTH = 10
LIST_SIZE = 1000000

def generate_word():
    word = [random.choice(string.ascii_lowercase) for _ in range(LENGTH)]
    word = ''.join(word)
    return word

wordlist = [generate_word() for _ in range(LIST_SIZE)]

start = time.time()
[re.search('python', word) for word in wordlist]
print('search:', time.time() - start)

start = time.time()
[re.match('(.*?)python(.*?)', word) for word in wordlist]
print('match:', time.time() - start)

Я сделал 10 измерений (1M, 2M,..., 10M слов), что дало мне следующий график:

Получающиеся линии удивительно (фактически не так удивительно) прямые. И функция search (немного) быстрее, учитывая эту конкретную комбинацию шаблонов. Мораль этого теста: избегайте чрезмерной оптимизации вашего кода.

Jeyekomon 07 апр. 2018, в 19:45

3

+1 за фактическое исследование предположений, лежащих в основе заявления, которое должно быть принято за чистую монету - спасибо.
Robert Dodier 30 окт. 2018, в 16:37
0

Действительно, комментарий @ivan_bilan выглядит неправильно, но функция match все еще быстрее, чем функция search если сравнить то же регулярное выражение. Вы можете проверить свой скрипт, сравнив re.search('^python', word) с re.match('python', word) (или re.match('^python', word) который такой же, но легче понять, если вы не читаете документацию и, кажется, не влияет на производительность)
baptx 21 янв. 2019, в 18:36
0

@baptx Я не согласен с утверждением о том , что match функция , как правило , быстрее. match быстрее , когда вы хотите , чтобы искать в начале строки, то search выполняется быстрее , если вы хотите искать по всей строке. Что соответствует здравому смыслу. Вот почему @ivan_bilan был неправ - он использовал match для поиска по всей строке. Вот почему вы правы - вы использовали match для поиска в начале строки. Если вы не согласны со мной, попробуйте найти регулярное выражение для match которое работает быстрее, чем re.search('python', word) и выполняет ту же работу.
Jeyekomon 22 янв. 2019, в 10:57
0

@baptx Кроме того , в сноске re.match('python') незначительно быстрее , чем re.match('^python') . Должно быть.
Jeyekomon 22 янв. 2019, в 11:26
0

@Jeyekomon да это то, что я имел в виду, match функция немного быстрее , если вы хотите , чтобы искать в начале строки ( по сравнению с использованием search функции , чтобы найти слово в начале строки с re.search('^python', word) например). Но я нахожу это странным, если вы сообщаете search функцию для поиска в начале строки, она должна быть так же быстро , как match функция.
baptx 23 янв. 2019, в 20:23
0

@baptx Я предполагаю, что функция search должна анализировать и обрабатывать информацию ^ то время как match уже записано в двоичном коде c. В любом случае разница в скорости составляет всего около 10% на моем ПК.
Jeyekomon 24 янв. 2019, в 19:58
0

@Jeyekomon он мог бы прийти отсюда , но я не думаю , что это тот случай , так как если мы даем ненужную ^ характер в match функции, это не займет больше времени , чтобы прочитать его (иногда это было даже немного быстрее).
baptx 26 янв. 2019, в 09:20

Показать ещё 5 комментариев

14

re.match пытается сопоставить шаблон в начале строки. re.search пытается сопоставить шаблон по всей строке, пока не найдет совпадение.

cschol 08 окт. 2008, в 01:16

0

Намного короче:

search сканирует всю строку.
match Делает только начало строки.

После Ex говорит это:

>>> a = "123abc"
>>> re.match("[a-z]+",a)
None
>>> re.search("[a-z]+",a)
abc

U9-Forward 31 окт. 2018, в 01:39

Ещё вопросы

Почему совпадение в начале, но не до конца строки ( fullmatch в fullmatch 3.4)?
"ведет себя так, как будто каждый шаблон имеет ^ предваряющий." Истинно, только если вы не используете многострочный параметр. Правильное утверждение "... имеет \ A в начале"
Просто хотел бы добавить, что поиск вернет объект _sre.SRE_Match (или None, если не найден). Чтобы получить 'abc', вам нужно вызвать t.group ()
+1 за фактическое исследование предположений, лежащих в основе заявления, которое должно быть принято за чистую монету - спасибо.
Действительно, комментарий @ivan_bilan выглядит неправильно, но функция match все еще быстрее, чем функция search если сравнить то же регулярное выражение. Вы можете проверить свой скрипт, сравнив re.search('^python', word) с re.match('python', word) (или re.match('^python', word) который такой же, но легче понять, если вы не читаете документацию и, кажется, не влияет на производительность)
@baptx Я не согласен с утверждением о том , что match функция , как правило , быстрее. match быстрее , когда вы хотите , чтобы искать в начале строки, то search выполняется быстрее , если вы хотите искать по всей строке. Что соответствует здравому смыслу. Вот почему @ivan_bilan был неправ - он использовал match для поиска по всей строке. Вот почему вы правы - вы использовали match для поиска в начале строки. Если вы не согласны со мной, попробуйте найти регулярное выражение для match которое работает быстрее, чем re.search('python', word) и выполняет ту же работу.
@baptx Кроме того , в сноске re.match('python') незначительно быстрее , чем re.match('^python') . Должно быть.
@Jeyekomon да это то, что я имел в виду, match функция немного быстрее , если вы хотите , чтобы искать в начале строки ( по сравнению с использованием search функции , чтобы найти слово в начале строки с re.search('^python', word) например). Но я нахожу это странным, если вы сообщаете search функцию для поиска в начале строки, она должна быть так же быстро , как match функция.
@baptx Я предполагаю, что функция search должна анализировать и обрабатывать информацию ^ то время как match уже записано в двоичном коде c. В любом случае разница в скорости составляет всего около 10% на моем ПК.
@Jeyekomon он мог бы прийти отсюда , но я не думаю , что это тот случай , так как если мы даем ненужную ^ характер в match функции, это не займет больше времени , чтобы прочитать его (иногда это было даже немного быстрее).

nosklo · Accepted Answer · 2008-10-08T00-56-00.000Z

re.match привязывается в начале строки. Это не имеет ничего общего с новыми строками, поэтому это не то же самое, что использовать ^ в шаблоне.

Как сообщает документация re.match:

Если на начало строки соответствует шаблону регулярных выражений, верните соответствующий экземпляр MatchObject. Верните None, если строка не соответствие шаблону; обратите внимание, что это отличная от совпадения с нулевой длиной.

Примечание. Если вы хотите найти совпадение в любом месте в строке используйте search()вместо этого.

re.search выполняет поиск по всей строке, поскольку в документации указано:

Сканировать строку, ища где регулярное выражение шаблон создает совпадение и возвращает соответствующий экземпляр MatchObject. Верните None, если в позиции строка соответствует шаблону; Обратите внимание, что это отличается от поиска совпадение нулевой длины в некоторый момент в строка.

Итак, если вам нужно совпадение в начале строки или для соответствия всей строке используйте match. Это быстрее. В противном случае используйте search.

В документации имеется конкретный раздел для match vs. search, который также охватывает многострочные строки:

Python предлагает два разных примитива операции, основанные на регулярных выражения: match проверяет соответствие только в начале строки, а search проверяет соответствие в любом месте в строке (это то, что Perl делает по умолчанию).

Обратите внимание, что match может отличаться от searchдаже при использовании регулярного выражения начиная с '^': '^' соответствует только в начале строки или в MULTILINE также сразу после новой строки. "match" операция выполняется только в том случае, если шаблон совпадает со строкой startнезависимо от режима, или при запуске положение, заданное опционным posаргумента, независимо от того, перед ним предшествует новая строка.

Теперь достаточно разговоров. Время, чтобы увидеть пример кода:

# example code:
string_with_newlines = """something
someotherthing"""

import re

print re.match('some', string_with_newlines) # matches
print re.match('someother', 
               string_with_newlines) # won't match
print re.match('^someother', string_with_newlines, 
               re.MULTILINE) # also won't match
print re.search('someother', 
                string_with_newlines) # finds something
print re.search('^someother', string_with_newlines, 
                re.MULTILINE) # also finds something

m = re.compile('thing$', re.MULTILINE)

print m.match(string_with_newlines) # no match
print m.match(string_with_newlines, pos=4) # matches
print m.search(string_with_newlines, 
               re.MULTILINE) # also matches

Как насчет строк, содержащих переводы строки?
даже со строками, содержащими символы новой строки, match () совпадает только в НАЧАЛЕ строки.
Это ответ, на который я надеялся! (Особенно сейчас, когда вы привели пример.)
Тогда зачем кому-то использовать ограниченное match а не более общий search ? это для скорости?
Сравнение @Alby намного быстрее, чем поиск, поэтому вместо regex.search ("word") вы можете выполнить regex.match ((. *?) Word (. *?)) И получить массу производительности, если вы работаете с миллионы образцов.
Ну, это глупо. Зачем называть это match ? Это умный маневр, чтобы заполнить API с неинтуитивными именами, чтобы заставить меня читать документацию? Я все еще не буду этого делать! Мятежник!
@ivan_bilan match выглядит немного faster чем поиск при использовании того же регулярного выражения, но ваш пример кажется неверным в соответствии с тестом производительности: stackoverflow.com/questions/180986/…
@nosklo Эй, могу ли я связаться с вами лично для работы в отношении регулярного выражения Python?