Стоит ли использовать Python re.compile?

Question

Стоит ли использовать Python re.compile?

387

Есть ли какая-либо польза от использования компиляции для регулярных выражений в Python?

h = re.compile('hello')
h.match('hello world')

против

re.match('hello', 'hello world')

Mat 16 янв. 2009, в 21:57

Источник

7

Кроме того факта, что в 2.6 re.sub не будет принимать аргумент flags ...
new123456 06 июнь 2011, в 03:27
44

Я только что натолкнулся на случай, когда использование re.compile дало улучшение в 10-50 раз. Мораль состоит в том, что если у вас много регулярных выражений (более MAXCACHE = 100), и вы используете их много раз каждый (и разделены более чем регулярными выражениями MAXCACHE между ними, так что каждый из них сбрасывается из кэша: используйте то же самое много раз, а затем переход к следующему не считается), тогда это определенно поможет скомпилировать их. В противном случае это не имеет значения.
ShreevatsaR 30 дек. 2013, в 14:21
7

Следует отметить одну небольшую вещь: для строк, которые не нуждаются в регулярном выражении, проверка in подстроке строк выполняется НАМНОГО быстрее: >python -m timeit -s "import re" "re.match('hello', 'hello world')" 1000000 loops, best of 3: 1.41 usec per loop >python -m timeit "x = 'hello' in 'hello world'" 10000000 loops, best of 3: 0.0513 usec per loop
Gamrix 01 сен. 2015, в 23:06
3

ПРИМЕЧАНИЕ: не используйте «в». @Gamrix Проблема с использованием «in» для проверки плоха, потому что она проверяет точные символы вместо слов, разделенных пробелами: Например, «wo» в «hello world» вернет True и «world» в «hello world». Лучше использовать регулярные выражения
MANU 21 авг. 2017, в 11:03
10

@ МАНУ, чувак, правда? Вы даже смотрели на его регулярное выражение? re.match ('hello', 'hello world') Это в точности эквивалентно "in." Такое поведение в целом не плохо. Это плохо только для вашего конкретного случая использования, который далеко не универсален.
arjunyg 21 авг. 2017, в 22:10
0

@arjunyg ЧУВАК ... Идея состояла в том, чтобы дать людям понять, что может пойти не так, если они смотрят только на тривиальные примеры (использование "in" для привет-мира) ... Тенденция переносить уже известные концепции (неполное знание как в этом случае) в УНИВЕРСАЛЬНЫХ или НЕПРИВОДНЫХ случаях использования является КОРНЕВЫМ причиной многих проблем !!
MANU 22 авг. 2017, в 07:07
1

@MANU Я считаю, что маловероятно, что кто-то не узнает, что "wo" в "hello world" возвращает true. Скорее всего, вы поймете эту концепцию еще до того, как начнете изучать циклы и циклы while, а тем более не будете переходить к таким сложным концепциям, как regex.
Nicholas Pipitone 28 сен. 2018, в 15:42
0

@NicholasPipitone идея состояла в том, чтобы ... НЕ полагаться на 'in', чтобы проверить слова, но вместо этого использовать регулярное выражение, ПРАВИЛЬНЫЙ РЕГЕКС, хотя и согласно требованию. Если ваш вариант использования подходит для «in», тогда продолжайте, просто запишите, что вы делаете. Поскольку re.match ('привет', 'hello world') и re.match ('привет', 'helloworld'), оба будут возвращать одинаковые результаты, но это неоднозначно, что хочет пользователь. И некоторые люди, плохо знакомые с Python, склонны совершать ошибки. Итак, для ясности (в основном для новичков): re.match (r '\ bhello \ b', 'hello world') против re.match (r '\ bhello \ b', 'helloworld').
MANU 29 сен. 2018, в 17:45

Показать ещё 6 комментариев

Теги:

python

regex

22 ответа

103

Для меня наибольшее преимущество re.compile - это не какая-то преждевременная оптимизация (это корень всего зла, в любом случае). Он может отделять определение регулярного выражения от его использования.

Даже простое выражение, такое как 0|[1-9][0-9]* (целое число в базе 10 без начальных нулей), может быть достаточно сложным, чтобы вам не пришлось повторять его, проверить, были ли сделаны какие-либо опечатки, а затем перепроверить, являются опечатками при запуске отладки. Кроме того, лучше использовать имя переменной, например num или num_b10, чем 0|[1-9][0-9]*.

Конечно, можно хранить строки и передавать их на re.match; однако, это менее читаемо:

num = "..."
# then, much later:
m = re.match(num, input)

В сравнении с компиляцией:

num = re.compile("...")
# then, much later:
m = num.match(input)

Хотя он довольно близок, последняя строка второй кажется более естественной и простой при повторном использовании.

Roger Pate 17 янв. 2009, в 17:59

2

Я согласен с этим ответом; часто использование re.compile приводит к большему, не менее читабельному коду.
Carl Meyer 01 фев. 2009, в 19:26
1

Иногда, наоборот, верно - например, если вы определяете регулярное выражение в одном месте и используете соответствующие группы в другом отдаленном месте.
Ken Williams 17 июль 2017, в 15:51
0

@KenWilliams Не обязательно, хорошо названное регулярное выражение для конкретной цели должно быть ясным, даже если оно используется далеко от исходного определения. Например, us_phone_number или social_security_number и т. Д.
Brian M. Sheldon 03 окт. 2018, в 13:53
0

@ BrianM. Шелдон, хорошо называя регулярное выражение, не поможет вам понять, что представляют его различные группы захвата.
Ken Williams 23 окт. 2018, в 03:58

Показать ещё 2 комментария

53

FWIW:

$ python -m timeit -s "import re" "re.match('hello', 'hello world')"
100000 loops, best of 3: 3.82 usec per loop

$ python -m timeit -s "import re; h=re.compile('hello')" "h.match('hello world')"
1000000 loops, best of 3: 1.26 usec per loop

поэтому, если вы собираетесь re.compile использовать одно и то же регулярное выражение, возможно, стоит сделать re.compile (особенно для более сложных регулярных выражений).

Применяются стандартные аргументы против преждевременной оптимизации, но я не думаю, что вы действительно потеряете много ясности/прямолинейности при использовании re.compile если вы подозреваете, что ваши re.compile могут стать узким местом производительности.

Обновить:

Под Python 3.6 (я подозреваю, что вышеупомянутые тайминги были сделаны с использованием Python 2.x) и аппаратного обеспечения 2018 года (MacBook Pro), теперь я получаю следующие тайминги:

% python -m timeit -s "import re" "re.match('hello', 'hello world')"
1000000 loops, best of 3: 0.661 usec per loop

% python -m timeit -s "import re; h=re.compile('hello')" "h.match('hello world')"
1000000 loops, best of 3: 0.285 usec per loop

% python -m timeit -s "import re" "h=re.compile('hello'); h.match('hello world')"
1000000 loops, best of 3: 0.65 usec per loop

% python --version
Python 3.6.5 :: Anaconda, Inc.

Я также добавил случай (обратите внимание на различия в кавычках между двумя последними прогонами), который показывает, что re.match(x,...) буквально [приблизительно] эквивалентно re.compile(x).match(...) то есть никакого закулисного кеширования скомпилированного представления, похоже, не происходит.

dF. 16 янв. 2009, в 22:10

5

Основные проблемы с вашей методологией здесь, поскольку аргумент настройки НЕ включается во время. Таким образом, вы удалили время компиляции из второго примера и просто усреднили его в первом примере. Это не значит, что первый пример компилируется каждый раз.
Triptych 16 янв. 2009, в 22:12
1

Да, я согласен, что это несправедливое сравнение двух случаев.
Kiv 16 янв. 2009, в 22:15
7

Я понимаю, что вы имеете в виду, но разве это не то, что произошло бы в реальном приложении, где регулярное выражение используется много раз?
dF. 17 янв. 2009, в 00:05
0

@dF: Вы правы, ЕСЛИ вы заботитесь только о производительности в одной конкретной части кода и можете предварительно скомпилировать регулярное выражение в другой части. В противном случае вам нужно рассчитать время вызова re.compile и включить его во второй номер, чтобы он был честным сравнением.
Carl Meyer 01 фев. 2009, в 19:25
24

@Triptych, @Kiv: Смысл компиляции регулярных выражений отдельно от использования заключается в минимизации компиляции; удаление его из времени - это именно то, что dF должен был сделать, потому что он наиболее точно отражает реальное использование. Время компиляции особенно не имеет отношения к тому, как timeit.py выполняет свои настройки здесь; он выполняет несколько запусков и сообщает только самый короткий, после чего скомпилированное регулярное выражение кэшируется. Дополнительные затраты, которые вы видите здесь, это не стоимость компиляции регулярного выражения, а стоимость поиска его в скомпилированном кэше регулярного выражения (словаре).
jemfinch 14 апр. 2010, в 11:47
1

Этот тест вводит в заблуждение. Общее время выполнения обоих тестов будет эквивалентно в реальном коде. Сначала компиляция позволяет вам решить, когда вы съедаете эти циклы ЦП, а не если .
Triptych 18 дек. 2014, в 21:03
2

@Triptych Должен ли import re быть перенесен из настройки? Это все о том, где вы хотите измерить. Если бы я запускал скрипт на Python несколько раз, у него было бы время import re . При сравнении двух важно разделить две строки для определения времени. Да, как вы говорите, это когда у вас будет время. Сравнение показывает, что либо вы берете удар по времени один раз и повторяете меньший удар по времени при компиляции, либо вы берете удар каждый раз, предполагая, что кэш очищается между вызовами, что, как было указано, может произойти. Добавление времени h=re.compile('hello') поможет прояснить h=re.compile('hello') .
Tom Myddeltyn 05 авг. 2016, в 19:17
0

Если вы работаете в Linux-подобной операционной системе, просто сделайте time python -m... вместо просто python -m... , и ваши результаты будут похожи на мои, вы увидите, что предварительная компиляция действительно важна выигрыш в производительности (для меня первый - 3,87 с общей загрузкой процессора, второй - 1,64 с.
Ken Williams 17 июль 2017, в 15:55
0

Регулярное выражение - это простая строка. Результат времени - время поиска регулярного выражения + время поиска в кеше для первого времени. Оставляя начальное время компиляции и другие недостатки этого метода в стороне, если бы мы резко увеличили время регулярного выражения, будет ли разница между этими двумя моментами оправдывать предварительную компиляцию?
TheMaster 30 авг. 2018, в 11:42

Показать ещё 7 комментариев

37

Вот простой тестовый пример:

~$ for x in 1 10 100 1000 10000 100000 1000000; do python -m timeit -n $x -s 'import re' 're.match("[0-9]{3}-[0-9]{3}-[0-9]{4}", "123-123-1234")'; done
1 loops, best of 3: 3.1 usec per loop
10 loops, best of 3: 2.41 usec per loop
100 loops, best of 3: 2.24 usec per loop
1000 loops, best of 3: 2.21 usec per loop
10000 loops, best of 3: 2.23 usec per loop
100000 loops, best of 3: 2.24 usec per loop
1000000 loops, best of 3: 2.31 usec per loop

с re.compile:

~$ for x in 1 10 100 1000 10000 100000 1000000; do python -m timeit -n $x -s 'import re' 'r = re.compile("[0-9]{3}-[0-9]{3}-[0-9]{4}")' 'r.match("123-123-1234")'; done
1 loops, best of 3: 1.91 usec per loop
10 loops, best of 3: 0.691 usec per loop
100 loops, best of 3: 0.701 usec per loop
1000 loops, best of 3: 0.684 usec per loop
10000 loops, best of 3: 0.682 usec per loop
100000 loops, best of 3: 0.694 usec per loop
1000000 loops, best of 3: 0.702 usec per loop

Итак, похоже, что компиляция выполняется быстрее с этим простым случаем, даже если вы только один раз сопоставляете.

david king 30 нояб. 2012, в 08:30

2

Какая версия Python это?
Kyle Strand 11 июль 2014, в 16:42
1

это на самом деле не имеет значения, дело в том, чтобы попробовать эталон в среде, где вы будете запускать код
david king 06 окт. 2014, в 17:27
1

Для меня производительность практически одинакова для 1000 и более петель. Скомпилированная версия быстрее на 1-100 циклов. (На обоих питонах 2.7 и 3.4).
Zitrax 23 нояб. 2015, в 12:34
2

В моей настройке Python 2.7.3 разницы почти нет. Иногда компиляция происходит быстрее, иногда медленнее. Разница всегда <5%, поэтому я считаю разницу как погрешность измерения, так как устройство имеет только один процессор.
Dakkaron 17 дек. 2015, в 11:52
1

В Python 3.4.3 наблюдается два отдельных запуска: использование скомпилировано было даже медленнее, чем не скомпилировано.
Zelphir 02 янв. 2016, в 23:33

Показать ещё 3 комментария

14

Я просто попробовал это сам. Для простого случая разбора числа из строки и его суммирования использование скомпилированного объекта регулярного выражения примерно в два раза быстрее, чем использование методов re.

Как уже отмечали другие, методы re (включая re.compile) ищут строку регулярного выражения в кэше ранее скомпилированных выражений. Следовательно, в обычном случае дополнительные затраты на использование методов re - это просто стоимость поиска в кэше.

Тем не менее, изучение кода, показывает, что кэш ограничен до 100 выражений. Возникает вопрос: насколько больно переполнять кеш? Код содержит внутренний интерфейс для компилятора регулярных выражений re.sre_compile.compile. Если мы это называем, мы обходим кеш. Оказывается, что оно примерно на два порядка медленнее для основного регулярного выражения, такого как r'\w+\s+([0-9_]+)\s+\w*'.

Вот мой тест:

#!/usr/bin/env python
import re
import time

def timed(func):
    def wrapper(*args):
        t = time.time()
        result = func(*args)
        t = time.time() - t
        print '%s took %.3f seconds.' % (func.func_name, t)
        return result
    return wrapper

regularExpression = r'\w+\s+([0-9_]+)\s+\w*'
testString = "average    2 never"

@timed
def noncompiled():
    a = 0
    for x in xrange(1000000):
        m = re.match(regularExpression, testString)
        a += int(m.group(1))
    return a

@timed
def compiled():
    a = 0
    rgx = re.compile(regularExpression)
    for x in xrange(1000000):
        m = rgx.match(testString)
        a += int(m.group(1))
    return a

@timed
def reallyCompiled():
    a = 0
    rgx = re.sre_compile.compile(regularExpression)
    for x in xrange(1000000):
        m = rgx.match(testString)
        a += int(m.group(1))
    return a


@timed
def compiledInLoop():
    a = 0
    for x in xrange(1000000):
        rgx = re.compile(regularExpression)
        m = rgx.match(testString)
        a += int(m.group(1))
    return a

@timed
def reallyCompiledInLoop():
    a = 0
    for x in xrange(10000):
        rgx = re.sre_compile.compile(regularExpression)
        m = rgx.match(testString)
        a += int(m.group(1))
    return a

r1 = noncompiled()
r2 = compiled()
r3 = reallyCompiled()
r4 = compiledInLoop()
r5 = reallyCompiledInLoop()
print "r1 = ", r1
print "r2 = ", r2
print "r3 = ", r3
print "r4 = ", r4
print "r5 = ", r5
</pre>
And here is the output on my machine:
<pre>
$ regexTest.py 
noncompiled took 4.555 seconds.
compiled took 2.323 seconds.
reallyCompiled took 2.325 seconds.
compiledInLoop took 4.620 seconds.
reallyCompiledInLoop took 4.074 seconds.
r1 =  2000000
r2 =  2000000
r3 =  2000000
r4 =  2000000
r5 =  20000

Методы "на самом деле скомпилированные" используют внутренний интерфейс, который обходит кеш. Обратите внимание, что тот, который компилируется на каждой итерации цикла, повторяется только 10 000 раз, а не один миллион.

George 14 апр. 2010, в 06:24

10

Я согласен с Honest Abe в том, что match(...) в данных примерах разные. Это не сопоставление "один к одному", и, следовательно, результаты варьируются. Чтобы упростить мой ответ, я использую A, B, C, D для этих функций. О да, мы имеем дело с 4 функциями в re.py вместо 3.

Запуск этого фрагмента кода:

h = re.compile('hello')                   # (A)
h.match('hello world')                    # (B)

совпадает с запуском этого кода:

re.match('hello', 'hello world')          # (C)

Поскольку при просмотре источника re.py (A + B) означает:

h = re._compile('hello')                  # (D)
h.match('hello world')

и (C) на самом деле:

re._compile('hello').match('hello world')

Итак, (C) не совпадает с (B). Фактически, (C) вызывает (B) после вызова (D), который также вызывается (A). Другими словами, (C) = (A) + (B). Поэтому сравнение (A + B) внутри цикла имеет тот же результат, что и (C) внутри цикла.

Джордж regexTest.py доказал это для нас.

noncompiled took 4.555 seconds.           # (C) in a loop
compiledInLoop took 4.620 seconds.        # (A + B) in a loop
compiled took 2.323 seconds.              # (A) once + (B) in a loop

Каждый заинтересован в том, как получить результат 2,323 секунды. Чтобы убедиться, что compile(...) вызывается только один раз, нам нужно сохранить скомпилированный объект регулярного выражения в памяти. Если мы используем класс, мы можем сохранить объект и повторно использовать его при каждом вызове нашей функции.

class Foo:
    regex = re.compile('hello')
    def my_function(text)
        return regex.match(text)

Если мы не используем класс (это мой запрос сегодня), то у меня нет комментариев. Я все еще участвую в использовании глобальной переменной в Python, и я знаю, что глобальная переменная - это плохо.

Еще один момент, я считаю, что использование подхода (A) + (B) имеет верх. Вот некоторые факты, которые я наблюдал (пожалуйста, поправьте меня, если я ошибаюсь):

Вызов Один раз, он выполнит один поиск в _cache, а затем один sre_compile.compile(), чтобы создать объект регулярного выражения. Вызов дважды, он выполнит два поиска и один компилятор (потому что объект regex кэшируется).
Если _cache закрашивается между ними, тогда объект regex освобождается из памяти, и Python необходимо снова скомпилировать. (кто-то подсказывает, что Python не будет перекомпилировать.)
Если мы сохраняем объект регулярного выражения с помощью (A), объект регулярного выражения все равно попадет в _cache и как-нибудь покраснет. Но наш код сохраняет ссылку на него, и объект regex не будет выпущен из памяти. Те, Python не нужно компилировать снова.
2-секундные различия в критериях Джорджа compiledInLoop против скомпилированного - это в основном время, необходимое для создания ключа и поиска в _cache. Это не означает время компиляции регулярного выражения.
Джордж действительно показывает, что произойдет, если он действительно повторяет компиляцию каждый раз: он будет на 100 раз медленнее (он сократил цикл с 1 000 000 до 10 000).

Вот только случаи, когда (A + B) лучше, чем (C):

Если мы можем кэшировать ссылку объекта regex внутри класса.
Если нам нужно многократно называть (B) (внутри цикла или несколько раз), мы должны кэшировать ссылку на объект регулярного выражения вне цикла.

Дело в том, что (C) достаточно хорошо:

Мы не можем кэшировать ссылку.
Мы используем его только время от времени.
В целом у нас не слишком много регулярных выражений (предположим, что скомпилированные никогда не сбрасываются)

Просто повторите, вот A B C:

h = re.compile('hello')                   # (A)
h.match('hello world')                    # (B)
re.match('hello', 'hello world')          # (C)

Спасибо за чтение.

John Pang 29 июль 2014, в 17:56

7

В основном, есть небольшая разница, используете ли вы re.compile или нет. Внутри все функции реализованы с точки зрения компиляции:

def match(pattern, string, flags=0):
    return _compile(pattern, flags).match(string)

def fullmatch(pattern, string, flags=0):
    return _compile(pattern, flags).fullmatch(string)

def search(pattern, string, flags=0):
    return _compile(pattern, flags).search(string)

def sub(pattern, repl, string, count=0, flags=0):
    return _compile(pattern, flags).sub(repl, string, count)

def subn(pattern, repl, string, count=0, flags=0):
    return _compile(pattern, flags).subn(repl, string, count)

def split(pattern, string, maxsplit=0, flags=0):
    return _compile(pattern, flags).split(string, maxsplit)

def findall(pattern, string, flags=0):
    return _compile(pattern, flags).findall(string)

def finditer(pattern, string, flags=0):
    return _compile(pattern, flags).finditer(string)

Кроме того, re.compile() обходит дополнительную логику адресации и кэширования:

_cache = {}

_pattern_type = type(sre_compile.compile("", 0))

_MAXCACHE = 512
def _compile(pattern, flags):
    # internal: compile pattern
    try:
        p, loc = _cache[type(pattern), pattern, flags]
        if loc is None or loc == _locale.setlocale(_locale.LC_CTYPE):
            return p
    except KeyError:
        pass
    if isinstance(pattern, _pattern_type):
        if flags:
            raise ValueError(
                "cannot process flags argument with a compiled pattern")
        return pattern
    if not sre_compile.isstring(pattern):
        raise TypeError("first argument must be string or compiled pattern")
    p = sre_compile.compile(pattern, flags)
    if not (flags & DEBUG):
        if len(_cache) >= _MAXCACHE:
            _cache.clear()
        if p.flags & LOCALE:
            if not _locale:
                return p
            loc = _locale.setlocale(_locale.LC_CTYPE)
        else:
            loc = None
        _cache[type(pattern), pattern, flags] = p, loc
    return p

В дополнение к небольшому выигрышу от использования re.compile, людям также нравится читаемость, которая исходит из наименования потенциально сложных спецификаций шаблонов и отделяет их от бизнес-логики, в которой применяются:

#### Patterns ############################################################
number_pattern = re.compile(r'\d+(\.\d*)?')    # Integer or decimal number
assign_pattern = re.compile(r':=')             # Assignment operator
identifier_pattern = re.compile(r'[A-Za-z]+')  # Identifiers
whitespace_pattern = re.compile(r'[\t ]+')     # Spaces and tabs

#### Applications ########################################################

if whitespace_pattern.match(s): business_logic_rule_1()
if assign_pattern.match(s): business_logic_rule_2()

Обратите внимание: один другой респондент неправильно полагал, что файлы pyc хранят скомпилированные шаблоны напрямую; однако на самом деле они перестраиваются каждый раз при загрузке PYC:

>>> from dis import dis
>>> with open('tmp.pyc', 'rb') as f:
        f.read(8)
        dis(marshal.load(f))

  1           0 LOAD_CONST               0 (-1)
              3 LOAD_CONST               1 (None)
              6 IMPORT_NAME              0 (re)
              9 STORE_NAME               0 (re)

  3          12 LOAD_NAME                0 (re)
             15 LOAD_ATTR                1 (compile)
             18 LOAD_CONST               2 ('[aeiou]{2,5}')
             21 CALL_FUNCTION            1
             24 STORE_NAME               2 (lc_vowels)
             27 LOAD_CONST               1 (None)
             30 RETURN_VALUE

Вышеупомянутая разборка происходит из файла PYC для tmp.py, содержащего:

import re
lc_vowels = re.compile(r'[aeiou]{2,5}')

Raymond Hettinger 21 фев. 2017, в 08:00

1

такое " в def search(pattern, string, flags=0):" опечатка?
phuclv 07 июль 2017, в 06:05
1

Обратите внимание, что если pattern уже является скомпилированным шаблоном, затраты на кэширование становятся значительными: хэширование SRE_Pattern дорого, и шаблон никогда не записывается в кэш, поэтому поиск каждый раз завершается с KeyError .
Eric Duminil 25 нояб. 2017, в 09:20

5

В общем, я считаю, что проще использовать флаги (по крайней мере, проще запомнить), например re.I при компиляции шаблонов, чем использовать встроенные флаги.

>>> foo_pat = re.compile('foo',re.I)
>>> foo_pat.findall('some string FoO bar')
['FoO']

vs

>>> re.findall('(?i)foo','some string FoO bar')
['FoO']

ptone 18 март 2009, в 22:15

4

Существует один дополнительный способ использования re.compile() в виде добавления комментариев к моим шаблонам регулярных выражений с использованием re.VERBOSE

pattern = '''
hello[ ]world    # Some info on my pattern logic. [ ] to recognize space
'''

re.search(pattern, 'hello world', re.VERBOSE)

Хотя это не влияет на скорость запуска вашего кода, мне нравится делать это таким образом, поскольку это часть моей привычки комментирования. Мне не нравится тратить время, пытаясь вспомнить логику, которая отстала от моего кода через 2 месяца после того, как я хочу внести изменения.

cyneo 20 март 2015, в 05:09

1

Я отредактировал твой ответ. Я думаю, что упоминание re.VERBOSE имеет смысл, и оно добавляет то, что другие ответы, похоже, не re.VERBOSE . Однако если вы ответите «Я пишу здесь, потому что я пока не могу комментировать», то обязательно удалите его. Пожалуйста, не используйте поле для ответов ни для чего, кроме ответов. Вы только один или два хороших ответа от возможности комментировать в любом месте (50 повторений), поэтому, пожалуйста, будьте терпеливы. Помещая комментарии в поля для ответов, когда вы знаете, что не должны, вы быстрее туда не попадете. Это даст вам отрицательные отзывы и удаленные ответы.
skrrgwasme 20 март 2015, в 03:46
1

спасибо за ваш совет =) я буду помнить это
cyneo 20 март 2015, в 04:43

4

Используя приведенные примеры:

h = re.compile('hello')
h.match('hello world')

Метод совпадения в приведенном выше примере не совпадает с тем, который используется ниже:

re.match('hello', 'hello world')

re.compile() возвращает объект регулярного выражения, что означает, что h является объектом регулярных выражений.

Объект regex имеет свой собственный метод match с необязательными параметрами pos и endpos:

regex.match(string[, pos[, endpos]])

поз

Необязательный второй параметр pos дает индекс в строке, где поиск начнется; он по умолчанию равен 0. Это не полностью эквивалентно разрезанию строки; символ шаблона '^' совпадает с реальное начало строки и позиции сразу после newline, но не обязательно в индексе, где поиск начать.

endpos

Необязательный параметр endpos ограничивает, насколько далеко будет строка поиск; это будет как если бы строка была символом endpos длинной, поэтому будут отображаться только символы из pos до endpos - 1. совпадение. Если endpos меньше, чем pos, совпадение не будет найдено; в противном случае, если rx - скомпилированный объект регулярного выражения, rx.search(string, 0, 50) эквивалентен rx.search(string[:50], 0).

Режимы поиска объектов, findall и finditer также поддерживают эти параметры.

re.match(pattern, string, flags=0) не поддерживает их, как вы можете видеть,
а также его поисковые, поисковые и находные копии.

A объект сопоставления содержит атрибуты, которые дополняют эти параметры:

match.pos

Значение pos, которое было передано методу search() или match() объект регулярного выражения. Это индекс в строку, в которой RE двигатель начал искать совпадение.

match.endpos

Значение endpos, которое было передано методу search() или match() объекта регулярного выражения. Это индекс в строку, за которой Двигатель RE не пойдет.

A объект regex имеет два уникальных, возможно полезных атрибута:

regex.groups

Число захваченных групп в шаблоне.

regex.groupindex

Словарь, отображающий любые имена символических групп, определенные (? P), на номера групп. Словарь пуст, если не было использовано никаких символических групп в шаблоне.

И, наконец, объект соответствия имеет этот атрибут:

match.re

Объект регулярного выражения, метод match() или search() создал этот экземпляр совпадения.

Honest Abe 10 март 2013, в 23:07

3

Помимо производительности.

Использование compile помогает мне различать понятия 1. модуль (re),
2. regex object
3. совместить объект
Когда я начал изучать регулярное выражение

#regex object
regex_object = re.compile(r'[a-zA-Z]+')
#match object
match_object = regex_object.search('1.Hello')
#matching content
match_object.group()
output:
Out[60]: 'Hello'
V.S.
re.search(r'[a-zA-Z]+','1.Hello').group()
Out[61]: 'Hello'

В качестве дополнения я сделал исчерпывающую страницу для модуля re для справки.

regex = {
'brackets':{'single_character': ['[]', '.', {'negate':'^'}],
            'capturing_group' : ['()','(?:)', '(?!)' '|', '\\', 'backreferences and named group'],
            'repetition'      : ['{}', '*?', '+?', '??', 'greedy v.s. lazy ?']},
'lookaround' :{'lookahead'  : ['(?=...)', '(?!...)'],
            'lookbehind' : ['(?<=...)','(?<!...)'],
            'caputuring' : ['(?P<name>...)', '(?P=name)', '(?:)'],},
'escapes':{'anchor'          : ['^', '\b', '$'],
          'non_printable'   : ['\n', '\t', '\r', '\f', '\v'],
          'shorthand'       : ['\d', '\w', '\s']},
'methods': {['search', 'match', 'findall', 'finditer'],
              ['split', 'sub']},
'match_object': ['group','groups', 'groupdict','start', 'end', 'span',]
}

JawSaw 11 янв. 2018, в 13:48

3

Этот ответ может прибыть поздно, но интересная находка. Использование компиляции может сэкономить ваше время, если вы планируете многократно использовать регулярное выражение (это также упоминается в документах). Ниже вы можете видеть, что использование скомпилированного регулярного выражения является самым быстрым, когда метод сопоставления непосредственно вызывает его. передача скомпилированного регулярного выражения в re.match делает его еще медленнее, и передача re.match со строкой patter находится где-то посередине.

>>> ipr = r'\D+((([0-2][0-5]?[0-5]?)\.){3}([0-2][0-5]?[0-5]?))\D+'
>>> average(*timeit.repeat("re.match(ipr, 'abcd100.10.255.255 ')", globals={'ipr': ipr, 're': re}))
1.5077415757028423
>>> ipr = re.compile(ipr)
>>> average(*timeit.repeat("re.match(ipr, 'abcd100.10.255.255 ')", globals={'ipr': ipr, 're': re}))
1.8324008992184038
>>> average(*timeit.repeat("ipr.match('abcd100.10.255.255 ')", globals={'ipr': ipr, 're': re}))
0.9187896518778871

Akilesh 12 сен. 2016, в 09:48

3

Отличие от производительности, используя re.compile и использование скомпилированного объекта регулярного выражения для соответствия (любые операции, связанные с регулярным выражением) делает семантику более ясной для времени выполнения Python.

У меня был некоторый болезненный опыт отладки простого кода:

compare = lambda s, p: re.match(p, s)

а позже я бы использовал сравнение в

[x for x in data if compare(patternPhrases, x[columnIndex])]

где patternPhrases предполагается переменной, содержащей строку регулярного выражения, x[columnIndex] - это переменная, содержащая строку.

У меня были проблемы с тем, что patternPhrases не соответствует ожидаемой строке!

Но если я использовал форму re.compile:

compare = lambda s, p: p.match(s)

то в

[x for x in data if compare(patternPhrases, x[columnIndex])]

Python жаловался бы, что "строка не имеет атрибута соответствия", так как с помощью позиционного сопоставления аргументов в compare, x[columnIndex] используется как регулярное выражение!, когда я на самом деле имел в виду

compare = lambda p, s: p.match(s)

В моем случае использование re.compile более явно предназначено для регулярного выражения, когда значение скрыто для невооруженных глаз, поэтому я могу получить дополнительную помощь от проверки времени выполнения Python.

Итак, мораль моего урока состоит в том, что, когда регулярное выражение - это не просто буквальная строка, я должен использовать re.compile, чтобы позволить Python помочь мне утвердить мое предположение.

Yu Shen 11 июль 2013, в 17:28

3

Я провел этот тест, прежде чем споткнуться о дискуссии здесь. Однако, запустив его, я подумал, что, по крайней мере, опубликую свои результаты.

Я украл и укрепил пример в Джеффе Фридле "Освоение регулярных выражений". Это на macbook с OSX 10.6 (2Ghz intel core 2 duo, 4GB RAM). Версия Python - 2.6.1.

Запуск 1 - использование re.compile

import re 
import time 
import fpformat
Regex1 = re.compile('^(a|b|c|d|e|f|g)+$') 
Regex2 = re.compile('^[a-g]+$')
TimesToDo = 1000
TestString = "" 
for i in range(1000):
    TestString += "abababdedfg"
StartTime = time.time() 
for i in range(TimesToDo):
    Regex1.search(TestString) 
Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + " seconds"

StartTime = time.time() 
for i in range(TimesToDo):
    Regex2.search(TestString) 
Seconds = time.time() - StartTime 
print "Character Class takes " + fpformat.fix(Seconds,3) + " seconds"

Alternation takes 2.299 seconds
Character Class takes 0.107 seconds

Выполнить 2 - Не использовать re.compile

import re 
import time 
import fpformat

TimesToDo = 1000
TestString = "" 
for i in range(1000):
    TestString += "abababdedfg"
StartTime = time.time() 
for i in range(TimesToDo):
    re.search('^(a|b|c|d|e|f|g)+$',TestString) 
Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + " seconds"

StartTime = time.time() 
for i in range(TimesToDo):
    re.search('^[a-g]+$',TestString) 
Seconds = time.time() - StartTime 
print "Character Class takes " + fpformat.fix(Seconds,3) + " seconds"

Alternation takes 2.508 seconds
Character Class takes 0.109 seconds

netricate 17 янв. 2010, в 22:41

3

Интересно, что компиляция для меня оказывается более эффективной (Python 2.5.2 на Win XP):

import re
import time

rgx = re.compile('(\w+)\s+[0-9_]?\s+\w*')
str = "average    2 never"
a = 0

t = time.time()

for i in xrange(1000000):
    if re.match('(\w+)\s+[0-9_]?\s+\w*', str):
    #~ if rgx.match(str):
        a += 1

print time.time() - t

Запуск вышеуказанного кода один раз, как есть, и один раз, когда две строки if прокомментировали наоборот, скомпилированное регулярное выражение в два раза быстрее

Eli Bendersky 20 янв. 2009, в 19:10

2

Та же проблема, что и при сравнении производительности dF. Это не совсем справедливо, если вы не включите стоимость производительности самого оператора компиляции.
Carl Meyer 01 фев. 2009, в 19:27
6

Карл, я не согласен. Компиляция выполняется только один раз, а соответствующий цикл выполняется миллион раз
Eli Bendersky 01 фев. 2009, в 20:19
0

@eliben: я согласен с Карлом Мейером. Компиляция происходит в обоих случаях. Триптих упоминает, что кеширование задействовано, поэтому в оптимальном случае (остается в кеше) оба подхода O (n + 1), хотя часть +1 скрыта, если вы не используете re.compile явно.
paprika 19 фев. 2009, в 04:02
1

Не пишите свой собственный код для тестирования. Научитесь использовать timeit.py, который входит в стандартный дистрибутив.
jemfinch 14 апр. 2010, в 11:48
0

Сколько времени вы воссоздаете строку шаблона в цикле for. Эти накладные расходы не могут быть тривиальными.
IceArdor 24 апр. 2014, в 08:16

Показать ещё 3 комментария

2

Я действительно уважаю все вышеперечисленные ответы. По моему мнению Да! Конечно, стоит использовать re.compile вместо компиляции регулярного выражения, снова и снова, каждый раз.

Использование re.compile делает ваш код более динамичным, так как вы можете вызывать уже скомпилированное регулярное выражение, а не компилировать снова и aagain. Эта вещь приносит вам пользу:

Процессорные усилия
Сложность времени.
Делает регулярное выражение Universal (может использоваться в поиске, поиске, совпадении)
И делает вашу программу классной.

Пример:

  example_string = "The room number of her room is 26A7B."
  find_alpha_numeric_string = re.compile(r"\b\w+\b")

Использование в Findall

 find_alpha_numeric_string.findall(example_string)

Использование в поиске

  find_alpha_numeric_string.search(example_string)

Аналогично вы можете использовать его для: Match и Substitute

The Gr8 Adakron 14 март 2017, в 13:35

2

Это хороший вопрос. Вы часто видите, что люди используют re.compile без причины. Это уменьшает читаемость. Но обязательно есть много раз, когда требуется предварительная компиляция выражения. Например, когда вы используете его повторяющиеся моменты в цикле или некоторых таких.

Это как все о программировании (все в жизни на самом деле). Примените здравый смысл.

PEZ 16 янв. 2009, в 23:43

0

Насколько я могу судить по моему краткому обзору, Python в двух словах не упоминает об использовании без re.compile (), что меня заинтересовало.
Mat 16 янв. 2009, в 21:55
2

-1 Как это снижает читабельность?
Cris Stringfellow 02 март 2012, в 10:34
0

Объект регулярного выражения добавляет еще один объект в контекст. Как я уже сказал, существует много ситуаций, когда re.compile () имеет свое место. Пример, приведенный ФП, не является одним из них.
PEZ 04 март 2012, в 19:46

Показать ещё 1 комментарий

1

У меня был большой опыт работы с скомпилированным регулярным выражением 1000s времени и компиляции на лету, и не заметили любая воспринимаемая разница

Голоса принятого ответа приводят к предположению, что то, что @Triptych говорит, верно для всех случаев. Это не обязательно правда. Одна большая разница заключается в том, когда вам нужно решить, следует ли принимать строку регулярного выражения или скомпилированный объект регулярного выражения в качестве параметра функции:

>>> timeit.timeit(setup="""
... import re
... f=lambda x, y: x.match(y)       # accepts compiled regex as parameter
... h=re.compile('hello')
... """, stmt="f(h, 'hello world')")
0.32881879806518555
>>> timeit.timeit(setup="""
... import re
... f=lambda x, y: re.compile(x).match(y)   # compiles when called
... """, stmt="f('hello', 'hello world')")
0.809190034866333

Всегда лучше компилировать ваши регулярные выражения, если вам нужно их повторно использовать.

Обратите внимание, что пример в timeit выше имитирует создание скомпилированного объекта регулярного выражения один раз во время импорта по сравнению с "на лету", когда это необходимо для соответствия.

lonetwin 04 янв. 2017, в 15:14

1

(через несколько месяцев) легко добавить свой собственный кеш в re.match, или что-нибудь еще в этом отношении -

""" Re.py: Re.match = re.match + cache  
    efficiency: re.py does this already (but what _MAXCACHE ?)
    readability, inline / separate: matter of taste
"""

import re

cache = {}
_re_type = type( re.compile( "" ))

def match( pattern, str, *opt ):
    """ Re.match = re.match + cache re.compile( pattern ) 
    """
    if type(pattern) == _re_type:
        cpat = pattern
    elif pattern in cache:
        cpat = cache[pattern]
    else:
        cpat = cache[pattern] = re.compile( pattern, *opt )
    return cpat.match( str )

# def search ...

A wibni, было бы неплохо, если бы: cachehint (size =), cacheinfo() → размер, хиты, nclear...

denis 06 июль 2009, в 10:52

0

Регулярные выражения компилируются перед использованием при использовании второй версии. Если вы собираетесь выполнять его много раз, то, безусловно, лучше скомпилировать его в первую очередь. Если вы не компилируете каждый раз, когда вы соответствуете одному, это нормально.

Adam Peck 16 янв. 2009, в 22:13

-2

Я бы хотел, чтобы предварительная компиляция была концептуально и "грамотно" (как в "грамотном программировании" ). посмотрите этот фрагмент кода:

from re import compile as _Re

class TYPO:

  def text_has_foobar( self, text ):
    return self._text_has_foobar_re_search( text ) is not None
  _text_has_foobar_re_search = _Re( r"""(?i)foobar""" ).search

TYPO = TYPO()

в вашем приложении, вы должны написать:

from TYPO import TYPO
print( TYPO.text_has_foobar( 'FOObar ) )

это примерно так же просто, как и в плане функциональности. потому что это пример настолько короткий, что я собрал способ получить _text_has_foobar_re_search все в одной строке. недостатком этого кода является то, что он занимает небольшую память для любого времени жизни объекта библиотеки TYPO; Преимущество заключается в том, что при выполнении поиска foobar вы получите две функции и два словаря поиска. сколько regexes кэшируется re, и накладные расходы этого кэша здесь неактуальны.

сравните это с более обычным стилем, ниже:

import re

class Typo:

  def text_has_foobar( self, text ):
    return re.compile( r"""(?i)foobar""" ).search( text ) is not None

В приложении:

typo = Typo()
print( typo.text_has_foobar( 'FOObar ) )

Я с готовностью признаю, что мой стиль необычен для python, может быть, даже спорный. однако в примере, который более точно соответствует тому, как используется python в основном, для того, чтобы выполнить одно совпадение, мы должны создать экземпляр объекта, выполнить три словарных поиска в словаре и выполнить три вызова функций; Кроме того, мы можем столкнуться с проблемами кэширования re при использовании более 100 регулярных выражений. также регулярное выражение скрывается внутри тела метода, которое в большинстве случаев не является такой хорошей идеей.

будь то сказано, что каждое подмножество мер --- целевые, сглаженные импортные заявления; где это применимо; сокращение вызовов функций и поиск словаря объектов --- может помочь уменьшить вычислительную и концептуальную сложность.

flow 06 нояб. 2010, в 20:19

2

WTF. Не только вы откопали старый, отвеченный вопрос. Ваш код не является идиоматическим и неправильным на многих уровнях - (ab) использование классов в качестве пространств имен, где достаточно модуля, использование заглавных букв классов и т. Д. См. Pastebin.com/iTAXAWen для лучших реализаций. Не говоря уже о том, что используемое вами регулярное выражение также нарушено. Всего -1
user395760 06 нояб. 2010, в 20:34
2

виновным. это старый вопрос, но я не возражаю против того, чтобы быть # 100 в замедленном разговоре. вопрос не был закрыт. Я предупреждал, что мой код может быть противником некоторых вкусов. я думаю, если бы вы могли рассматривать это как простую демонстрацию того, что выполнимо в python, например: если мы берем все, все, во что мы верим, как необязательные, а затем объединяем все, что угодно, как выглядят вещи, которые мы можем получить? Я уверен, что вы можете различить достоинства и недостатки этого решения и можете жаловаться более четко. в противном случае я должен сделать вывод, что ваше утверждение о неправомерности опирается на чуть больше, чем PEP008
flow 06 нояб. 2010, в 22:14
2

Нет, дело не в PEP8. Это просто соглашения об именах, и я бы никогда не понизил голосование за их несоблюдение. Я отказался от вас, потому что код, который вы показали, просто плохо написан. Он игнорирует условные обозначения и идиомы без причины и является воплощением преждевременной оптимизации: вам придется оптимизировать дневной свет из всего остального кода, чтобы это стало узким местом, и даже тогда третье предложенное мной переписывание будет короче, более идиоматично и так же быстро по вашим рассуждениям (такое же количество атрибутов доступа).
user395760 07 нояб. 2010, в 16:09
0

«плохо написано» - как, почему именно? «бросает вызов соглашениям и идиомам», - предупредил я вас. «без причины» - да, у меня есть причина: упрощать, когда сложность не имеет смысла; «воплощение преждевременной оптимизации» - я очень за стиль программирования, который выбирает баланс читабельности и эффективности; ОП попросил выявить «пользу от использования re.compile», что я понимаю как вопрос об эффективности. «(ab) использование классов в качестве пространств имен» - это ваши слова оскорбительны. класс есть, так что у вас есть «я» точка отсчета. Я пытался использовать модули для этой цели, классы работают лучше.
flow 09 нояб. 2010, в 13:36
0

«Использование заглавных букв в именах классов», «Нет, дело не в PEP8» - вы, очевидно, настолько безумно сердиты, что даже не можете сказать, что спорить в первую очередь. "WTF", " неправильно " --- видите, как вы эмоциональны? больше объективности и меньше пены, пожалуйста.
flow 09 нояб. 2010, в 14:19

Показать ещё 3 комментария

-4

Я понимаю, что эти два примера эффективно эквивалентны. Единственное различие заключается в том, что в первом случае вы можете повторно использовать скомпилированное регулярное выражение в другом месте, не заставляя его компилироваться снова.

Вот ссылка для вас: http://diveintopython3.ep.io/refactoring.html

Вызов функции поиска объекта скомпилированного шаблона со строкой "M" выполняет то же самое, что и вызов re.search как с регулярным выражением, так и с строкой "M". Только намного, намного быстрее. (Фактически функция re.search просто компилирует регулярное выражение и вызывает для вас результирующий метод поиска объекта шаблона.)

Matthew Maravillas 16 янв. 2009, в 21:44

1

я не отрицал вас, но технически это неправильно: Python все равно не перекомпилируется
Triptych 16 янв. 2009, в 22:21

Ещё вопросы

Кроме того факта, что в 2.6 re.sub не будет принимать аргумент flags ...
Я только что натолкнулся на случай, когда использование re.compile дало улучшение в 10-50 раз. Мораль состоит в том, что если у вас много регулярных выражений (более MAXCACHE = 100), и вы используете их много раз каждый (и разделены более чем регулярными выражениями MAXCACHE между ними, так что каждый из них сбрасывается из кэша: используйте то же самое много раз, а затем переход к следующему не считается), тогда это определенно поможет скомпилировать их. В противном случае это не имеет значения.
Следует отметить одну небольшую вещь: для строк, которые не нуждаются в регулярном выражении, проверка in подстроке строк выполняется НАМНОГО быстрее: >python -m timeit -s "import re" "re.match('hello', 'hello world')" 1000000 loops, best of 3: 1.41 usec per loop >python -m timeit "x = 'hello' in 'hello world'" 10000000 loops, best of 3: 0.0513 usec per loop
ПРИМЕЧАНИЕ: не используйте «в». @Gamrix Проблема с использованием «in» для проверки плоха, потому что она проверяет точные символы вместо слов, разделенных пробелами: Например, «wo» в «hello world» вернет True и «world» в «hello world». Лучше использовать регулярные выражения
@ МАНУ, чувак, правда? Вы даже смотрели на его регулярное выражение? re.match ('hello', 'hello world') Это в точности эквивалентно "in." Такое поведение в целом не плохо. Это плохо только для вашего конкретного случая использования, который далеко не универсален.
@arjunyg ЧУВАК ... Идея состояла в том, чтобы дать людям понять, что может пойти не так, если они смотрят только на тривиальные примеры (использование "in" для привет-мира) ... Тенденция переносить уже известные концепции (неполное знание как в этом случае) в УНИВЕРСАЛЬНЫХ или НЕПРИВОДНЫХ случаях использования является КОРНЕВЫМ причиной многих проблем !!
@MANU Я считаю, что маловероятно, что кто-то не узнает, что "wo" в "hello world" возвращает true. Скорее всего, вы поймете эту концепцию еще до того, как начнете изучать циклы и циклы while, а тем более не будете переходить к таким сложным концепциям, как regex.
@NicholasPipitone идея состояла в том, чтобы ... НЕ полагаться на 'in', чтобы проверить слова, но вместо этого использовать регулярное выражение, ПРАВИЛЬНЫЙ РЕГЕКС, хотя и согласно требованию. Если ваш вариант использования подходит для «in», тогда продолжайте, просто запишите, что вы делаете. Поскольку re.match ('привет', 'hello world') и re.match ('привет', 'helloworld'), оба будут возвращать одинаковые результаты, но это неоднозначно, что хочет пользователь. И некоторые люди, плохо знакомые с Python, склонны совершать ошибки. Итак, для ясности (в основном для новичков): re.match (r '\ bhello \ b', 'hello world') против re.match (r '\ bhello \ b', 'helloworld').
Я согласен с этим ответом; часто использование re.compile приводит к большему, не менее читабельному коду.
Иногда, наоборот, верно - например, если вы определяете регулярное выражение в одном месте и используете соответствующие группы в другом отдаленном месте.
@KenWilliams Не обязательно, хорошо названное регулярное выражение для конкретной цели должно быть ясным, даже если оно используется далеко от исходного определения. Например, us_phone_number или social_security_number и т. Д.
@ BrianM. Шелдон, хорошо называя регулярное выражение, не поможет вам понять, что представляют его различные группы захвата.
Основные проблемы с вашей методологией здесь, поскольку аргумент настройки НЕ включается во время. Таким образом, вы удалили время компиляции из второго примера и просто усреднили его в первом примере. Это не значит, что первый пример компилируется каждый раз.
Да, я согласен, что это несправедливое сравнение двух случаев.
Я понимаю, что вы имеете в виду, но разве это не то, что произошло бы в реальном приложении, где регулярное выражение используется много раз?
@dF: Вы правы, ЕСЛИ вы заботитесь только о производительности в одной конкретной части кода и можете предварительно скомпилировать регулярное выражение в другой части. В противном случае вам нужно рассчитать время вызова re.compile и включить его во второй номер, чтобы он был честным сравнением.
@Triptych, @Kiv: Смысл компиляции регулярных выражений отдельно от использования заключается в минимизации компиляции; удаление его из времени - это именно то, что dF должен был сделать, потому что он наиболее точно отражает реальное использование. Время компиляции особенно не имеет отношения к тому, как timeit.py выполняет свои настройки здесь; он выполняет несколько запусков и сообщает только самый короткий, после чего скомпилированное регулярное выражение кэшируется. Дополнительные затраты, которые вы видите здесь, это не стоимость компиляции регулярного выражения, а стоимость поиска его в скомпилированном кэше регулярного выражения (словаре).
Этот тест вводит в заблуждение. Общее время выполнения обоих тестов будет эквивалентно в реальном коде. Сначала компиляция позволяет вам решить, когда вы съедаете эти циклы ЦП, а не если .
@Triptych Должен ли import re быть перенесен из настройки? Это все о том, где вы хотите измерить. Если бы я запускал скрипт на Python несколько раз, у него было бы время import re . При сравнении двух важно разделить две строки для определения времени. Да, как вы говорите, это когда у вас будет время. Сравнение показывает, что либо вы берете удар по времени один раз и повторяете меньший удар по времени при компиляции, либо вы берете удар каждый раз, предполагая, что кэш очищается между вызовами, что, как было указано, может произойти. Добавление времени h=re.compile('hello') поможет прояснить h=re.compile('hello') .
Если вы работаете в Linux-подобной операционной системе, просто сделайте time python -m... вместо просто python -m... , и ваши результаты будут похожи на мои, вы увидите, что предварительная компиляция действительно важна выигрыш в производительности (для меня первый - 3,87 с общей загрузкой процессора, второй - 1,64 с.
Регулярное выражение - это простая строка. Результат времени - время поиска регулярного выражения + время поиска в кеше для первого времени. Оставляя начальное время компиляции и другие недостатки этого метода в стороне, если бы мы резко увеличили время регулярного выражения, будет ли разница между этими двумя моментами оправдывать предварительную компиляцию?
это на самом деле не имеет значения, дело в том, чтобы попробовать эталон в среде, где вы будете запускать код
Для меня производительность практически одинакова для 1000 и более петель. Скомпилированная версия быстрее на 1-100 циклов. (На обоих питонах 2.7 и 3.4).
В моей настройке Python 2.7.3 разницы почти нет. Иногда компиляция происходит быстрее, иногда медленнее. Разница всегда <5%, поэтому я считаю разницу как погрешность измерения, так как устройство имеет только один процессор.
В Python 3.4.3 наблюдается два отдельных запуска: использование скомпилировано было даже медленнее, чем не скомпилировано.
такое " в def search(pattern, string, flags=0):" опечатка?
Обратите внимание, что если pattern уже является скомпилированным шаблоном, затраты на кэширование становятся значительными: хэширование SRE_Pattern дорого, и шаблон никогда не записывается в кэш, поэтому поиск каждый раз завершается с KeyError .
Я отредактировал твой ответ. Я думаю, что упоминание re.VERBOSE имеет смысл, и оно добавляет то, что другие ответы, похоже, не re.VERBOSE . Однако если вы ответите «Я пишу здесь, потому что я пока не могу комментировать», то обязательно удалите его. Пожалуйста, не используйте поле для ответов ни для чего, кроме ответов. Вы только один или два хороших ответа от возможности комментировать в любом месте (50 повторений), поэтому, пожалуйста, будьте терпеливы. Помещая комментарии в поля для ответов, когда вы знаете, что не должны, вы быстрее туда не попадете. Это даст вам отрицательные отзывы и удаленные ответы.
спасибо за ваш совет =) я буду помнить это
Та же проблема, что и при сравнении производительности dF. Это не совсем справедливо, если вы не включите стоимость производительности самого оператора компиляции.
Карл, я не согласен. Компиляция выполняется только один раз, а соответствующий цикл выполняется миллион раз
@eliben: я согласен с Карлом Мейером. Компиляция происходит в обоих случаях. Триптих упоминает, что кеширование задействовано, поэтому в оптимальном случае (остается в кеше) оба подхода O (n + 1), хотя часть +1 скрыта, если вы не используете re.compile явно.
Не пишите свой собственный код для тестирования. Научитесь использовать timeit.py, который входит в стандартный дистрибутив.
Сколько времени вы воссоздаете строку шаблона в цикле for. Эти накладные расходы не могут быть тривиальными.
Насколько я могу судить по моему краткому обзору, Python в двух словах не упоминает об использовании без re.compile (), что меня заинтересовало.
Объект регулярного выражения добавляет еще один объект в контекст. Как я уже сказал, существует много ситуаций, когда re.compile () имеет свое место. Пример, приведенный ФП, не является одним из них.
WTF. Не только вы откопали старый, отвеченный вопрос. Ваш код не является идиоматическим и неправильным на многих уровнях - (ab) использование классов в качестве пространств имен, где достаточно модуля, использование заглавных букв классов и т. Д. См. Pastebin.com/iTAXAWen для лучших реализаций. Не говоря уже о том, что используемое вами регулярное выражение также нарушено. Всего -1
виновным. это старый вопрос, но я не возражаю против того, чтобы быть # 100 в замедленном разговоре. вопрос не был закрыт. Я предупреждал, что мой код может быть противником некоторых вкусов. я думаю, если бы вы могли рассматривать это как простую демонстрацию того, что выполнимо в python, например: если мы берем все, все, во что мы верим, как необязательные, а затем объединяем все, что угодно, как выглядят вещи, которые мы можем получить? Я уверен, что вы можете различить достоинства и недостатки этого решения и можете жаловаться более четко. в противном случае я должен сделать вывод, что ваше утверждение о неправомерности опирается на чуть больше, чем PEP008
Нет, дело не в PEP8. Это просто соглашения об именах, и я бы никогда не понизил голосование за их несоблюдение. Я отказался от вас, потому что код, который вы показали, просто плохо написан. Он игнорирует условные обозначения и идиомы без причины и является воплощением преждевременной оптимизации: вам придется оптимизировать дневной свет из всего остального кода, чтобы это стало узким местом, и даже тогда третье предложенное мной переписывание будет короче, более идиоматично и так же быстро по вашим рассуждениям (такое же количество атрибутов доступа).
«плохо написано» - как, почему именно? «бросает вызов соглашениям и идиомам», - предупредил я вас. «без причины» - да, у меня есть причина: упрощать, когда сложность не имеет смысла; «воплощение преждевременной оптимизации» - я очень за стиль программирования, который выбирает баланс читабельности и эффективности; ОП попросил выявить «пользу от использования re.compile», что я понимаю как вопрос об эффективности. «(ab) использование классов в качестве пространств имен» - это ваши слова оскорбительны. класс есть, так что у вас есть «я» точка отсчета. Я пытался использовать модули для этой цели, классы работают лучше.
«Использование заглавных букв в именах классов», «Нет, дело не в PEP8» - вы, очевидно, настолько безумно сердиты, что даже не можете сказать, что спорить в первую очередь. "WTF", " неправильно " --- видите, как вы эмоциональны? больше объективности и меньше пены, пожалуйста.
я не отрицал вас, но технически это неправильно: Python все равно не перекомпилируется

Triptych · Accepted Answer · 2009-01-16T22-41-00.000Z

388

Лучший ответ

У меня был большой опыт работы с скомпилированным регулярным выражением 1000 раз по сравнению с компиляцией "на лету" и не заметил никакой заметной разницы. Очевидно, что это анекдотично и, конечно же, не является большим аргументом против компиляции, но я обнаружил, что разница незначительна.

EDIT: После быстрого взгляда на фактический код библиотеки Python 2.5, я вижу, что Python внутренне компилирует регулярные выражения AND CACHES всякий раз, когда вы их используете (в том числе вызовы на re.match()), поэтому вы действительно изменяете WHEN, когда регулярное выражение компилируется и должно не нужно экономить много времени - только время, необходимое для проверки кеша (ключевой поиск по внутреннему типу dict).

Из модуля re.py(комментарии мои):

def match(pattern, string, flags=0):
    return _compile(pattern, flags).match(string)

def _compile(*key):

    # Does cache check at top of function
    cachekey = (type(key[0]),) + key
    p = _cache.get(cachekey)
    if p is not None: return p

    # ...
    # Does actual compilation on cache miss
    # ...

    # Caches compiled regex
    if len(_cache) >= _MAXCACHE:
        _cache.clear()
    _cache[cachekey] = p
    return p

Я до сих пор часто компилирую регулярные выражения, но только для привязки их к хорошему многократно используемому имени, а не к ожидаемому увеличению производительности.

Triptych 16 янв. 2009, в 22:41

11

Ваш вывод не соответствует вашему ответу. Если регулярные выражения компилируются и сохраняются автоматически, в большинстве случаев нет необходимости делать это вручную.
jfs 17 янв. 2009, в 00:21
74

Дж. Ф. Себастьян, это служит сигналом для программиста, что рассматриваемое регулярное выражение будет много использоваться и не должно быть отбрасыванием.
kaleissin 20 янв. 2009, в 14:28
30

Более того, я бы сказал, что если вы не хотите подвергаться ударам компиляции и кэширования в какой-то критически важной для вашего приложения части, лучше всего скомпилировать их перед установкой некритической части вашего приложения. ,
Eddie Parker 20 янв. 2009, в 18:10
7

Я могу только добавить, что _MAXCACHE = 100 в 2.5+ и 3.0.
Constantin 27 фев. 2009, в 14:07
19

Я вижу главное преимущество использования скомпилированного регулярного выражения, если вы повторно используете одно и то же регулярное выражение несколько раз, тем самым уменьшая вероятность опечаток. Если вы просто вызываете его один раз, то некомпилированный будет более читабельным.
monkut 19 март 2009, в 01:00
17

Итак, основное отличие будет в том, что вы используете много различных регулярных выражений (больше, чем _MAXCACHE), некоторые из них только один раз, а другие много раз ... тогда важно сохранить ваши скомпилированные выражения для тех, которые используются чаще, чтобы они не выгружаются из кеша, когда он полон.
fortran 06 июль 2009, в 10:36
3

@JF - Кроме того, если вы полагаетесь на компиляцию и кеш, кто знает, когда кеш может быть очищен, и тогда ваше регулярное выражение придется перекомпилировать.
Chris Lutz 29 авг. 2009, в 10:00
5

Если вы используете python <2.7 или 3.1, в «re.sub» отсутствует параметр «flags». Так, если, скажем, вы хотите сделать re.sub без учета регистра, вы застряли, делая re.compile("...", re.I).sub(...) .
user85461 20 июль 2010, в 17:37
4

Я думаю, что в целом все упустили этот момент, даже если вы исключите опечатки и неизвестное время GC. Дело в том, что если вам нужно запустить одно и то же регулярное выражение 100 000 раз подряд, не выполняя поиск в кэше 100 000 раз быстрее, давайте подумаем с точки зрения синтаксического анализа большого файла журнала с помощью регулярных выражений, каждый шаг, который должен делать язык, должен идти к лучшему.
WojonsTech 11 нояб. 2012, в 19:03
0

Другая причина, по которой следует избегать этапа компиляции, - приблизить регулярные выражения к точке их использования. У меня была петля с десятками замен. Придумывание имен для скомпилированных регулярных выражений и необходимость поиска количества скобок RE в начале цикла сделали программу менее читаемой.
Diomidis Spinellis 21 дек. 2013, в 15:52
5

Весь кэш очищается, если он насыщается?!?!? Я собирался, это будет кэш LFU или LRU. Еще больше причин для компиляции шаблонов, которые я собираюсь использовать более одного раза. Вы никогда не знаете, будет ли какой-то другой модуль, который также импортирует re, заполнять и очищать кеш.
IceArdor 24 апр. 2014, в 07:56
0

@WojonsTech Я тоже об этом думал, но имеет ли это какое-то значение?
xpy 12 дек. 2014, в 07:45
2

«У меня был большой опыт запуска скомпилированного регулярного выражения в 1000 раз по сравнению с компиляцией на лету, и я не заметил какой-либо ощутимой разницы. ... "* Это слишком расплывчато и вводит в заблуждение. Использование предварительно скомпилированного регулярного выражения в 3 раза быстрее по сравнению со вторым использованием, и даже первое использование в 2 раза быстрее. Точка. Вопрос в том, важна ли скорость регулярного выражения для определенного задача. В противном случае прямое использование шаблона ad hoc в большинстве случаев проще для написания, чтения и отладки.
kxr 08 фев. 2016, в 14:28

Показать ещё 11 комментариев