Обработка текста - производительность Python и Perl

Question

Обработка текста - производительность Python и Perl

56

Вот мой perl и python script, чтобы сделать некоторую простую текстовую обработку из примерно 21 файла журнала каждый примерно от 300 КБ до 1 МБ (макс.) х 5 раз повторяется (всего 125 файлов, из-за журнала повторяется 5 раз).

Код Python (код изменен для использования скомпилированного re и с использованием re.I)

#!/usr/bin/python

import re
import fileinput

exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I)
location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I)

for line in fileinput.input():
    fn = fileinput.filename()
    currline = line.rstrip()

    mprev = exists_re.search(currline)

    if(mprev):
        xlogtime = mprev.group(1)

    mcurr = location_re.search(currline)

    if(mcurr):
        print fn, xlogtime, mcurr.group(1)

Код Perl

#!/usr/bin/perl

while (<>) {
    chomp;

    if (m/^(.*?) INFO.*Such a record already exists/i) {
        $xlogtime = $1;
    }

    if (m/^AwbLocation (.*?) insert into/i) {
        print "$ARGV $xlogtime $1\n";
    }

}

И на моем ПК оба кода генерируют точно такой же файл результата из 10 790 строк. И, вот сроки, сделанные на cygwin perl и python

User@UserHP /cygdrive/d/tmp/Clipboard
# time /tmp/scripts/python/afs/process_file.py *log* *log* *log* *log* *log* >
summarypy.log

real    0m8.185s
user    0m8.018s
sys     0m0.092s

User@UserHP /cygdrive/d/tmp/Clipboard
# time /tmp/scripts/python/afs/process_file.pl *log* *log* *log* *log* *log* >
summarypl.log

real    0m1.481s
user    0m1.294s
sys     0m0.124s

Первоначально для этой простой обработки текста потребовалось 10,2 секунды с использованием Python и всего 1,9 секунды с использованием Perl.

(UPDATE), но после скомпилированной версии python теперь она занимает 8,2 секунды на python и 1,5 секунды в perl. Тем не менее perl намного быстрее.

В любом случае, чтобы улучшить скорость Python вообще ИЛИ, очевидно, что вы, ребята, ребята, что Perl будет быстродействующим для простой обработки текста.

Кстати, это был не единственный тест, который я сделал для простой обработки текста... И каждый раз, когда я делаю исходный код, всегда всегда Perl выигрывает с большим отрывом. И ни разу Python не работал лучше для простого m/regex/ совпадения и печати.

Спасибо за ваш вклад.

Пожалуйста, не предлагайте использовать C, С++, Assembly, другие варианты Python и т.д.

Я ищу решение с использованием стандартного Python с его встроенным модули по сравнению со стандартным Perl (даже не с использованием модулей). Мальчик, я хочу использовать Python для всех своих задач из-за его удобочитаемости, но чтобы отказаться от скорости, я так не думаю.

Итак, пожалуйста, предложите, как можно улучшить код, чтобы сопоставить результаты с perl.

ОБНОВЛЕНИЕ: 18OCT2012

Как и другие пользователи, Perl имеет свое место, а Python имеет свой.

Итак, для этого вопроса можно смело заключить, что для простого регулярного выражения в каждой строке для сотен или тысяч текстовых файлов и записи результатов в файл (или печать на экран), Perl всегда будет всегда WIN в производительности для этой работы, так же просто.

Обратите внимание, что когда я говорю, что Perl выигрывает в производительности, сравниваются только стандартные Perl и Python... не прибегая к некоторым неясным модулям (неясный для обычного пользователя, как я), а также не вызывающий C, С++, сборные библиотеки от python или perl. У нас нет времени, чтобы изучить все эти дополнительные шаги и установку для простого задания соответствия текста.

Итак, Perl-камни для обработки текста и регулярного выражения.

У Python есть место для катания в других местах.

Обновить 29May2013: Отличная статья, которая делает аналогичное сравнение здесь. Perl снова выигрывает для простого сопоставления текста.. и для более подробной информации читайте статью.

ihightower 09 окт. 2012, в 06:01

Источник

0

Шаблоны компилируются только один раз в Python (как в Perl)?
ikegami 09 окт. 2012, в 05:54
0

Две программы эквивалентны? Я не вижу ничего похожего на / i в версии Python.
ikegami 09 окт. 2012, в 05:56
0

Они не полностью эквивалентны ( (?i) или re.I должны быть добавлены для Python), но очень близки.
nneonneo 09 окт. 2012, в 06:10
1

Интересно, разница во времени, затрачиваемом на возврат в строки, которые не совпадают?
ikegami 09 окт. 2012, в 06:19
0

я отредактировал код, чтобы скомпилировать re и использовать re.I. Снова бенчмаркинг и обновили результаты по моему вопросу.
ihightower 09 окт. 2012, в 06:25
0

Также было бы хорошо узнать версии Perl и Python (x для 2.x). line.rstrip() не является обязательным.
pepr 09 окт. 2012, в 07:31
0

@ihightower: Какие точные аргументы передаются сценарию? Они действительно *log* *log* *log* *log* *log* ? Если да, вы уверены, что Perl не извлекает только уникальные имена файлов? (Таким образом, обработка фактически меньше файлов ...)
pepr 09 окт. 2012, в 07:37
0

@pepr, Perl обработает все файлы.
ikegami 09 окт. 2012, в 07:53
0

Вероятно, вы можете немного ускорить обе версии, используя /s .
ikegami 09 окт. 2012, в 08:12
3

Я бы запускал код Python через профилировщик, чтобы узнать, где он проводит время. Вы также можете попробовать использовать PCRE (регулярные выражения, совместимые с Perl), а не встроенные в Python регулярные выражения (вот еще одна реализация ) и посмотреть, будет ли это лучше.
Schwern 09 окт. 2012, в 08:58
3

«Закрытый как слишком локализованный» кажется мне слишком смешным и субъективным.
pepr 10 окт. 2012, в 18:46
1

До этого я видел Benmarsk, который предположил, что реализация регулярных выражений в Perl намного быстрее, чем Pythons. В противном случае они должны быть сравнимой скорости.
Leon Timmermans 14 окт. 2012, в 14:30
0

Повторный поиск функций в Python может занимать удивительное количество времени во время длинных циклов. Таким образом, вы должны использовать exist_re = re.compile (...). Search, а затем вызывать в вашем цикле exist_re (currline) (и нечто подобное для location_re). Вам также следует переместить fn = fileinput.filename () вне цикла, который выполняет итерации строк, хотя для этого вам, вероятно, следует прекратить использование fileinput. Поскольку оба ваших регулярных выражения соответствуют началу строки, вы можете также попробовать переключиться на re.match вместо re.search.
Dane White 17 дек. 2013, в 19:40
0

В случае, если кто-то хочет увидеть, некоторые результаты здесь
nawfal 20 июль 2014, в 18:14
0

Вы должны проверить это еще раз, так как Python теперь обновился до 2.8.9 с 2.4.4
PYPL 13 фев. 2015, в 13:07
0

Я читал, что re2, реализованный Google, лучше. Я попробовал это, но без улучшения: re (4,5 сек), re2 (4,5 сек), perl (0,8 сек)
coder.in.me 20 июнь 2015, в 16:39
0

Вероятно, вы могли бы ускорить обе версии, используя elsif ... Если оба эти регулярных выражения не могут совпадать с одной строкой.
TheAmigo 10 окт. 2015, в 13:43
0

В Python, когда вы выполняете сопоставление с шаблоном с началом строки ( r"^..." ), не используйте метод pattern.search() , вместо этого используйте метод pattern.match , что немного быстрее.
Davide Brunato 17 фев. 2016, в 14:39

Показать ещё 16 комментариев

Теги:

python

performance

regex

perl

text-processing

6 ответов

Ещё вопросы

Шаблоны компилируются только один раз в Python (как в Perl)?
Две программы эквивалентны? Я не вижу ничего похожего на / i в версии Python.
Они не полностью эквивалентны ( (?i) или re.I должны быть добавлены для Python), но очень близки.
Интересно, разница во времени, затрачиваемом на возврат в строки, которые не совпадают?
я отредактировал код, чтобы скомпилировать re и использовать re.I. Снова бенчмаркинг и обновили результаты по моему вопросу.
Также было бы хорошо узнать версии Perl и Python (x для 2.x). line.rstrip() не является обязательным.
@ihightower: Какие точные аргументы передаются сценарию? Они действительно *log* *log* *log* *log* *log* ? Если да, вы уверены, что Perl не извлекает только уникальные имена файлов? (Таким образом, обработка фактически меньше файлов ...)
Вероятно, вы можете немного ускорить обе версии, используя /s .
Я бы запускал код Python через профилировщик, чтобы узнать, где он проводит время. Вы также можете попробовать использовать PCRE (регулярные выражения, совместимые с Perl), а не встроенные в Python регулярные выражения (вот еще одна реализация ) и посмотреть, будет ли это лучше.
«Закрытый как слишком локализованный» кажется мне слишком смешным и субъективным.
До этого я видел Benmarsk, который предположил, что реализация регулярных выражений в Perl намного быстрее, чем Pythons. В противном случае они должны быть сравнимой скорости.
Повторный поиск функций в Python может занимать удивительное количество времени во время длинных циклов. Таким образом, вы должны использовать exist_re = re.compile (...). Search, а затем вызывать в вашем цикле exist_re (currline) (и нечто подобное для location_re). Вам также следует переместить fn = fileinput.filename () вне цикла, который выполняет итерации строк, хотя для этого вам, вероятно, следует прекратить использование fileinput. Поскольку оба ваших регулярных выражения соответствуют началу строки, вы можете также попробовать переключиться на re.match вместо re.search.
В случае, если кто-то хочет увидеть, некоторые результаты здесь
Вы должны проверить это еще раз, так как Python теперь обновился до 2.8.9 с 2.4.4
Я читал, что re2, реализованный Google, лучше. Я попробовал это, но без улучшения: re (4,5 сек), re2 (4,5 сек), perl (0,8 сек)
Вероятно, вы могли бы ускорить обе версии, используя elsif ... Если оба эти регулярных выражения не могут совпадать с одной строкой.
В Python, когда вы выполняете сопоставление с шаблоном с началом строки ( r"^..." ), не используйте метод pattern.search() , вместо этого используйте метод pattern.match , что немного быстрее.

Josh Wright · Answer 1 · 2012-10-09T06-21-00.000Z

Это именно тот материал, который был разработан Perl, поэтому меня не удивляет, что он быстрее.

Одна простая оптимизация в вашем коде на Python заключалась бы в том, чтобы предварительно скомпилировать эти регулярные выражения, чтобы они не перекомпилировались каждый раз.

exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists')
location_re = re.compile(r'^AwbLocation (.*?) insert into')

И затем в вашем цикле:

mprev = exists_re.search(currline)

и

mcurr = location_re.search(currline)

Это само по себе не принесет волшебство вашему Python script в соответствии с вашим Perl script, но повторное вызов re в цикле без компиляции сначала - это плохая практика в Python.

re кеширует недавно использованные регулярные выражения, так что это, вероятно, не очень большая проблема.
@nneonneo Я слышал , что много раз , и я видел строки в re исходного кода , которые делают кэширование. Но почему-то я никогда не видел ни одного эталонного теста, который бы выставлял оба в одном и том же порядке, но несколько тестов (в том числе быстрый и грязный, который я сделал секунду назад), который позволял опцию предварительной компиляции в несколько раз быстрее.
Интересно. Ну, это определенно хорошая практика для прекомпиляции регулярных выражений, но я не особо обращал внимание на разрыв в производительности. Хотите поделиться номерами?

ikegami · Answer 2 · 2012-10-09T08-35-00.000Z

Гипотеза: Perl тратит меньше времени на обратное отслеживание в строках, которые не совпадают из-за оптимизаций, которые у Python нет.

Что вы получаете, заменив

^(.*?) INFO.*Such a record already exists

с

^((?:(?! INFO).)*?) INFO.*Such a record already

или

^(?>(.*?) INFO).*Such a record already exists

Don O'Donnell · Answer 3 · 2012-10-09T08-28-00.000Z

Вызов функций немного дороже с точки зрения времени на Python. И все же у вас есть вызов функции инварианта цикла, чтобы получить имя файла внутри цикла:

fn = fileinput.filename()

Переместите эту строку выше цикла for, и вы должны увидеть некоторое улучшение для вашего времени Python. Наверное, этого недостаточно, чтобы выбить Перла.

+1 для хорошего глаза, но ... Хорошо, но имя файла меняется. Это не инвариант цикла. В любом случае, может быть быстрее не использовать модуль fileinput и добавить еще один внешний цикл через имена файлов. Тогда имя файла будет инвариантом.
Интересный момент, но он должен быть крошечным по сравнению со временем обработки двух регулярных выражений.

ihightower · Answer 4 · 2012-10-09T12-38-00.000Z

@pepr Спасибо. Ваш код работает в течение 6,1 секунд (около 2 секунд улучшения) по сравнению с perl 1,8 секунды **

Но, мальчик, это чертовски сложно разобраться с этим код для среднего пользователя (меня).. кто, как правило, следует за быстрыми примерами от книги до фактического использования.

По сравнению с perl-кодом код python не очень помогает читабельность... но у нее просто так много циклов... и все еще как последний удар, это не даже приближаются к производительности perl. В любом случае, больше предложений приветствуются.

User@UserHP /cygdrive/d/tmp/Clipboard
# time /tmp/scripts/python/afs/process_file_pepr.py *log* *log* *log* *log* *lo
g* > summarypy_pepr.log

real    0m6.089s
user    0m5.772s
sys     0m0.155s

pepr · Answer 5 · 2012-10-09T10-27-00.000Z

Я ожидаю, что Perl будет быстрее. Просто любопытно, можете ли вы попробовать следующее?

#!/usr/bin/python

import re
import glob
import sys
import os

exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I)
location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I)

for mask in sys.argv[1:]:
    for fname in glob.glob(mask):
        if os.path.isfile(fname):
            f = open(fname)
            for line in f:
                mex = exists_re.search(line)
                if mex:
                    xlogtime = mex.group(1)

                mloc = location_re.search(line)
                if mloc:
                    print fname, xlogtime, mloc.group(1)
            f.close()

Обновить в качестве реакции на "слишком сложно".

Конечно, он выглядит более сложным, чем версия Perl. Perl был построен вокруг регулярных выражений. Таким образом, вы вряд ли сможете найти интерпретируемый язык, который быстрее в регулярных выражениях. Синтаксис Perl...

while (<>) {
    ...
}

... также скрывает много вещей, которые нужно как-то делать на более общем языке. С другой стороны, довольно легко сделать код Python более удобным для чтения, если вы выведете нечитаемую часть:

#!/usr/bin/python

import re
import glob
import sys
import os

def input_files():
    '''The generator loops through the files defined by masks from cmd.'''
    for mask in sys.argv[1:]:
        for fname in glob.glob(mask):
            if os.path.isfile(fname):
                yield fname


exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I)
location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I)

for fname in input_files():
    with open(fname) as f:        # now the f.close() is done automatically
        for line in f:
            mex = exists_re.search(line)
            if mex:
                xlogtime = mex.group(1)

            mloc = location_re.search(line)
            if mloc:
                print fname, xlogtime, mloc.group(1)

Здесь def input_files() может быть помещен в другое место (например, в другом модуле), или он может быть повторно использован. Можно легко имитировать даже Perl while (<>) {...}, хотя и не так же синтаксически:

#!/usr/bin/python

import re
import glob
import sys
import os

def input_lines():
    '''The generator loops through the lines of the files defined by masks from cmd.'''
    for mask in sys.argv[1:]:
        for fname in glob.glob(mask):
            if os.path.isfile(fname):
                with open(fname) as f: # now the f.close() is done automatically
                    for line in f:
                        yield fname, line


exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I)
location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I)

for fname, line in input_lines():
    mex = exists_re.search(line)
    if mex:
        xlogtime = mex.group(1)

    mloc = location_re.search(line)
    if mloc:
        print fname, xlogtime, mloc.group(1)

Тогда последний for может выглядеть как простой (в принципе) как Perl while (<>) {...}. Такие улучшения чтения в Perl сложнее.

В любом случае, это не сделает программу Python быстрее. Теперь Perl будет быстрее. Perl является файловым/текстовым cruncher. Но, на мой взгляд, Python - лучший язык программирования для более общих целей.

@ihightower Пожалуйста, опубликуйте вашу попытку изменить как новый ответ.
@pepr Я разместил свои результаты как отдельный ответ. теперь код выполняется за 6,1 с (улучшение на 2 с по сравнению с предыдущим) по сравнению с 1,8 с в Perl. Пожалуйста, прочитайте мой ответ для получения дополнительной информации.
@ihightower: При использовании конструкции with это будет на одну строку короче. Это правда , что вложенная for выглядит ужасно. Тем не менее, они говорят, что именно сделано: 1) получить аргументы командной строки, 2) развернуть каждый аргумент как маску глобуса, 3) если это имя файла, открыть его и обработать его строки.
Поскольку обработка текста является настолько универсальной, то почему Python не просто создаст встроенный стандартный модуль, который настолько универсален, что его можно применять практически во всех случаях ... он может затем улучшить свою производительность для обычных пользователей, таких как подавляющее большинство пользователей. люди ... например, для импорта TextTool или чего-то еще, тогда есть некоторые стандартные вещи, которые улучшат производительность обработки текста.

jrd1 · Answer 6 · 2012-10-09T07-20-00.000Z

1

В целом, все искусственные тесты являются злыми.. Тем не менее, при прочих равных условиях (алгоритмический подход) вы можете делать улучшения на относительной основе. Однако следует отметить, что я не использую Perl, поэтому я не могу спорить в его пользу. При этом, используя Python, вы можете попробовать использовать Pyrex или Cython для повышения производительности. Или, если вы предприимчивы, вы можете попробовать преобразовать код Python в С++ с помощью ShedSkin (который работает для большей части основного языка и некоторые, но не все, из основных модулей).

Тем не менее, вы можете следить за приведенными здесь советами:

http://wiki.python.org/moin/PythonSpeed/PerformanceTips

jrd1 09 окт. 2012, в 07:20

0

я не являюсь экспертом по программированию на Perl или Python. Я использую Perl и Python таким образом, от того, что я читаю от обычного новичка до книги среднего уровня. Если мне нужна реальная производительность, я обязательно буду использовать ваши предложения и даже использовать ассемблер (если я когда-нибудь узнаю это). Использование того, что доступно в perl или python и его модулях, должно быть единственным предложением, которое я ожидаю улучшить код для повышения производительности. Я не собираюсь использовать другие магические умные слова и тратить время на изучение всего остального. Пожалуйста, предложите чистое решение, которое существует в установке nromal python.
ihightower 09 окт. 2012, в 06:28
0

Я понимаю, что все искусственные ориентиры могут быть злыми. Но обработка текста проста, и это то, что я обычно делаю изо дня в день. Итак, если Python не может улучшить скорость при использовании некоторого базового синтаксиса с в исходной установке Python ... (так же, как я делаю с Perl) ... Мне придется прибегнуть к Perl для моих задач обработки текста ... и для обработки 100 или 100 000 файлов, которые мне нужно обработать ... и нужно признать, что python медлен для простой обработки текста, как указано в моем коде. Но, боже, я хотел бы использовать python для его чистого синтаксиса, но с отставанием скорости ... не думаю, что так.
ihightower 09 окт. 2012, в 06:33
0

Регулярные выражения в Python предоставляются через модуль. Регулярные выражения в Perl имеют встроенный синтаксис и могут быть скомпилированы как встроенные (без затрат на вызовы функций). Обработка текста не должна быть такой простой. В любом случае, используйте лучший инструмент для каждой задачи. Мой личный опыт показывает, что немного более сложные Perl-программы намного сложнее читать и поддерживать в будущем.
pepr 09 окт. 2012, в 07:21
7

-1. Что в этом плохого? Это простое упражнение, которое иллюстрирует существенную разницу в производительности между двумя языками. Как именно вы должны сравнивать производительность двух инструментов, если не с таким тестом? Написать всю свою программу на обоих языках, чтобы она не была «искусственной»? Конечно, в бенчмаркинге есть подводные камни, но вы обобщили это на очень глупое правило.
dan1111 09 окт. 2012, в 07:26

Показать ещё 2 комментария