Манипулирование строками в Python

Question

Манипулирование строками в Python

1

Я конвертирую код с другого языка на python. Этот код читает довольно большой файл в строке, а затем манипулирует им индексированием массива, например:

str[i] = 'e'

Это не работает непосредственно в python из-за неизменяемости строк. Каков предпочтительный способ сделать это в python?

Я видел функцию string.replace(), но возвращает копию строки, которая не кажется очень оптимальной, так как строка в этом случае является целым файлом.

Zitrax 07 апр. 2009, в 14:25

Источник

0

насколько велика строка / файл?
SilentGhost 07 апр. 2009, в 12:12
0

Вы всегда заменяете один и тот же столбец, или вы выполняете поиск и замену?
vartec 07 апр. 2009, в 12:25
0

то, что заменяется, зависит от содержимого файла
Zitrax 07 апр. 2009, в 12:33

Показать ещё 1 комментарий

Теги:

python

string

replace

4 ответа

12

Предполагая, что вы не используете текстовую кодировку переменной длины, такую как UTF-8, вы можете использовать array.array:

>>> import array
>>> a = array.array('c', 'foo')
>>> a[1] = 'e'
>>> a
array('c', 'feo')
>>> a.tostring()
'feo'

Но поскольку вы имеете дело с содержимым файла, mmap должно быть более эффективным:

>>> f = open('foo', 'r+')
>>> import mmap
>>> m = mmap.mmap(f.fileno(), 0)
>>> m[:]
'foo\n'
>>> m[1] = 'e'
>>> m[:]
'feo\n'
>>> exit()
% cat foo
feo

Здесь приведен быстрый тест script (вам нужно будет заменить dd чем-то другим для не-Unix-ОС):

import os, time, array, mmap

def modify(s):
    for i in xrange(len(s)):
        s[i] = 'q'

def measure(func):
    start = time.time()
    func(open('foo', 'r+'))
    print func.func_name, time.time() - start

def do_split(f):
    l = list(f.read())
    modify(l)
    return ''.join(l)

def do_array(f):
    a = array.array('c', f.read())
    modify(a)
    return a.tostring()

def do_mmap(f):
    m = mmap.mmap(f.fileno(), 0)
    modify(m)

os.system('dd if=/dev/random of=foo bs=1m count=5')

measure(do_mmap)
measure(do_array)
measure(do_split)

Выход, который я получил на своем ноутбуке с несколькими годами, соответствует моей интуиции:

5+0 records in
5+0 records out
5242880 bytes transferred in 0.710966 secs (7374304 bytes/sec)
do_mmap 1.00865888596
do_array 1.09792494774
do_split 1.20163106918

Итак, mmap немного быстрее, но ни одно из предлагаемых решений не отличается. Если вы видите огромную разницу, попробуйте использовать cProfile, чтобы узнать, что займет время.

Nicholas Riley 07 апр. 2009, в 10:36

0

Кажется, я помню, что mmap предназначен только для Linux, поэтому вы можете столкнуться с проблемами переносимости.
Stefano Borini 07 апр. 2009, в 13:48
0

Нет, он работает в Unix и Windows ( docs.python.org/library/mmap.html ). Есть небольшие отличия API, но они не влияют на этот вариант использования. На самом деле большая разница в Windows: do_mmap 0.65700006485; do_array 1.0150001049; do_split 0.827999830246.
Nicholas Riley 07 апр. 2009, в 13:58
0

Спасибо за совет о cProfile, он указал мне на проблему. Циклы for использовали range (), что вызвало много накладных расходов. Я переключился на циклы while, и теперь производительность хорошая.
Zitrax 07 апр. 2009, в 15:51
0

Здорово! Рад, что вы поняли это.
Nicholas Riley 07 апр. 2009, в 16:10

Показать ещё 2 комментария

1

Другие ответили на часть манипуляции с строкой вашего вопроса, но я думаю, вам следует подумать, было бы лучше проанализировать файл и изменить структуру данных, которую представляет текст, а не напрямую манипулировать текстом.

Chris Upchurch 07 апр. 2009, в 12:58

0

Try:

sl = list(s)
sl[i] = 'e'
s = ''.join(sl)

vartec 07 апр. 2009, в 09:32

Ещё вопросы

Вы всегда заменяете один и тот же столбец, или вы выполняете поиск и замену?
то, что заменяется, зависит от содержимого файла
Кажется, я помню, что mmap предназначен только для Linux, поэтому вы можете столкнуться с проблемами переносимости.
Нет, он работает в Unix и Windows ( docs.python.org/library/mmap.html ). Есть небольшие отличия API, но они не влияют на этот вариант использования. На самом деле большая разница в Windows: do_mmap 0.65700006485; do_array 1.0150001049; do_split 0.827999830246.
Спасибо за совет о cProfile, он указал мне на проблему. Циклы for использовали range (), что вызвало много накладных расходов. Я переключился на циклы while, и теперь производительность хорошая.

Can Berk Güder · Accepted Answer · 2009-04-07T10-56-00.000Z

9

Лучший ответ

l = list(str)
l[i] = 'e'
str = ''.join(l)

Can Berk Güder 07 апр. 2009, в 10:56

0

Выглядит хорошо, но будет ли работать с огромным файлом?
theycallmemorty 07 апр. 2009, в 12:29
0

@theycallmemorty: он потребляет вдвое больше памяти, чем C, но кроме этого, я не вижу никаких причин, почему он не должен работать.
Can Berk Güder 07 апр. 2009, в 12:31
0

На самом деле, если таких манипуляций много, лучше всего использовать строки в виде списков символов.
user25148 07 апр. 2009, в 12:43
0

это работает и, кажется, немного быстрее, чем подход массива из другого ответа. Однако оба метода намного медленнее, чем мой предыдущий код; в настоящее время ~ 7 секунд против 0,4 секунды
Zitrax 07 апр. 2009, в 13:14
0

@ liw.fi: правильно. строка '' .join (l) должна быть пользовательской после всех символьных изменений.
Can Berk Güder 07 апр. 2009, в 13:18
0

@Zitrax: какой у тебя предыдущий код? Python или оригинальный язык (C?). см. также мой ответ на комментарий liw.fi.
Can Berk Güder 07 апр. 2009, в 13:19
0

Вау, я удивлен, что массив намного медленнее. Список будет использовать гораздо больше памяти, так как он создает объект на символ. Mmap работает быстрее? (Кроме того, не называйте ваши переменные 'str', это имя типа данных строки!)
Nicholas Riley 07 апр. 2009, в 13:25
0

@CBG: предыдущий код - Пайк. Я не присоединюсь, пока не сделаю.
Zitrax 07 апр. 2009, в 13:28
0

@Nicholas: извините, если мне неясно, разница в массиве и в списке составляла всего лишь 0,1 с, большая разница была в сравнении с версией pike-кода
Zitrax 07 апр. 2009, в 13:29
0

@Zitrax: не использовал Pike, но порядок звучания между двумя интерпретируемыми языками не выглядит реалистичным. кроме того, Python обычно намного быстрее чем Ruby и т. д.
Can Berk Güder 07 апр. 2009, в 13:33
0

Я не говорю, что это невозможно, но может быть другое узкое место где-то еще. Я использую Python для анализа и анализа 500 МБ файлов трассировки, и это довольно быстро (~ 30 секунд).
Can Berk Güder 07 апр. 2009, в 13:37
0

Договорились - взгляните на мой другой ответ. Мне удалось обработать файл размером 5 МБ за секунду на ноутбуке нескольких лет.
Nicholas Riley 07 апр. 2009, в 13:41
0

Нашел проблему, я новичок в python, поэтому я не понял, что мои циклы for, которые использовали range (), вызывали много накладных расходов, фактически создавая длинные списки. Использование циклов while вместо этого уменьшило время примерно до уровня сценария pike.
Zitrax 07 апр. 2009, в 15:49
0

@Zitrax: вы также можете использовать xrange.
Can Berk Güder 07 апр. 2009, в 16:31
0

Ох, и я рад, что проблема решена.
Can Berk Güder 07 апр. 2009, в 16:31

Показать ещё 13 комментариев