Python компилирует все не слова, кроме точки [.]

Question

Python компилирует все не слова, кроме точки [.]

1

Я пытаюсь сломать строку на всех шаблонах, отличных от слов, кроме. (точка)
Обычно я предполагаю, что это можно сделать как [\ W ^ [.]] В java, но как это сделать в python?

daydreamer 12 авг. 2010, в 01:57

Источник

Теги:

python

regex

5 ответов

1

Очень хорошая ссылка для модуля регулярного выражения Python доступна здесь. Следующее должно сделать трюк для вас.

import re
re.split(r'[\w.]+', text_string)

Или

import re
re.findall('[^\w.]+', text_string)

Jungle Hunter 11 авг. 2010, в 20:54

0

попробуйте text_string="foo|bar."
John La Rooy 11 авг. 2010, в 23:41
0

@Ashish, нет: почти каждый спецсимвол «отключен» внутри «наборов» (т. Е. Между скобками) в шаблоне, и, в частности, так же, как и вертикальная черта (в том смысле, в каком она «или» имеет внешние скобки).
Alex Martelli 11 авг. 2010, в 23:44
0

Починил это. Как оно сейчас?
Jungle Hunter 11 авг. 2010, в 23:47
0

@Alex: Я помню ваш пост о том, как Python стал частью Google. Отлично читаю.
Jungle Hunter 12 авг. 2010, в 00:21
0

Ваши регулярные выражения теперь работают, но вы изменили их. split регулярное выражение должно быть [^\w.]+ И findall регулярное выражение должно быть [\w.]+ .
Alan Moore 12 авг. 2010, в 00:36
0

Я чувствовал, что ОП хочет не слова, но если слова нужны, тогда да, они меняются местами.
Jungle Hunter 12 авг. 2010, в 06:08

Показать ещё 4 комментария

0

Синтаксис Java отключен, для начала. Это то, к чему вы пытались:

[\W&&[^.]]

Это соответствует символу пересечения множеств, описанных "любым символом, отличным от слова", и "любым символом, кроме .". Но это излишне, когда вы можете просто использовать:

[^\w.]

... или "любой символ, который не является символом слова или .". Это то же самое в Python (и в большинстве других вкусов), хотя вы, вероятно, хотите сопоставить один или несколько символов:

re.split(r'[^\w.]+', the_string)

Но, вероятно, проще использовать подход @gnibbler для согласования частей, которые вы хотите сохранить, а не те, которые вы хотите выбросить:

re.findall(r'[\w.]+', the_string)

Alan Moore 11 авг. 2010, в 23:00

0

Спасибо Алан, это действительно полезно
daydreamer 12 авг. 2010, в 16:23

0

Я предполагаю, что вы хотите разделить строку на все шаблоны, отличные от слов, кроме точки.

Изменить: Python не поддерживает синтаксис regex в стиле Java, который вы используете. Я бы предложил сначала заменить все точки длинной строкой, затем разбить строку, а затем снова положить точки.

import re
long_str = "ABCDEFGH"
str = str.replace('.', long_str)
result = re.split(r'\W', str)

Затем, когда вы используете result, снова замените все последовательности long_str точкой.

Это очень плохое решение, но оно работает.

Dumb Guy 11 авг. 2010, в 22:20

0

У Python есть удобная функция для этого

>>> s = "ab.cd.ef.gh"
>>> s.split(".")
['ab', 'cd', 'ef', 'gh']

Kit 11 авг. 2010, в 21:09

2

И как это помогает ОП со "всеми шаблонами не из слов, кроме точки" ?! Это разделяет только точка - полюсы, кроме того, что спросил ОП.
Alex Martelli 11 авг. 2010, в 23:38
0

D'о! Действительно, поляки У меня еще не было кофе. Прости за это.
Kit 12 авг. 2010, в 02:24

Ещё вопросы

@Ashish, нет: почти каждый спецсимвол «отключен» внутри «наборов» (т. Е. Между скобками) в шаблоне, и, в частности, так же, как и вертикальная черта (в том смысле, в каком она «или» имеет внешние скобки).
@Alex: Я помню ваш пост о том, как Python стал частью Google. Отлично читаю.
Ваши регулярные выражения теперь работают, но вы изменили их. split регулярное выражение должно быть [^\w.]+ И findall регулярное выражение должно быть [\w.]+ .
Я чувствовал, что ОП хочет не слова, но если слова нужны, тогда да, они меняются местами.
Спасибо Алан, это действительно полезно
И как это помогает ОП со "всеми шаблонами не из слов, кроме точки" ?! Это разделяет только точка - полюсы, кроме того, что спросил ОП.
D'о! Действительно, поляки У меня еще не было кофе. Прости за это.

John La Rooy · Accepted Answer · 2010-08-11T20-34-00.000Z

>>> import re
>>> the_string="http://hello-world.com"
>>> re.findall(r'[\w.]+',the_string)
['http', 'hello', 'world.com']

Просто отлично, спасибо :) не могли бы вы объяснить мне это?
[\w^[.]] для разделителей, а [\w.]+ для слов, поэтому мы называем findall .