Python, строки, символы Юникода

Question

Python, строки, символы Юникода

1

comp/INFO_MAP_ECE/101102.1.119

Эта строка является результатом работы процессора, но после номера всегда есть специальные/непечатаемые символы, и моя цель - получить номер, исключающий текст перед ним, и специальную/непечатаемую после него. Я пытаюсь использовать метод split, но не уверен, что использовать для специальных/непечатаемых символов. Может кто-нибудь предложить что-нибудь? Это было бы большой помощью. Благодарю.

kishore 07 сен. 2011, в 15:13

Источник

1

Я предлагаю вам показать нам код, который вы используете для извлечения текста
David Heffernan 07 сен. 2011, в 13:05
0

Если мой ответ решил вашу проблему, вы должны принять его, нажав на галочку.
andronikus 07 сен. 2011, в 19:35
0

Если один из ответов, который вы получили, решил вашу проблему, пожалуйста, примите его, нажав на галочку.
andronikus 27 сен. 2011, в 03:10

Показать ещё 1 комментарий

Теги:

python

string

regex

unicode

character

2 ответа

Ещё вопросы

Я предлагаю вам показать нам код, который вы используете для извлечения текста
Если мой ответ решил вашу проблему, вы должны принять его, нажав на галочку.
Если один из ответов, который вы получили, решил вашу проблему, пожалуйста, примите его, нажав на галочку.

andronikus · Answer 1 · 2011-09-07T11-18-00.000Z

Предполагая, что ваш вывод всегда выглядит примерно так, как вы показали, вы можете использовать регулярное выражение:

numPattern = r'/([\d.]+)'
output = 'comp/INFO_MAP_ECE/101102.1.119'

m = re.search(numPattern, output)

if m: #If a match was found
  numString = m.group(1)  #Extracts the first group surrounded by ()
  #etc

Образец здесь ищет /, затем некоторые числа и периоды, затем что угодно и извлекает только числа и периоды. Это должно работать до тех пор, пока вы всегда получаете строку, соответствующую этому описанию.

НТН!

Как я знаю . не должен быть экранирован в классе персонажа. Таким образом, вместо [\d\.]+' Шаблон должен быть [\d.]+' .
Кроме того, я не понимаю, что .* Делает в конце шаблона.
Изменено. Я не знал о . s в классах персонажей, так что это полезно знать. Я не совсем уверен, что там делал .* . Может быть, я думал о непечатных символах?

Jordan Bouvier · Answer 2 · 2011-09-07T17-19-00.000Z

Является ли число всегда одной длины? Если это так, вы можете просто нарезать строку.

'comp/INFO_MAP_ECE/101102.1.119'[18:30]

Не хорошая идея. Даже если число сейчас одинаковой длины, это не всегда так. Также становится довольно обременительным в обслуживании. Это именно то, для чего были созданы регулярные выражения.