HOWTO разобрать текстовый файл для строк, содержащих выражения вида VARIABLE = SOMEVALUE

Question

HOWTO разобрать текстовый файл для строк, содержащих выражения вида VARIABLE = SOMEVALUE

1

У меня есть текстовый файл (фактически,.xml), который содержит определенные строки формы MACAddress=SOMEVALUE, и смешивается в других строках. Например, типичная такая строка (в одной строке):

<Adapter slot="3" enabled="false" MACAddress="080027671C79" cable="true" speed="0" type="Am79C973">

N.B. В приведенной выше строке SOMEVALUE точно "080027671C79".

Итак, я хотел бы проанализировать файл и собрать все SOMEVALUES. Как я могу это сделать в python (re?, Find?)?

Спасибо заранее.

dOpP 10 июнь 2011, в 17:44

Источник

Теги:

python

xml

parsing

3 ответа

Ещё вопросы

kindall · Answer 1 · 2011-06-10T14-02-00.000Z

Это XML, поэтому используйте синтаксический анализатор XML. Например:

from xml.dom.minidom import parse

macs = [adapter.getAttribute("MACAddress") for adapter in
        parse("file.xml").getElementsByTagName("Adapter")]

eyquem · Answer 2 · 2011-06-13T05-32-00.000Z

Регулярное выражение будет более быстрым.

Один из Арциомов слишком строгий, я думаю. Я бы сделал:

from re import findall
findall('MACAddress=([^ \t]+)', text)

Но я думаю, вы хотите, что есть МЕЖДУ кавычками ". Затем:

from re import findall
findall('MACAddress="([^"]+)"', text)

.

Возможно ли, что SOMEVALUE, который вы хотите уловить, содержит кавычки "?

Artsiom Rudzenka · Answer 3 · 2011-06-13T04-50-00.000Z

Не уверен, что я правильно знаю, что такое MAC-адрес, но, пожалуйста, отметьте еще два варианта ниже:

Input:

text = """
Adapter slot="3" enabled="false" Mcable="true" speed="0" type="Am79C973">
Adapter slot="3" enabled="false" MACAddress="080027671C79" cable="true" speed="0" type="Am79C973">
Adapter slot="3" enabled="false" MACAddress="080027671C71" cable="true" speed="2" type="Am79C973">
Adapter slot="3" enabled="false" MACAddress="080024671C79" cable="true" speed="1" type="Am79C973">
Adapter slot="3" enabled="false" MACAddress="080227671C79" cable="true" speed="1" type="Am79C973">
"""

1) RegEx:

from re import findall
findall(r'(?i)(?<=MACAddress=\")\w{12}', text)

2) Нарезка строк:

searchTxt = 'MACAddress="'
searchLen = len(searchTxt)
getMAC = lambda line: line[line.index(searchTxt) + searchLen: line.index(searchTxt) + searchLen + 12]
map(lambda line: getMAC(line), (line for line in text.split() if searchTxt in line))

@Artsiom Rudzenka Что (? I) часть, пожалуйста?
@eyquem - игнорировать регистр - например, регистр не имеет значения
@ Артсиом Рудзенка Спасибо. Вы уверены, что это функциональность, доступная в Python? Мне кажется, что он существует на другом языке, но не на Python. Никогда не видел. У вас есть ссылка, чтобы дать, пожалуйста? В Python игнорировать регистр: re.compile (pattern, re.IGNORECASE)
@eyquem согласно учебнику по питону: "(? iLmsux) - (Одна или несколько букв из набора 'i', 'L', 'm', 's', 'u', 'x'.) Группа соответствует пустая строка; буквы устанавливают соответствующие флаги: re.I (игнорировать регистр), re.L (зависит от локали), re.M (многострочный), re.S (точка соответствует всем), re.U (зависит от Unicode) ) и re.X (многословно) для всего регулярного выражения. (Флаги описаны в Содержании модуля.) Это полезно, если вы хотите включить флаги как часть регулярного выражения вместо передачи аргумента флага в функция re.compile (). "
@Artsiom Rudzenka О, я видел это однажды, и я забыл это. Я буду использовать его, чтобы сократить некоторые шаблоны. Спасибо !
@eyquem пожалуйста, рад помочь. Кстати, вы можете попробовать использовать RegExBuddy - мне это очень помогает на пути изучения регулярных выражений на python.