организация всех слов в текстовом файле в массиве или связанном списке, используя python

Question

организация всех слов в текстовом файле в массиве или связанном списке, используя python

1

У меня есть текстовый файл следующего формата.

<InitialNode>-><MergeNode *merge>->("Prepare for election")
->["Equipment, voter lists, ballot styles and/or ballots"]-><ForkNode>
{ ->("Prepare for voting (precinct)")-><ForkNode>
{ ->("Gather in-person vote") // Includes early voting.
->["Ballots and/or ballot images"]->(Collect *c),
"Precinct count"->("Count (precinct count)")
->["Machine totals"]->0..1(*c)
}

Мне нужно разбить текстовый файл и сохранить элементы таким образом, чтобы

array[0]=<InitialNode>
array[1]=->
array[2]=<MergeNode *merge>
array[3]=->
array[4]=("Prepare for election")
array[5]=-> 
array[6]=["Equipment, voter lists, ballot styles and/or ballots"]
array[7]=->

и так далее.

Короче, мне нужно разбить весь текст на основе ->.

Все, что происходит между '->', ',', '}', '}', должно храниться в связанном списке или массиве.

Как я могу это сделать с помощью python?

rekharajct 04 июль 2011, в 19:03

Источник

1

Это один странный формат там. Вы можете немного обобщить грамматику? Кроме того, может ли разделитель находиться внутри значения?
Cat Plus Plus 04 июль 2011, в 17:02

Теги:

python

arrays

file

linked-list

split

2 ответа

Ещё вопросы

Это один странный формат там. Вы можете немного обобщить грамматику? Кроме того, может ли разделитель находиться внутри значения?

senderle · Answer 1 · 2011-07-04T15-48-00.000Z

Я бы просто использовал встроенный метод split строк.

>>> with open('txtfile.txt', 'r') as f:
...     txt = f.read()
... 
>>> txt.split('->')
['\n<InitialNode>', '<MergeNode *merge>', '("Prepare for election")\n', 
 '["Equipment, voter lists, ballot styles and/or ballots"]', '<ForkNode>\n{ ', 
 '("Prepare for voting (precinct)")', '<ForkNode>\n{ ', 
 '("Gather in-person vote") // Includes early voting.\n', 
 '["Ballots and/or ballot images"]', '(Collect *c),\n"Precinct count"', 
 '("Count (precinct count)")\n', '["Machine totals"]', '0..1(*c)\n}\n'
]

Но я не уверен, что вы подразумеваете под "Все, что происходит между" → ',', ','} ','} 'должно храниться в связанном списке или массиве. " Это делает это? Или вам нужно разделить эти подстроки дальше?

@rekharajct, я также предполагаю, что вам не нужны строки '->' между каждым элементом; если вы это сделаете, дайте мне знать, и я буду редактировать.
Я попробовал приведенный выше код. То, что я дал, является спецификацией диаграммы деятельности. Я намерен преобразовать спецификацию в формат xml. Каждый элемент в спецификации имеет значение. Например, -> указывает на соединение, запятая указывает на ветвление. и так далее. Так что мне нужно сохранить каждый элемент -,,}, -> и так далее в списке, пройти его и сгенерировать XML.
@rekharajct, звучит так, будто тебе нужен настоящий токенизатор. Я подумаю над этим ...
То, что я дал, является спецификацией диаграммы деятельности. Мне нужно проанализировать файл и создать xml-эквивалент для спецификации. Каждый элемент в спецификации имеет значение. Например -> указывает на соединение, запятая указывает на разветвление и т. Д. Что я намереваюсь сохранить каждый элемент в спецификации в списке, включая запятые, фигурные скобки, точку с запятой, стрелки, а затем обойти список и сгенерировать эквивалентный xml для каждого элемента ,

elricL · Answer 2 · 2011-07-04T14-19-00.000Z

Если ваша начальная строка хранится в x.

Чтобы получить весь текст в x, сделайте

x = open("/tmp/filename").read()

Это должно сделать трюк

import re
splitter = re.compile('->')
array = splitter.split(x)