Как я могу построить таблицу sqlite из этого файла XML / TXT с использованием Python?

Question

Как я могу построить таблицу sqlite из этого файла XML / TXT с использованием Python?

0

У меня есть файл xml/txt:

<text id="32a45" language="ENG" date="2017-01-01" time="11:00" timezone="Eastern">

<s id="1">
foo
bar
</s>
<d>
11235
</d>

<text id="32a47" language="ENG" date="2017-01-05" time="1:00" timezone="Central">

<s id="2">
foo
bar
</s>
<d>
11235
</d>

<text id="32a48" language="ENG" date="2017-01-07" time="3:00" timezone="Pacific">

<s id="3">
foo
bar
</s>
<d>
11235
</d>

Я хочу построить таблицу sqlite следующим образом, используя python:

id  language    date        timezone    s           d

32a45   ENG     2017-01-01  Eastern     foo bar     11235
32a47   ENG     2017-01-05  Central     baz qux     11235
32a48   ENG     2017-01-07  Pacific     foo bar     11235

Любая идея, как я могу это сделать? Я не могу использовать модуль xmltree, потому что теги xml в исходном файле перепутаны. Я очень благодарен за помощь. Благодарю.

Изменение: я могу легко взять каждый текст в виде списка внутри списка. Как это:

['<text id="32a45" language="ENG" date="2017-01-01" time="11:00" timezone="Eastern">', '<text id="32a47" language="ENG" date="2017-01-05" time="1:00" timezone="Central">', '<text id="32a48" language="ENG" date="2017-01-07" time="3:00" timezone="Pacific">']

Но я не знаю, как взять идентификатор, язык и т.д. Из каждого списка отдельно.

Anton vBR 07 авг. 2017, в 08:57

Источник

0

Есть какая-то конкретная причина, почему вы помечаете R в этом?
Roman Luštrik 07 авг. 2017, в 06:38
0

Да. Если в R есть встроенная библиотека для этого, это также подойдет и мне. Я знаю, что в R. есть пакет RSQlite. Однако раньше я его не использовал. При этом я не думаю, что R может быть более полезным, чем Python. Просто оставив опцию открытой.
user5017783 07 авг. 2017, в 06:43
1

Речь идет о разборе XML или о введении чего-либо в SQLite? Похоже, что это две отдельные проблемы, и они достаточно просты, поэтому на SO они ответили несколько раз. (Например, при первом поиске в Google с поиском «python xml parse» открывается справка по python2 в модуле xml , где приведены примеры данных и код.)
r2evans 07 авг. 2017, в 06:56
0

В основном это что-то в sqlite. И я не могу использовать xmltree в этом случае из-за некоторых проблем с тегами.
user5017783 07 авг. 2017, в 07:02

Показать ещё 2 комментария

Теги:

mysql

sqlite

python

xml

1 ответ

Ещё вопросы

Есть какая-то конкретная причина, почему вы помечаете R в этом?
Да. Если в R есть встроенная библиотека для этого, это также подойдет и мне. Я знаю, что в R. есть пакет RSQlite. Однако раньше я его не использовал. При этом я не думаю, что R может быть более полезным, чем Python. Просто оставив опцию открытой.
Речь идет о разборе XML или о введении чего-либо в SQLite? Похоже, что это две отдельные проблемы, и они достаточно просты, поэтому на SO они ответили несколько раз. (Например, при первом поиске в Google с поиском «python xml parse» открывается справка по python2 в модуле xml , где приведены примеры данных и код.)
В основном это что-то в sqlite. И я не могу использовать xmltree в этом случае из-за некоторых проблем с тегами.

Anton vBR · Accepted Answer · 2017-08-07T09-44-00.000Z

Перенаправлено отсюда:

Как я могу сделать подсписок из списка на основе строк в python?

import xml.etree.ElementTree as ET
import pandas as pd

strings = ['<text id="32a45" language="ENG" date="2017-01-01" time="11:00" timezone="Eastern">',
'<text id="32a47" language="ENG" date="2017-01-05" time="1:00" timezone="Central">',
'<text id="32a48" language="ENG" date="2017-01-07" time="3:00" timezone="Pacific">']

cols = ["id","language","date","time","timezone"]
data = [[ET.fromstring(string+"</text>").get(col) for col in cols] for string in strings]    
df = pd.DataFrame(data,columns=cols)