Как извлечь данные из набора данных с помощью регулярных выражений в Python?

Question

Как извлечь данные из набора данных с помощью регулярных выражений в Python?

1

У меня есть набор данных, и я хотел бы извлечь из этого набора данных удобную функцию.

در
همین
حال
،
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
نجیب
 الله
خواجه
عمری
 ,
 </coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="atr">
سرپرست
وزارت
تحصیلات
عالی
افغانستان
</coref>
گفت
که
در
سه
ماه
گذشته
در
۳۳
ولایت
کشور
<coref coref_coreftype="ident" coref_coref_class="empty" coref_mentiontype="ne" markable_scheme="coref">
خدمات
ملکی
</coref>
از
حدود
۱۴۹
هزار

Я хочу хранить данные внутри набора данных в двух списках. В списке find_atr я сохранил данные, в которых тег coref_coreftype="atr" включает coref_coreftype="atr". Для списка find_ident я хочу сохранить данные coref_coreftype="ident" Таким образом, у нас на последнем тесте coref в этом наборе данных есть еще один тег coref, у которого есть coref_coref_class="empty". Я не хочу хранить эти данные с тегом coref_coref_class="empty". Теперь в regex я упомянул, что он должен включать только те, что coref_coref_class="set_.*?" не coref_coref_class="empty" но он все еще сохраняет данные coref_coref_class="empty", где он должен хранить только coref_coref_class="set_.*?" ,

Как избежать:

i_ident = []
j_atr = []
find_ident = re.findall(r'<coref.*?coref_coref_class="set_.*?coref_mentiontype="ne".*?coref_coreftype="ident".*?>(.*?)</coref>', read_dataset, re.S)
ident_list = list(map(lambda x: x.replace('\n', ' '), find_ident))
for i in range(len(ident_list)):
    i_ident.append(str(ident_list[i]))

find_atr = re.findall(r'<coref.*?coref_coreftype="atr".*?>(.*?)</coref>', read_dataset, re.S)
atr_list = list(map(lambda x: x.replace('\n', ' '), find_atr))
#print(coref_list)
for i in range(len(atr_list)):
    j_atr.append(str(atr_list[i]))

print(i_ident)
print()
print(j_atr)

Eklil Khan 11 окт. 2018, в 11:03

Источник

0

То, что у вас есть, выглядит как XML, так что использование ElementTree может работать.
Lomtrur 11 окт. 2018, в 08:30
0

@Lomtrur, это не файл XML. это было основано на MMAX2, и я преобразовываю это, используя соль. теперь мой файл имеет такую структуру. что не так с регулярным выражением? почему он включает в себя coref_coref_class = "пустой"
Eklil Khan 11 окт. 2018, в 08:41
0

Я вижу эту строку find_atr = re.findall(r'<coref.*?coref_coreftype="atr".*?>(.*?)</coref>', read_dataset, re.S) просто проверяет тип, но он будет получить любой класс. Я не уверен, что это проблема
gustavovelascoh 11 окт. 2018, в 08:58
0

@GVelascoh, find_atr = .... работает хорошо, он извлекает только те, которые имеют 'coref_coreftype = "atr"'. Проблема с find_ident = re.findall (r '<coref. *? Coref_coref_class = "set _. *? Coref_mentiontype =" ne ". *? Coref_coreftype =" идент ". *?> (. *?) </ Coref> ', read_dataset, re.S), которые извлекаются из последней строки набора данных, где coref_coref_class = "empty", и я упоминал в find_indent, что извлекается только coref_coref_class = "set_". Это проблема, из-за которой он извлекается для "пустых" ' класс.
Eklil Khan 11 окт. 2018, в 09:19
1

Я не понимаю ваше описание, не могли бы вы предоставить желаемый результат?
pacholik 11 окт. 2018, в 09:31
0

@pacholik, посмотрите набор данных, я хочу сохранить эти данные в наборе данных в два списка. В списке find_atr я сохранил данные, в которых тег coref включает в себя 'coref_coreftype = "atr"'. Для списка find_ident я хочу сохранить данные 'coref_coreftype = "ident"'. Таким образом, у нас есть последний тег coref в этом наборе данных, другой тег coref, который называется coref_coref_class = "empty" ". Я не хочу хранить эти данные тех, у кого есть тег 'coref_coref_class = "empty"'. Теперь о регулярном выражении я упомянул, что оно должно включать только те, которые 'coref_coref_class = "set _. *?" "Не" coref_coref_class = "empty" ", но они все еще сохраняют это.
Eklil Khan 11 окт. 2018, в 09:40
0

Пожалуйста, укажите, как read_dataset переменная read_dataset чтобы иметь возможность воспроизвести вашу ошибку.
gustavovelascoh 11 окт. 2018, в 09:42
0

@GVelascoh, read_dataset - это переменная, которая читает файл набора данных. Это не создает никаких проблем. Единственная проблема с последним coref tag в приведенном выше примере. Поскольку он имеет coref_coref_class="empty" и в find_indent я упомянул, что coref_coref_class="set_.*? Но все равно он извлекается из последнего тега, у которого coref_coref_class="empty" .
Eklil Khan 11 окт. 2018, в 09:54
0

@GVelascoh, посмотрите на это регулярное выражение, find_ident = re.findall(r'<coref.*?coref_coref_class="set_.*?coref_mentiontype="ne".*?coref_coreftype="ident".*?>(.*?)</coref>', read_dataset, re.S) , это означает извлечь из той строки, у которой есть coref_coref_class="set_.*? но не coref_coref_class="empty" , мой вопрос, почему он также включает empty class , который я не включил в свое регулярное выражение.
Eklil Khan 11 окт. 2018, в 09:59
0

Я попробовал ваш код и получил этот вывод, что мне кажется правильным, правильно?: [' نجیب الله خواجه عمری , '] и [' سرپرست وزارت تحصیلات عالی افغانستان ']
gustavovelascoh 11 окт. 2018, в 10:04
0

@GVelascoh, если [' نجیب الله خواجه عمری , '] было в списке find_ident и ['رپرست وزارت تحصیلات عالی افغانستان '] в find_atr, then the output is fine. In this case my code also store that data of <coref coref_coreftype = "ident" coref_coref_class = "empty" coref_mentiontype = "ne" markable_scheme = "coref"> خدمات ملکی </ coref> `внутри find_ident что неверно, потому что coref_coref_class="empty" в этом теге. Поэтому я не хочу хранить данные coref_coref_class="empty" .
Eklil Khan 11 окт. 2018, в 10:09

Показать ещё 9 комментариев

Теги:

python

1 ответ

Ещё вопросы

То, что у вас есть, выглядит как XML, так что использование ElementTree может работать.
@Lomtrur, это не файл XML. это было основано на MMAX2, и я преобразовываю это, используя соль. теперь мой файл имеет такую структуру. что не так с регулярным выражением? почему он включает в себя coref_coref_class = "пустой"
Я вижу эту строку find_atr = re.findall(r'<coref.*?coref_coreftype="atr".*?>(.*?)</coref>', read_dataset, re.S) просто проверяет тип, но он будет получить любой класс. Я не уверен, что это проблема
@GVelascoh, find_atr = .... работает хорошо, он извлекает только те, которые имеют 'coref_coreftype = "atr"'. Проблема с find_ident = re.findall (r '<coref. *? Coref_coref_class = "set _. *? Coref_mentiontype =" ne ". *? Coref_coreftype =" идент ". *?> (. *?) </ Coref> ', read_dataset, re.S), которые извлекаются из последней строки набора данных, где coref_coref_class = "empty", и я упоминал в find_indent, что извлекается только coref_coref_class = "set_". Это проблема, из-за которой он извлекается для "пустых" ' класс.
Я не понимаю ваше описание, не могли бы вы предоставить желаемый результат?
@pacholik, посмотрите набор данных, я хочу сохранить эти данные в наборе данных в два списка. В списке find_atr я сохранил данные, в которых тег coref включает в себя 'coref_coreftype = "atr"'. Для списка find_ident я хочу сохранить данные 'coref_coreftype = "ident"'. Таким образом, у нас есть последний тег coref в этом наборе данных, другой тег coref, который называется coref_coref_class = "empty" ". Я не хочу хранить эти данные тех, у кого есть тег 'coref_coref_class = "empty"'. Теперь о регулярном выражении я упомянул, что оно должно включать только те, которые 'coref_coref_class = "set _. *?" "Не" coref_coref_class = "empty" ", но они все еще сохраняют это.
Пожалуйста, укажите, как read_dataset переменная read_dataset чтобы иметь возможность воспроизвести вашу ошибку.
@GVelascoh, read_dataset - это переменная, которая читает файл набора данных. Это не создает никаких проблем. Единственная проблема с последним coref tag в приведенном выше примере. Поскольку он имеет coref_coref_class="empty" и в find_indent я упомянул, что coref_coref_class="set_.*? Но все равно он извлекается из последнего тега, у которого coref_coref_class="empty" .
@GVelascoh, посмотрите на это регулярное выражение, find_ident = re.findall(r'<coref.*?coref_coref_class="set_.*?coref_mentiontype="ne".*?coref_coreftype="ident".*?>(.*?)</coref>', read_dataset, re.S) , это означает извлечь из той строки, у которой есть coref_coref_class="set_.*? но не coref_coref_class="empty" , мой вопрос, почему он также включает empty class , который я не включил в свое регулярное выражение.
Я попробовал ваш код и получил этот вывод, что мне кажется правильным, правильно?: [' نجیب الله خواجه عمری , '] и [' سرپرست وزارت تحصیلات عالی افغانستان ']
@GVelascoh, если [' نجیب الله خواجه عمری , '] было в списке find_ident и ['رپرست وزارت تحصیلات عالی افغانستان '] в find_atr, then the output is fine. In this case my code also store that data of <coref coref_coreftype = "ident" coref_coref_class = "empty" coref_mentiontype = "ne" markable_scheme = "coref"> خدمات ملکی </ coref> `внутри find_ident что неверно, потому что coref_coref_class="empty" в этом теге. Поэтому я не хочу хранить данные coref_coref_class="empty" .

GVelascoh · Accepted Answer · 2018-10-11T07-46-00.000Z

Я уменьшил ваш файл набора данных до:

A
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
B
</coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="atr">
C
</coref>
D
<coref coref_coreftype="ident" coref_coref_class="empty" coref_mentiontype="ne" markable_scheme="coref">
E
</coref>
F

И попробовал этот код, который почти такой же, как вы предоставили:

import re

with open ("test_dataset.log", "r") as myfile:
    read_dataset = myfile.read()

i_ident = []
j_atr = []
find_ident = re.findall(r'<coref.*?coref_coref_class="set_.*?coref_mentiontype="ne".*?coref_coreftype="ident".*?>(.*?)</coref>', read_dataset, re.S)
ident_list = list(map(lambda x: x.replace('\n', ' '), find_ident))
for i in range(len(ident_list)):
    i_ident.append(str(ident_list[i]))

find_atr = re.findall(r'<coref.*?coref_coreftype="atr".*?>(.*?)</coref>', read_dataset, re.S)
atr_list = list(map(lambda x: x.replace('\n', ' '), find_atr))
#print(coref_list)
for i in range(len(atr_list)):
    j_atr.append(str(atr_list[i]))

print(i_ident)
print()
print(j_atr)

И получил этот результат, который мне кажется правильным:

[' B ']

[' C ']

Я попробовал ваш набор данных, и он работает, но снова, когда я попытался с моим набором данных, он дает тот же результат, что и предыдущий результат. Я не знаю почему
Когда вы сказали свой набор данных, это более длинный файл или такой же в вопросе? Может быть, проблема с вложенными тегами?
Да, это 5K слов, аннотированных для задачи разрешения контрольных точек. Файл имеет ту же структуру, что и здесь. И если это проблема вложенного тега, почему его можно извлечь для coref_coreftype="atr" .
Вы можете включить соответствующие строки в вывод, чтобы проверить, какие строки соответствуют регулярному выражению, а также что в вашем файле нет вложенных или неожиданных тегов.
Спасибо, я тоже попробую. Можем ли мы изменить структуру регулярного выражения, но у меня ничего нет в голове.
Я предлагаю вам выполнить grep для файла в поисках «empty», чтобы проверить, существует ли неожиданный шаблон с классом, содержащим «empty».
Большое спасибо, с grep это дает мне результат. но это дает пустой список для тех, кто не включен в регулярное выражение. например find_indent [3] пусто. Как отфильтровать пустые сущности, потому что сейчас я работаю, чтобы соответствовать j, если оно является атрибутом i.
Это вывод для find_indent : ['', ' نجیب الله خواجه عمری , ', '', '', ' محمد میرویس بلخی ', '', '', '', ' محمد نادر نادری ', '', '', '', '', '', ' رئیس جمهور غنی ', '', '', '', ' رئیس جمهور غنی ', '', '', '', '', '', '', ' جنرال محمد رادمنش ', '', '', '', '', '', ' جنگجویان داعش ', '', '', ' واسیلی نِبِنزیا ', '', '', '', '', ' افغانستان ', '', '', '', ' طالبان ', '', '', '', '', ' جنرال محمد رادمنش ', '', '', '', '', '', ' این جنبش ', '', ' طالبان ']