Python создает регулярное выражение из списка и его вариаций

Question

Python создает регулярное выражение из списка и его вариаций

1

У меня есть список месяцев на латыни:

latinMonths = ['januarii', 'februarii','martii', 'aprilis', 'maii', 'junii', 'julii', 'augusti', 'septembris', 'octobris', 'novembris', 'decembris']

которые, к сожалению, в моем тексте я нахожу, что их варианты различаются по-разному: "januarij" или "septembrjs" и т.д....

Я пытаюсь отсканировать текст, чтобы найти точное слово в виде списка или его вариантов.

Я знаю, что могу использовать difflib и обнаружил, что могу проверить предложение со списком слов в этом сообщении: Python: как определить, существует ли список слов в строке. Есть ли способ, которым я могу объединить оба, таким образом находя экземпляр в строке, где существуют месяцы в списке или ее вариациях?

ex: Если у меня есть текст "primo januarij 1487", я хотел бы вернуть true, поскольку januarij - это близкое совпадение с январем, а если у меня есть "я люблю помидоры", ни одно из слов не является близким совпадением или точным соответствием словам в список

gannina 27 июль 2018, в 14:35

Источник

1

Я не совсем понимаю, что вы пытаетесь сделать. Можете привести пример?
glibdud 27 июль 2018, в 12:13
2

Я думаю, что вы, возможно, захотите сопоставить все слова на расстоянии 1 слева от слов в вашем списке. Наивный, но рабочий способ сделать это состоит в том, чтобы разбить ваш текст на список слов и вычислить для каждого слова расстояние до всех месяцев.
hugoShaka 27 июль 2018, в 12:17
0

Я думал об этом, но, к сожалению, мой текст может быть довольно длинным и содержать дату ... может быть совершенно неэффективно проверять все слова в тексте ... думал, что есть другой способ: S
gannina 27 июль 2018, в 12:19
0

Невозможно создать регулярное выражение для неопределенных вариантов слов. Если вы хотите регулярное выражение, то вам потребуется явно перечислить все варианты, которые вы ожидаете найти.
Tomalak 27 июль 2018, в 12:23
0

спасибо, может быть, я могу генерировать ожидаемые варианты! :)
gannina 27 июль 2018, в 12:25
0

И если вы можете перечислить все варианты, которые вы ожидаете найти, вы также можете решить это без регулярных выражений. ;) Возможно, хорошей отправной точкой было бы что-то вроде этого: найдите все совпадения \bjan[az]*\b , сделайте этот список уникальным, отбросьте все ложные срабатывания, повторите с тем же процессом другие месяцы - и есть ваш список вариантов.
Tomalak 27 июль 2018, в 12:41

Показать ещё 4 комментария

Теги:

python

list

difflib

1 ответ

Ещё вопросы

Я не совсем понимаю, что вы пытаетесь сделать. Можете привести пример?
Я думаю, что вы, возможно, захотите сопоставить все слова на расстоянии 1 слева от слов в вашем списке. Наивный, но рабочий способ сделать это состоит в том, чтобы разбить ваш текст на список слов и вычислить для каждого слова расстояние до всех месяцев.
Я думал об этом, но, к сожалению, мой текст может быть довольно длинным и содержать дату ... может быть совершенно неэффективно проверять все слова в тексте ... думал, что есть другой способ: S
Невозможно создать регулярное выражение для неопределенных вариантов слов. Если вы хотите регулярное выражение, то вам потребуется явно перечислить все варианты, которые вы ожидаете найти.
спасибо, может быть, я могу генерировать ожидаемые варианты! :)
И если вы можете перечислить все варианты, которые вы ожидаете найти, вы также можете решить это без регулярных выражений. ;) Возможно, хорошей отправной точкой было бы что-то вроде этого: найдите все совпадения \bjan[az]*\b , сделайте этот список уникальным, отбросьте все ложные срабатывания, повторите с тем же процессом другие месяцы - и есть ваш список вариантов.

Alessandro Tacchinardi · Answer 1 · 2018-08-03T18-48-00.000Z

Возможное решение может быть достигнуто с помощью fuzzywuzzy следующим образом:

from fuzzywuzzy import fuzz

def fuzzy_months(text:str, months:list, treshold:float = 0.9)->bool:
    """Return if a word within the given text is close enough to any given month."""
    return max([fuzz.ratio(month,word) for month in latinMonths for word in test_string.split()])/100>= treshold

Например, принимая во внимание следующие фразы test_string = 'lorem ipsum siptum abet septembrjs' и fail_string = 'do you want to eat at McDonald?' :

fuzzy_months(test_string, latinMonths)
>>> True

fuzzy_months(fail_string, latinMonths)
>>> False