Извлечь имя в текстовом файле между (: или, или;) и (ключевым словом) с помощью регулярного выражения в python

Question

Извлечь имя в текстовом файле между (: или, или;) и (ключевым словом) с помощью регулярного выражения в python

1

# coding=utf-8
import re
f = open('/Users/.../example.txt')
mensaje = f.read()
mensaje = mensaje.replace("\n","")
keywords_cap = ['SpA','SPA','LIMITADA','LTDA','S.A.']
keywords_cap = map(re.escape, keywords_cap)
keywords_cap.sort(key=len, reverse=True)
obj = re.compile(r'\s*([^:]*)(?<!\w)(?:{})'.format('|'.join(keywords_cap)))
print("COMPANY NAME: %s" % obj.findall(mensaje))

У меня есть разные файлы, содержащие : или ; , название компании и одно слово, определенное в keywords_cap.

Файл содержит:

Nombre o razón social: "MJ FACILITIES SERVICES SpA nombre de fantasía MJ SpA."

Теперь мой вывод:

MJ FACILITIES SERVICES SpA nombre de fantasía

и я хочу только MJ FACILITIES SERVICES SpA.

AnnC 25 июль 2018, в 12:52

Источник

0

Ты можешь попробовать это? obj = re.compile (r '\ s * ([^:] *?) (? <! \ w) (?: {})'. format ('|' .join (Keywords_cap)))
berkin 25 июль 2018, в 11:16
0

Вы хотите извлечь подстроку между : / , / ; / . и слово из keywords_cap ?
Wiktor Stribiżew 25 июль 2018, в 11:17

Теги:

python

regex

path

keyword

1 ответ

Ещё вопросы

Ты можешь попробовать это? obj = re.compile (r '\ s * ([^:] *?) (? <! \ w) (?: {})'. format ('|' .join (Keywords_cap)))
Вы хотите извлечь подстроку между : / , / ; / . и слово из keywords_cap ?

Wiktor Stribiżew · Answer 1 · 2018-07-25T10-27-00.000Z

Сначала вы можете совместить начальную границу с [:,;.], Затем потреблять любые пробелы и необязательный " char to" ltrim "результат (с помощью \s*"?), Затем сопоставлять и захватывать любые символы 0+ other чем те ограничители, насколько это возможно, вплоть до одного из ваших keywords_cap:

obj = re.compile(r'[:,;.]\s*"?([^:,;.]*?(?<!\w)(?:{}))'.format('|'.join(keywords_cap)))

См. Демонстрацию Python и демо-версию regex.

подробности

[:,;.] - это :, ,, ; или .
\s* - 0+ символы пробела
"? - необязательный "
([^:,;.]*?(?<!\w)(?:{})) - Захват группы 1 (это будет возвращать re.findall):
- [^:,;.]*? - любые ноль или больше символов, кроме :, ,, ; , и . , как можно меньше (*? - ленивый квантор)
- (?<!\w) - не разрешено левое слово слева
- (?:{}) - группа чередования с экранированными элементами keyword_cap.

Если слова ключевого слова повторяются в моем файле более одного раза, как я могу получить только первый результат?
@AnnC Вы имеете в виду, что вам нужно получить только первый матч? Смотрите это демо . Используйте m = obj.search(mensaje) чтобы получить первый объект данных соответствия, и, if m: чтобы увидеть, является ли совпадение успешным, то m.group(1) значение Group 1 с помощью m.group(1) .
Я не знаю, возможно ли это, но я хотел бы начать извлекать текст, когда они начинают верхний регистр слов, которые будут извлечены. Также с учетом; :, или же ..
Не могли бы вы обновить вопрос, чтобы включить примеры строк с ожидаемым выводом и почему этот вывод ожидается?
@AnnC Также, пожалуйста, проверьте, если [:,;.]\s*"?([AZ]\w*(?:\s+[AZ]\w*)*?\s+(?:LIMITADA|S\.A\.|LTDA|SpA|SPA)) работает для вас, когда вы получите пару примеров строк.