Извлечь первый элемент из списка после определенного слова

Question

Извлечь первый элемент из списка после определенного слова

1

У меня есть string и list:

text = 'Sherlock Holmes. PARIS. Address: 221B Baker Street, london. Solving case in Madrid.'

city = ['Paris', 'London', 'Madrid']

Я хочу извлечь 1-й элемент из списка, который появляется после слова " Адрес".

Здесь мой подход к проблеме с использованием nltk

import nltk

loc = None
flag = False
for word in nltk.word_tokenize(text):
    if word == 'Address':
        flag = True

    if flag:
        if word.capitalize() in city:
            loc = word
            break

print(loc)

Я получаю результат, как ожидалось выше, что является london.

Но в реальном сценарии мой текст слишком велик и список городов тоже, есть ли лучший способ сделать это?

Akshay Nevrekar 27 авг. 2018, в 08:17

Источник

Теги:

python

python-3.x

pattern-matching

nltk

1 ответ

Ещё вопросы

coldspeed · Accepted Answer · 2018-08-27T04-35-00.000Z

Самый низкий висящий плод, который я вижу, - это то, что вы можете превратить city в set для постоянных проверок членства. Кроме того, рассмотрите возможность использования next с аргументом по умолчанию для возвращения следующего города.

city = {'Paris', 'London', 'Madrid'}
while text:
    text = text.partition('Address')[-1].strip()
    print(
        next((w for w in nltk.word_tokenize(text) if w.capitalize() in city), None))

он не возвращает ничего, когда я назначаю значение next((w for w in nltk.word_tokenize(text) if w.capitalize() in city), None) переменной.
@AkshayNevrekar Это только для последнего города, так как последний раздел обычно пуст. Вы всегда можете просто отказаться от него в конце.
Это время, затраченное моим сценарием 0.1093 и вашим 0.0155 . Я тестировал на небольшом датафрейме, это дало мне улучшение, которое является значительным. Спасибо :-)