Нахождение термина в списке

Question

Нахождение термина в списке

1

У меня есть следующий код, чтобы найти ключевые слова в профиле пользователя:

    profile_text = self.text.lower()
    term_string = ''
    TERMS = ['spring',  'java', 'angular', 'elastic', 'css']
    for term in TERMS:
        if term in profile_text: term_string += term.strip() + ', '
    return term_string.strip(' ,')

Это вернет что-то вроде:

"spring, angular, css"

Однако он также вернет "java", если у пользователя есть слово, такое как "javascript". Что было бы хорошим примером для предотвращения этого?

David542 29 июль 2018, в 06:30

Источник

0

Думаю, поможет раскрыть, что такое profile_text
rafaelc 29 июль 2018, в 04:17
0

Я полагаю, что есть два способа сделать это: один использует регулярные выражения , другой ставит пробелы перед и после слов, которые вы хотите сопоставить, чтобы он совпадал только с разделенными словами: TERMS = ['spring ', 'java ', 'angular ', 'elastic ', 'css ']
gmelodie 29 июль 2018, в 04:17
0

Пример профиля_текста?
Aakash Verma 29 июль 2018, в 04:18
0

LTKills - да, я сначала попробовал космический подход, но он казался довольно слабым, например, кто-то мог иметь что-то вроде "Experienced in java, python, and sql." и он не получит ни одного из этих терминов из-за пунктуации после него.
David542 29 июль 2018, в 05:28

Показать ещё 2 комментария

Теги:

python

1 ответ

Ещё вопросы

Думаю, поможет раскрыть, что такое profile_text
Я полагаю, что есть два способа сделать это: один использует регулярные выражения , другой ставит пробелы перед и после слов, которые вы хотите сопоставить, чтобы он совпадал только с разделенными словами: TERMS = ['spring ', 'java ', 'angular ', 'elastic ', 'css ']
LTKills - да, я сначала попробовал космический подход, но он казался довольно слабым, например, кто-то мог иметь что-то вроде "Experienced in java, python, and sql." и он не получит ни одного из этих терминов из-за пунктуации после него.

Nizebulous · Accepted Answer · 2018-07-29T01-57-00.000Z

Вы должны использовать регулярные выражения.

Вы могли бы сделать что-то вроде:

import re

TERMS = ['spring',  'java', 'angular', 'elastic', 'css']
matched_terms = []
for term in TERMS:
    if re.search(r'\b{}\b'.format(term), profile_text, re.M):
        matched_terms.append(term)
return ', '.join(matched_terms)

Добавьте (?i) в начало регулярного выражения, иначе оно не будет соответствовать "Spring" или "Java"
Я действительно предполагал, что он хочет, чтобы он чувствителен к регистру ... но если он хочет, чтобы он чувствителен к регистру, то ему нужно просто добавить флаг re.I .... аргумент flags тогда станет re.M | re.I