Как увеличить скорость использования нечеткого сопоставления в кадре данных?

Question

1

Я хочу использовать нечеткое сопоставление, чтобы проверить, содержат ли dataframe ключевые слова.

Однако apply его очень медленно.

Есть ли более быстрые методы?

Можем ли мы использовать str или re?

import regex

result = df['sentence'].apply(lambda x: regex.compile('(keyword){e<4}').findall(x)) #slow

Большое спасибо.

Chan 22 июнь 2018, в 19:45

Теги:

pandas

fuzzy-search

1 ответ

coldspeed · Accepted Answer · 2018-06-22T14-33-00.000Z

Почему вы компилируете внутри приложения? Это буквально побеждает его цель. Кроме того, лучший способ ускорить apply - не apply.

Без контекста того, что вы на самом деле пытаетесь сопоставить, я представляю вам:

p = regex.compile('(keyword){e<4}')
result = [p.findall(x) for x in df['sentence']]

Вы можете захотеть использовать re.search вместо findall, если хотите просто одно совпадение (для большей производительности).