Мера подобия для строк в Python

Question

Мера подобия для строк в Python

1

Я хочу измерить сходство между двумя словами. Идея состоит в том, чтобы прочитать текст с OCR и проверить результат по ключевым словам. Функция, которую я ищу, должна сравнить два слова и вернуть сходство в%. Поэтому сравнение слова с собой должно быть на 100% аналогичным. Я написал функцию самостоятельно и сравнил char по char и вернул количество совпадений в соотношении к длине. Но проблема в том, что

wordComp('h0t',hot')
0.66
wordComp('tackoverflow','stackoverflow')
0

Но интуитивные оба примера должны иметь очень высокое сходство> 90%. Добавление Levenstein-Distance

import nltk
nltk.edit_distance('word1','word2')

в моей функции увеличится второй результат до 92%, но первый результат все равно не очень хорош.

Я уже нашел это решение для "R", и было бы возможно использовать эти функции с rpy2 или использовать agrepy качестве другого подхода. Но я хочу сделать программу более-менее чувствительной, изменив ориентир для принятия (принимайте только совпадения с подобием> x%).

Есть ли еще одна хорошая мера, которую я мог бы использовать, или у вас есть идеи по улучшению моей функции?

tifi90 29 нояб. 2018, в 10:47

Источник

Теги:

python

measure

similarity

2 ответа

-1

Я написал следующий код. попытайся. Я определил str3 для тех случаев, когда длина двух строк сравнения (str1 и str2) не равна. код находится в цикле while для выхода из использования k.

k=1
cnt=0
str3=''
while not k==-1:
    str1=input()
    str2=input()
    k=int(input())

    if len(str1)>len(str2):
        str3=str1[0:len(str2)]
        for j in range(0,len(str3)):
            if str3[j]==str2[j]:
                cnt+=1
        print((cnt/len(str1)*100))

    elif len(str1)<len(str2):
        str3=str2[0:len(str1)]
        for j in range(0,len(str2)):
            if str3[j]==str1[j]:
                cnt+=1
        print((cnt/len(str2)*100))

    else:
        for j in range(0,len(str2)):
            if str2[j]==str1[j]:
                cnt+=1
        print((cnt/len(str1)*100))

hasa 29 нояб. 2018, в 08:37

0

спасибо, что поделились своим кодом. Это похоже на то, что я пробовал в первую очередь. Вы получаете аналогичные результаты с этой функцией, как я. Основная проблема, которую я вижу, состоит в том, что вы потеряете много информации, когда будете вырезать строку str3=str2[0:len(str1)] .
tifi90 29 нояб. 2018, в 12:52

Ещё вопросы

спасибо, что поделились своим кодом. Это похоже на то, что я пробовал в первую очередь. Вы получаете аналогичные результаты с этой функцией, как я. Основная проблема, которую я вижу, состоит в том, что вы потеряете много информации, когда будете вырезать строку str3=str2[0:len(str1)] .

Martin · Accepted Answer · 2018-11-29T09-35-00.000Z

2

Лучший ответ

Вы можете просто использовать difflib. Эта функция, которую я получил от ответа некоторое время назад, хорошо мне помогла:

from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

print (similar('tackoverflow','stackoverflow'))
print (similar('h0t','hot'))

0.96
0.666666666667

Вы можете легко добавить функцию или перенести ее в другую функцию, чтобы учитывать разные степени сходства, например, передавая третий аргумент:

from difflib import SequenceMatcher

def similar(a, b, c):
    sim = SequenceMatcher(None, a, b).ratio()
    if sim > c: 
        return sim

print (similar('tackoverflow','stackoverflow', 0.9))
print (similar('h0t','hot', 0.9))

0.96
None

Martin 29 нояб. 2018, в 09:35

0

Спасибо за идею. Это помогает мне с первой проблемой, но проблема с короткими словами остается открытой без ответа. Есть еще идеи по этому поводу?
tifi90 29 нояб. 2018, в 12:41
0

Я не совсем уверен, почему вы хотите более высокое значение для трехбуквенного слова. Вы говорите, что интуитивно ожидали более высокого сходства. Строго говоря, из трех символов один отличается между строками, что делает их похожими на 66%. Можете ли вы уточнить, каким должен быть ваш ожидаемый результат и почему?
Martin 29 нояб. 2018, в 14:14
0

Я не знаю, какой должен быть точный результат. Смысл в том, что я получаю более высокий балл, если сравнивать h0t и hxt, чем интуитивно, h0t ближе к горячему, чем hxt, поскольку 0 и o почти одинаковы. Просто представьте, что если вы написали от руки, вы бы не пометили h0t как неправильный, но hxt - это ясно.
tifi90 29 нояб. 2018, в 14:27
0

Ну да, они эстетически похожи, я не знаю ни одного способа проверить это. Это тоже весьма субъективно, не правда ли? Для всех намерений и целей x и o и 0 одинаково отличаются друг от друга.
Martin 29 нояб. 2018, в 15:22
0

Я просто подумал о следующем «быстром и грязном» исправлении: просто сопоставьте цифры символам с фиксированным отображением (0-> o, 5-> s, 3-> E, 9-> g, ...). Так как я ищу реальные слова, ноль или пять или любое другое число никогда не должно быть частью ключевого слова.
tifi90 29 нояб. 2018, в 15:35
0

Да, это может сработать. Просто из любопытства: вы бы подкорректировали это в коэффициенте сходства с коэффициентом или вы просто взяли бы 5 для s, 9 для ag и т. Д.?
Martin 29 нояб. 2018, в 17:08
0

просто возьмите цифры и сопоставьте их с символами. Это работает на удивление хорошо. Я добавил еще несколько строк кода и других правил. Например, терм регулирования -0,1 для каждой отображаемой цифры для отношения или заглавная буква «i» в середине слова будут отображены на «L» и т. Д. Я поделюсь своим результатом, когда все правила будут реализованы ,
tifi90 29 нояб. 2018, в 19:56

Показать ещё 5 комментариев