Есть ли способ не допустить, чтобы MySQL отличался от ч/б строк, таких как "Убить Билла: Том 2" и "Убить Билла: Том II"? Я создаю веб-скребок, который скрежет фильмов с разных сайтов и хранит их в базе данных. Поскольку разные сайты используют разные заголовки много раз, есть ли способ игнорировать эти незначительные различия в строках?
Soundex звучит многообещающе, но это не так эффективно для неанглийских строк.
Другой пример: "Падмаават" и "Падмават". Soundex может быть эффективным здесь, но мне нужно более надежное решение.
Спасибо!
Нет, для MySQL нет встроенной функции в MySQL (т.е. Для того, чтобы рассматривать строки "Vol.2"
и "Vol II"
как совпадение.)
Там встроенная функция SOUNDEX
, но она делает только то, что она делает. Это может быть частью решения.
Возможно, вы сможете реализовать алгоритм сопоставления строк в качестве рулонных собственных хранимых программ MySQL. Но, угххх. Алгоритмы сопоставления строк, вероятно, лучше реализованы в слое, отличном от реляционной базы данных.