Найти похожих пользователей

Question

Найти похожих пользователей

0

У меня есть таблица с тысячами строк.

Пример данных:

user_id ZIP City    email
105 100051  Lond.   [email protected]
382 251574          [email protected]
225 0100051 London  [email protected]

Мне нужно сравнить каждого пользователя с другими, чтобы узнать, какие из них похожи.

В приведенном примере пользователь 105 и 225 практически одинаков, поэтому ожидаемым результатом будет столбец нового идентификатора, который соответствует двум из них, например:

user_id ZIP City    email                   new_id
105 100051  Lond.   [email protected]      105
382 251574          [email protected]   382
225 0100051 London  [email protected]  105

Как бы я сравнивал каждое поле с другими и знал, как их сравнивать, например, кластеризация?

ecp 02 фев. 2018, в 18:23

Источник

1

ТАК не сайт домашней работы .. извините. Приложите усилия (разместив то, что вы пытались решить, ответив) и вы будете вознаграждены ;-)
ZF007 02 фев. 2018, в 16:38
0

Вы можете использовать функцию agrep чтобы найти все совпадения: например, sapply(dat$email,agrep,dat$email,value=T) даст вам совпадения для электронной почты
Onyambu 02 фев. 2018, в 16:53
0

Извините ZF007, это был мой первый вопрос здесь. Я попытался сделать в mysql функцию match () и даже сравнить равные поля, например, избавившись от заглавных букв. Но не сработало, как я ожидал. Я совсем новичок в R, но я думал о матрице расстояний или о чем-то (кластеризация, например).
ecp 05 фев. 2018, в 07:43

Показать ещё 1 комментарий

Теги:

mysql

r

match

1 ответ

Ещё вопросы

ТАК не сайт домашней работы .. извините. Приложите усилия (разместив то, что вы пытались решить, ответив) и вы будете вознаграждены ;-)
Вы можете использовать функцию agrep чтобы найти все совпадения: например, sapply(dat$email,agrep,dat$email,value=T) даст вам совпадения для электронной почты
Извините ZF007, это был мой первый вопрос здесь. Я попытался сделать в mysql функцию match () и даже сравнить равные поля, например, избавившись от заглавных букв. Но не сработало, как я ожидал. Я совсем новичок в R, но я думал о матрице расстояний или о чем-то (кластеризация, например).

Terru_theTerror · Accepted Answer · 2018-02-02T15-33-00.000Z

1

Лучший ответ

Ваши электронные письма:

email<-c("[email protected]","[email protected]","[email protected]")

Расстояние между электронными письмами:

dist<-stringdistmatrix(email,email,method="jw")
dist[dist==0]<-1

Минимальное расстояние между электронными письмами:

cbind(email,email_near=email[apply(dist, 1, which.min)],dist=apply(dist, 1, FUN=min))

     email                    email_near               dist               
[1,] "[email protected]"     "[email protected]" "0.208754208754209"
[2,] "[email protected]"  "[email protected]"     "0.281746031746032"
[3,] "[email protected]" "[email protected]"     "0.208754208754209"

После этого я предлагаю использовать порог на dist, чтобы идентифицировать ближайшие электронные письма, а затем вычислить new_ID.

Terru_theTerror 02 фев. 2018, в 15:33

0

[email protected] и [email protected] будут иметь большое расстояние, но, очевидно, будут похожи. Возможно разделить на знак @ и сравнить детали самостоятельно.
thc 02 фев. 2018, в 17:47
0

Это хорошая идея @thc!
Terru_theTerror 02 фев. 2018, в 17:49
0

В конце концов, мое решение не является детерминированным. У Юо могут быть одинаковые имена [email protected] и [email protected] от разных пользователей или [email protected] и [email protected].
Terru_theTerror 03 фев. 2018, в 08:32
0

Итак, для сравнения всех полей мне нужно сложить расстояния каждой переменной?
ecp 05 фев. 2018, в 07:41
0

Мне также нужно сравнить более двух электронных писем, например: [email protected], [email protected], [email protected], могу ли я использовать тот же метод?
ecp 05 фев. 2018, в 07:48
0

Код работает с любым количеством писем. В «email_near» вы можете найти самое близкое письмо к «email», а «dist» представляет расстояние строки (между 0 [равно] и 1 [максимальное расстояние]). Вам не нужно суммировать расстояния, вы просто должны учитывать их, когда они очень малы (например, dist <0,25)
Terru_theTerror 05 фев. 2018, в 08:28
0

Хорошо, спасибо, Терру. Я пробовал несколько библиотек, таких как "stringdist" и "reshape2", но я не могу найти функцию. Какую библиотеку вы используете для функций stringdistmatrix и stringdist?
ecp 05 фев. 2018, в 09:54
0

Я переустановил R и получил библиотеку «stringdist», но, похоже, не работает с большими файлами. Я пробовал с 20 000 электронных писем и давлений. Это из-за моей оперативной памяти? Я получил 4 ГБ.
ecp 05 фев. 2018, в 10:12
0

Хорошо, 20.000 писем это слишком много. Загляните в эту тему «Эффективная группировка сходства строк», вы также найдете мой ответ. stackoverflow.com/questions/48058104/...
Terru_theTerror 05 фев. 2018, в 11:20
0

Большое спасибо, Терру, я собираюсь работать с этим, привет.
ecp 06 фев. 2018, в 07:48
0

Добро пожаловать!
Terru_theTerror 06 фев. 2018, в 08:04

Показать ещё 9 комментариев