Классификация текста и рекомендации

Question

Классификация текста и рекомендации

1

Я пытаюсь создать алгоритм машинного обучения, для классификации адресов или аналогичной классификации адресов, для сельских районов (деревень). У меня есть исторические данные, которые включают в себя список адресов (независимая переменная), название деревни (независимая переменная), пин-коды (независимая переменная), номер мобильного телефона клиента и номер маршрута (зависимая переменная). Маршрут № предназначен для корзины доставки, которая поможет им покрыть максимальное количество пунктов назначения доставки в этой области.

Проблемы -

"Адрес" можно пропустить по буквам.
"Название деревни" может быть нулевым.
"Пин-коды" могут быть ошибочными.

Хорошая вещь -

Не все независимые переменные могут быть неправильными/нулевыми одновременно.

Теперь целью создания этого алгоритма является выбор лучшего номера маршрута на основе "адреса", "деревень", "пин-кодов" и исторических данных (в которых мы вручную выбрали маршрут для тележек доставки).

Я новичок, я запутался, как это сделать, какой процесс использовать.

Задание я выполнил.

Очистка адреса - удалены короткие слова, удалены большие слова, удалены стоп-слова.

Сейчас пытаюсь сделать это с помощью слова вектор, но я не могу этого сделать.

Gaurav Chhabra 13 апр. 2019, в 07:24

Источник

Теги:

python

machine-learning

2 ответа

Ещё вопросы

Jatin Singh Bhati · Answer 1 · 2019-04-13T04-05-00.000Z

для этого вам сначала нужно будет создать набор данных, состоящий из названий как можно большего количества деревень! потому что у многих деревень одинаковые названия, поэтому опечатка довольно трудна и рискованна! есть разница в одну или две буквы. Итак, чем больше набор данных, тем лучше. Затем попробуйте использовать TF-IDF для комбинации названия деревни и PIN-кода (эта ссылка может быть полезна для индийских данных) или вы можете использовать нечеткую логику. Надеюсь, поможет! Удачного кодирования!

Олег Шиловский · Answer 2 · 2019-04-13T02-46-00.000Z

Вы можете попробовать библиотеку fasttext из Facebook, чтобы сделать классификацию.