Я пытаюсь создать алгоритм машинного обучения, для классификации адресов или аналогичной классификации адресов, для сельских районов (деревень). У меня есть исторические данные, которые включают в себя список адресов (независимая переменная), название деревни (независимая переменная), пин-коды (независимая переменная), номер мобильного телефона клиента и номер маршрута (зависимая переменная). Маршрут № предназначен для корзины доставки, которая поможет им покрыть максимальное количество пунктов назначения доставки в этой области.
Проблемы -
Хорошая вещь -
Не все независимые переменные могут быть неправильными/нулевыми одновременно.
Теперь целью создания этого алгоритма является выбор лучшего номера маршрута на основе "адреса", "деревень", "пин-кодов" и исторических данных (в которых мы вручную выбрали маршрут для тележек доставки).
Я новичок, я запутался, как это сделать, какой процесс использовать.
Задание я выполнил.
Очистка адреса - удалены короткие слова, удалены большие слова, удалены стоп-слова.
Сейчас пытаюсь сделать это с помощью слова вектор, но я не могу этого сделать.
для этого вам сначала нужно будет создать набор данных, состоящий из названий как можно большего количества деревень! потому что у многих деревень одинаковые названия, поэтому опечатка довольно трудна и рискованна! есть разница в одну или две буквы. Итак, чем больше набор данных, тем лучше. Затем попробуйте использовать TF-IDF для комбинации названия деревни и PIN-кода (эта ссылка может быть полезна для индийских данных) или вы можете использовать нечеткую логику. Надеюсь, поможет! Удачного кодирования!
Вы можете попробовать библиотеку fasttext из Facebook, чтобы сделать классификацию.