Классификация текста и рекомендации

1

Я пытаюсь создать алгоритм машинного обучения, для классификации адресов или аналогичной классификации адресов, для сельских районов (деревень). У меня есть исторические данные, которые включают в себя список адресов (независимая переменная), название деревни (независимая переменная), пин-коды (независимая переменная), номер мобильного телефона клиента и номер маршрута (зависимая переменная). Маршрут № предназначен для корзины доставки, которая поможет им покрыть максимальное количество пунктов назначения доставки в этой области.

Проблемы -

  1. "Адрес" можно пропустить по буквам.
  2. "Название деревни" может быть нулевым.
  3. "Пин-коды" могут быть ошибочными.

Хорошая вещь -

Не все независимые переменные могут быть неправильными/нулевыми одновременно.

Теперь целью создания этого алгоритма является выбор лучшего номера маршрута на основе "адреса", "деревень", "пин-кодов" и исторических данных (в которых мы вручную выбрали маршрут для тележек доставки).

Я новичок, я запутался, как это сделать, какой процесс использовать.

Задание я выполнил.

Очистка адреса - удалены короткие слова, удалены большие слова, удалены стоп-слова.

Сейчас пытаюсь сделать это с помощью слова вектор, но я не могу этого сделать.

Теги:
machine-learning

2 ответа

0

для этого вам сначала нужно будет создать набор данных, состоящий из названий как можно большего количества деревень! потому что у многих деревень одинаковые названия, поэтому опечатка довольно трудна и рискованна! есть разница в одну или две буквы. Итак, чем больше набор данных, тем лучше. Затем попробуйте использовать TF-IDF для комбинации названия деревни и PIN-кода (эта ссылка может быть полезна для индийских данных) или вы можете использовать нечеткую логику. Надеюсь, поможет! Удачного кодирования!

0

Вы можете попробовать библиотеку fasttext из Facebook, чтобы сделать классификацию.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню