Каков формат ввода для функций word2vec в задаче классификации SVM?

1

Я делаю бинарную задачу классификации с использованием линейного SVM в Scikit обучения. Я использую именные функции и векторы слов. Я получил векторы слов, используя предварительно обученный Google word2vec, однако я не уверен, как SVM может обрабатывать векторы слов как функцию.
Кажется, мне нужно "разделить" каждый вектор на 300 отдельных объектов (= 300 векторных измерений), потому что я не могу передать вектор в целом в SVM. Но это кажется неправильным, поскольку вектор должен рассматриваться как одна особенность.
Каков будет правильный способ представления вектора в этом случае?

Теги:
word2vec
classification
svm

1 ответ

0
Лучший ответ

Вектор многих функций

С точки зрения SVM каждое измерение слова-вектора будет отдельной числовой характеристикой - каждое измерение в этом векторе представляет числовую метрику, представляющую что-то свое.

То же самое относится и к классификаторам без SVM. Например, если у вас будет нейронная сеть, и ваши входные функции будут состоять из этого слова-вектора длиной 300 и (ради грубого примера), в котором будет указано, было ли это слово написано с большой буквы, тогда вы объедините эти слова и будет иметь 301 число в качестве ввода; вы бы относились к этой функции как к каждому из 300 измерений.

  • 0
    Спасибо за быстрый ответ!

Ещё вопросы

Сообщество Overcoder
Наверх
Меню