Понимание значений решения_функции

Question

Понимание значений решения_функции

1

В настоящее время я нахожусь в середине своего первого машинного обучения, и до сих пор я не совсем получаю масштаб значений, которые получаю от decision_function(X) (как не понимать их).

Основываясь на документации sklearn, решение_функции decision_function(X) предназначено для:

Предсказать оценки доверия для образцов.

Тем не менее, при запуске следующего скрипта:

from sklearn.datasets import fetch_mldata
import numpy as np
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix , precision_score, recall_score


mnist = fetch_mldata('MNIST original')

classifier = SGDClassifier(random_state = 42, max_iter = 5)


X,y = mnist["data"], mnist["target"]
some_digit = X[36001]
some_digit_image = some_digit.reshape(28, 28)

X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

random_order = np.random.permutation(60000)

X_train, y_train = X_train[random_order], y_train[random_order]

y_test_5 = (y_test == 5)
y_train_5 = (y_train == 5)


classifier.fit(X_train, y_train_5)
print(classifier.decision_function([X_test[1]]))

он печатает [-289809.39489525] для функции decision_function на данный момент. Я не уверен, как читать и как оценивать эти значения (я ожидал увидеть проценты). Если бы кто-нибудь мог объяснить мне, что означают эти показания, это было бы очень полезно.

Заранее большое спасибо.

Fozoro 22 июнь 2018, в 01:18

Источник

Теги:

python

machine-learning

scikit-learn

1 ответ

Ещё вопросы

Jan K · Answer 1 · 2018-06-21T20-49-00.000Z

2

Как получить вероятности (проценты)?

Используйте метод predict_proba.

Что такое decision_function ?

Поскольку SGDClassifier является линейной моделью, SGDClassifier decision_function выводит знаковое расстояние до разделительной гиперплоскости. Это число просто < w, x > + b или переведено в имена атрибутов scikit-learn < coef_, x > + intercept_.

Jan K 21 июнь 2018, в 20:49

0

Так как бы я прочитал цифры? Чем они больше, тем увереннее ответ? например, в этом случае [-289809.39489525] модель более уверена в первом значении или во втором?
Fozoro 22 июнь 2018, в 08:16
1

Вам нужно посмотреть на знак. Так что в вашем случае отрицательный знак предполагает, что модель предсказывает, что выборка будет из класса «не пять». Что касается уверенности, то чем больше (в абсолютном выражении), тем увереннее. Однако для достижения вероятности необходимо выполнить масштабирование с помощью сигмоидальной функции.
Jan K 22 июнь 2018, в 08:22
0

оооо, поэтому чем меньше число, тем ближе прогноз к данному классу. другими словами, очень небольшое число == очень уверенно. очень большое число == не так уверен? Спасибо большое за помощь!!!
Fozoro 22 июнь 2018, в 09:03
1

Да, но зачем вообще использовать функцию decision_function - фактическое значение не нормализовано и не полностью интерпретируемо, если не сравнивать с другими образцами. Вы, кажется, интересуетесь окончательными вероятностями, поэтому я просто использовал бы predict_proba
Jan K 22 июнь 2018, в 09:08
1

Дело в том , что я читаю [ shop.oreilly.com/product/0636920052289.do](book) и говорит о decision_function . Поэтому я пытаюсь обойти это.
Fozoro 22 июнь 2018, в 09:12
2

Для дальнейшей ссылки вы можете проверить: datascience.stackexchange.com/questions/18374/…
Arun Joy Thekkiniyath 22 июнь 2018, в 09:13
0

У меня есть только один последний вопрос [-289809.39489525] два разных числа -289809 и 39489525 или это одно целое число -289809.39489525
Fozoro 22 июнь 2018, в 10:30
0

1 номер . представляет десятичную точку
Jan K 22 июнь 2018, в 10:50

Показать ещё 6 комментариев