Как продолжение Как составить оценки sklearn, используя другую оценку? Я пытаюсь провести перекрестную проверку стека моделей.
Сначала я делаю все шаги вручную, чтобы убедиться, что все работает как задумано:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_auc_score
X, y = make_classification(n_samples=10000, n_features=40,
n_clusters_per_class=10,
n_informative=25,
random_state=12, shuffle=False)
logit = LogisticRegression(solver="saga",random_state=12).fit(X,y)
logit_yhat = logit.predict_proba(X)[:,1]
print("logit",roc_auc_score(y, logit_yhat))
randf = RandomForestClassifier(n_estimators=10,max_depth=5,min_samples_split=10, random_state=12).fit(X,y)
randf_yhat = randf.predict_proba(X)[:,1]
print("randf",roc_auc_score(y, randf_yhat))
gaunb = GaussianNB().fit(X,y)
gaunb_yhat = gaunb.predict_proba(X)[:,1]
print("gaunb",roc_auc_score(y, gaunb_yhat))
gbcdt = GradientBoostingClassifier(random_state=12).fit(X,y)
gbcdt_yhat = gbcdt.predict_proba(X)[:,1]
print("gbcdt",roc_auc_score(y, gbcdt_yhat))
scores = np.transpose(np.array((logit_yhat, randf_yhat, gaunb_yhat, gbcdt_yhat)))
aggregator = LogisticRegression(solver="saga",random_state=12).fit(scores, y)
aggregator_yhat = aggregator.predict_proba(scores)[:,1]
print("aggregator",aggregator.coef_,roc_auc_score(y, aggregator_yhat))
Это печатает:
logit 0.6913163859713081
randf 0.7871255096874669
gaunb 0.7032834038916749
gbcdt 0.8527915275109933
aggregator [[-3.95961856 5.70858186 -2.45036885 13.3983472 ]] 0.8799606190093959
Все идет нормально.
Теперь я создаю конвейер и проверяю, что он делает то же самое:
from sklearn.base import BaseEstimator, TransformerMixin, clone
class PredictProbaTransformer(BaseEstimator, TransformerMixin):
def __init__(self, clf):
self.clf = clf
def transform(self, X):
"Return predict_proba(X)."
print("transform")
return self.clf.predict_proba(X)[:,[1]]
def fit_transform(self, X, y=None, **fit_params):
print("fit_transform")
return self.clf.fit(X, y, **fit_params).predict_proba(X)[:,[1]]
from sklearn.pipeline import Pipeline, FeatureUnion
pipe = Pipeline([("stack",FeatureUnion([
("logit",PredictProbaTransformer(clone(logit))),
("randf",PredictProbaTransformer(clone(randf))),
("gaunb",PredictProbaTransformer(clone(gaunb))),
("gbcdt",PredictProbaTransformer(clone(gbcdt))),
])), ("aggregator",LogisticRegression(solver="saga",random_state=12))]).fit(X,y)
pipe_yhat = pipe.predict_proba(X)[:,1]
print("pipe",pipe.named_steps["aggregator"].coef_,roc_auc_score(y, pipe_yhat))
Это печатает:
pipe [[-3.95961856 5.70858186 -2.45036885 13.3983472 ]] 0.8799606190093959
Идентична линиям aggregator
в разделе "руководство" - хорошо!
Когда я пытаюсь провести перекрестную проверку pipe
, я получаю некоторую странность:
from sklearn.model_selection import cross_validate
pipe_scores = pd.DataFrame(cross_validate(
pipe, X=X, y=y, return_train_score=True, cv=10, scoring="roc_auc"))
Печатает 10 раз (потому что cv=10
) эти 12 строк:
fit_transform --- 4 times
transform --- 8 times
Потому что он вызывает fit_transform
4 раза для 4 классификаторов в stack
для каждой фазы обучения), а затем вызывает transform
4 раза для тех же 4 классификаторов в тестовых данных, а затем еще 4 раза для данных поезда (даже если это уже было сделано) это в фазе поезда).
Самое важное: pipe_scores.describe()
- это
fit_time score_time test_score train_score
count 10.000000 10.000000 10.000000 10.000000
mean 3.329516 0.006074 0.482034 0.895046
std 0.068609 0.000594 0.081499 0.006657
min 3.212703 0.005362 0.299673 0.886333
25% 3.276795 0.005602 0.451310 0.891166
50% 3.350762 0.006122 0.504630 0.892991
75% 3.370433 0.006331 0.519399 0.898570
max 3.425937 0.007302 0.586310 0.906820
Как ни странно, все train_score
превышают 88%, которые я получил в своем ручном заезде.
Однако почему test_score
выглядит абсолютно случайным?! (среднее значение и медиана составляют около 50%, что соответствует классификатору "броска монеты").
Обходной путь, чтобы избежать этой странности, состоит в том, чтобы перетасовать ряды
shuffle=True
(вместо False
) в make_classification
cv=StratifiedKFold(n_splits=10,shuffle=True,random_state=12)
(вместо 10
) в cross_validate
.Тогда оценки
fit_time score_time test_score train_score
count 10.000000 10.000000 10.000000 10.000000
mean 3.400829 0.005355 0.774932 0.887762
std 0.125579 0.000444 0.011324 0.003578
min 3.211147 0.004896 0.763047 0.883219
25% 3.333121 0.005074 0.767166 0.884810
50% 3.376660 0.005153 0.772864 0.886907
75% 3.484209 0.005516 0.781219 0.890338
max 3.602676 0.006194 0.799907 0.893941
PS. shuffle
в make_classification
влияет как на столбцы, так и на строки, в то время как в StratifiedKFold
он влияет только на строки, а не на столбцы. Имеет значение только перемешивание строк: если я перемешаю столбцы
X = X[:, np.random.permutation(X.shape[1])]
после make_classification(... shuffle=False)
я получаю идентичные GaussianNB
и GradientBoostingClassifier
и незаметно различаю LogisticRegression
и RandomForestClassifier
, а cross_validate
возвращает случайный test_scores
.
Что касается того, почему все train_scores
превышают 88%, это связано с тем, что при перекрестной проверке вы тренируетесь на 0,9 ваших учебных данных. Таким образом, ваши модели могут (более) соответствовать этим данным. Что касается того, почему test_score
настолько мал, когда вы не перетасовываете функции, я считаю, что это происходит потому, что когда перекрестная проверка без тасования не все (из 10) кластеров присутствуют в наборе учебных данных (что составляет 0,9 всех данных), как в наборе данных, они также не перетасовываются.
train_scores
звучит правдоподобно, test_score
не так много - они абсолютно случайны . Как тасование так сильно влияет на поведение?
shuffle
относится к функциям тасования, а не к образцам в make_classification
. Вот почему это может оказать такое огромное влияние. Такие модели, как RandomForestClassifier
и GradientBoostingClassifier
, очень чувствительны к порядку объектов.
8 times
, см. Мой ответ здесь и конкретно комментарии . Что касается результатов тестов, во всех приведенных выше примерах (без перекрестной проверки) вы тренируетесь и забиваете одни и те же данные (X
,y
). В перекрестной проверке данные поезда и теста разные. Попробуйте использовать разные данные теста поезда для ваших верхних кодов. Может быть, попробуйте настроить гипер-параметрыKFold
вручную, я получаю те же результаты, я не думаю, что ваше объяснениеtest_score
s держит воду (но я, возможно, неправильно вас понимаю).