Перекрестная проверка стека классификаторов без перемешивания данных возвращает мусор

1

Как продолжение Как составить оценки sklearn, используя другую оценку? Я пытаюсь провести перекрестную проверку стека моделей.

Руководство

Сначала я делаю все шаги вручную, чтобы убедиться, что все работает как задумано:

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_auc_score

X, y = make_classification(n_samples=10000, n_features=40,
                           n_clusters_per_class=10,
                           n_informative=25,
                           random_state=12, shuffle=False)

logit = LogisticRegression(solver="saga",random_state=12).fit(X,y)
logit_yhat = logit.predict_proba(X)[:,1]
print("logit",roc_auc_score(y, logit_yhat))
randf = RandomForestClassifier(n_estimators=10,max_depth=5,min_samples_split=10, random_state=12).fit(X,y)
randf_yhat = randf.predict_proba(X)[:,1]
print("randf",roc_auc_score(y, randf_yhat))
gaunb = GaussianNB().fit(X,y)
gaunb_yhat = gaunb.predict_proba(X)[:,1]
print("gaunb",roc_auc_score(y, gaunb_yhat))
gbcdt = GradientBoostingClassifier(random_state=12).fit(X,y)
gbcdt_yhat = gbcdt.predict_proba(X)[:,1]
print("gbcdt",roc_auc_score(y, gbcdt_yhat))

scores = np.transpose(np.array((logit_yhat, randf_yhat, gaunb_yhat, gbcdt_yhat)))
aggregator = LogisticRegression(solver="saga",random_state=12).fit(scores, y)
aggregator_yhat = aggregator.predict_proba(scores)[:,1]
print("aggregator",aggregator.coef_,roc_auc_score(y, aggregator_yhat))

Это печатает:

logit 0.6913163859713081
randf 0.7871255096874669
gaunb 0.7032834038916749
gbcdt 0.8527915275109933
aggregator [[-3.95961856  5.70858186 -2.45036885 13.3983472 ]] 0.8799606190093959

Все идет нормально.

Использование трубопроводов

Теперь я создаю конвейер и проверяю, что он делает то же самое:

from sklearn.base import BaseEstimator, TransformerMixin, clone
class PredictProbaTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, clf):
        self.clf = clf

    def transform(self, X):
        "Return predict_proba(X)."
        print("transform")
        return self.clf.predict_proba(X)[:,[1]]

    def fit_transform(self, X, y=None, **fit_params):
        print("fit_transform")
        return self.clf.fit(X, y, **fit_params).predict_proba(X)[:,[1]]

from sklearn.pipeline import Pipeline, FeatureUnion
pipe = Pipeline([("stack",FeatureUnion([
    ("logit",PredictProbaTransformer(clone(logit))),
    ("randf",PredictProbaTransformer(clone(randf))),
    ("gaunb",PredictProbaTransformer(clone(gaunb))),
    ("gbcdt",PredictProbaTransformer(clone(gbcdt))),
])), ("aggregator",LogisticRegression(solver="saga",random_state=12))]).fit(X,y)
pipe_yhat = pipe.predict_proba(X)[:,1]
print("pipe",pipe.named_steps["aggregator"].coef_,roc_auc_score(y, pipe_yhat))

Это печатает:

pipe [[-3.95961856  5.70858186 -2.45036885 13.3983472 ]] 0.8799606190093959

Идентична линиям aggregator в разделе "руководство" - хорошо!

Перекрестная проверка

Когда я пытаюсь провести перекрестную проверку pipe, я получаю некоторую странность:

from sklearn.model_selection import cross_validate
pipe_scores = pd.DataFrame(cross_validate(
    pipe, X=X, y=y, return_train_score=True, cv=10, scoring="roc_auc"))

Печатает 10 раз (потому что cv=10) эти 12 строк:

fit_transform --- 4 times
transform     --- 8 times

Потому что он вызывает fit_transform 4 раза для 4 классификаторов в stack для каждой фазы обучения), а затем вызывает transform 4 раза для тех же 4 классификаторов в тестовых данных, а затем еще 4 раза для данных поезда (даже если это уже было сделано) это в фазе поезда).

Самое важное: pipe_scores.describe() - это

        fit_time  score_time  test_score  train_score
count  10.000000   10.000000   10.000000    10.000000
mean    3.329516    0.006074    0.482034     0.895046
std     0.068609    0.000594    0.081499     0.006657
min     3.212703    0.005362    0.299673     0.886333
25%     3.276795    0.005602    0.451310     0.891166
50%     3.350762    0.006122    0.504630     0.892991
75%     3.370433    0.006331    0.519399     0.898570
max     3.425937    0.007302    0.586310     0.906820

Как ни странно, все train_score превышают 88%, которые я получил в своем ручном заезде.

Однако почему test_score выглядит абсолютно случайным?! (среднее значение и медиана составляют около 50%, что соответствует классификатору "броска монеты").

Обходной путь, чтобы избежать этой странности, состоит в том, чтобы перетасовать ряды

Тогда оценки

        fit_time  score_time  test_score  train_score
count  10.000000   10.000000   10.000000    10.000000
mean    3.400829    0.005355    0.774932     0.887762
std     0.125579    0.000444    0.011324     0.003578
min     3.211147    0.004896    0.763047     0.883219
25%     3.333121    0.005074    0.767166     0.884810
50%     3.376660    0.005153    0.772864     0.886907
75%     3.484209    0.005516    0.781219     0.890338
max     3.602676    0.006194    0.799907     0.893941

PS. shuffle в make_classification влияет как на столбцы, так и на строки, в то время как в StratifiedKFold он влияет только на строки, а не на столбцы. Имеет значение только перемешивание строк: если я перемешаю столбцы

X = X[:, np.random.permutation(X.shape[1])]

после make_classification(... shuffle=False) я получаю идентичные GaussianNB и GradientBoostingClassifier и незаметно различаю LogisticRegression и RandomForestClassifier, а cross_validate возвращает случайный test_scores.

  • 0
    Что касается того, почему он печатает преобразование 8 times , см. Мой ответ здесь и конкретно комментарии . Что касается результатов тестов, во всех приведенных выше примерах (без перекрестной проверки) вы тренируетесь и забиваете одни и те же данные ( X , y ). В перекрестной проверке данные поезда и теста разные. Попробуйте использовать разные данные теста поезда для ваших верхних кодов. Может быть, попробуйте настроить гипер-параметры
  • 0
    @VivekKumar: спасибо за ссылку. Когда я вызываю KFold вручную, я получаю те же результаты, я не думаю, что ваше объяснение test_score s держит воду (но я, возможно, неправильно вас понимаю).
Показать ещё 2 комментария
Теги:
scikit-learn
cross-validation

1 ответ

1
Лучший ответ

Что касается того, почему все train_scores превышают 88%, это связано с тем, что при перекрестной проверке вы тренируетесь на 0,9 ваших учебных данных. Таким образом, ваши модели могут (более) соответствовать этим данным. Что касается того, почему test_score настолько мал, когда вы не перетасовываете функции, я считаю, что это происходит потому, что когда перекрестная проверка без тасования не все (из 10) кластеров присутствуют в наборе учебных данных (что составляет 0,9 всех данных), как в наборе данных, они также не перетасовываются.

  • 0
    train_scores звучит правдоподобно, test_score не так много - они абсолютно случайны . Как тасование так сильно влияет на поведение?
  • 0
    Это связано с тем, что shuffle относится к функциям тасования, а не к образцам в make_classification . Вот почему это может оказать такое огромное влияние. Такие модели, как RandomForestClassifier и GradientBoostingClassifier , очень чувствительны к порядку объектов.
Показать ещё 3 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню