Вычислить корреляцию между функциями и целевой переменной

Question

Вычислить корреляцию между функциями и целевой переменной

1

Какое наилучшее решение для вычисления корреляции между моими объектами и целевой переменной? У моего DataFrame есть 1000 строк и 40 000 столбцов...

Пример:

df = pd.DataFrame([[1, 2, 4 ,6], [1, 3, 4, 7], [4, 6, 8, 12], [5, 3, 2 ,10]], columns=['Feature1', 'Feature2','Feature3','Target'])

Этот код работает отлично, но это слишком долго на моем фреймворке... Мне нужен только последний столбец корреляционной матрицы: корреляция с целевым (не попарно штриховая привязка).

corr_matrix=df.corr()
corr_matrix["Target"].sort_values(ascending=False)

Функция np.corcoeff() работает с массивом, но мы можем исключить парную корреляцию объектов?

Cox Tox 25 сен. 2018, в 14:17

Источник

0

Для лучшего ответа посмотрите здесь: datascience.stackexchange.com/questions/39137/…
anishtain4 26 июль 2019, в 01:37

Теги:

python

dataframe

numpy

correlation

2 ответа

1

Вы можете использовать scipy.stats.pearsonr для каждого столбца функции, например:

import pandas as pd
import numpy as np
from scipy.stats import pearsonr

# example data
df = pd.DataFrame([[1, 2, 4 ,6], [1, 3, 4, 7], [4, 6, 8, 12], [5, 3, 2 ,10]],
                  columns=['Feature1', 'Feature2','Feature3','Target'])

# Only compute pearson prod-moment correlations between feature
# columns and target column
target_col_name = 'Target'
feature_target_corr = {}
for col in df:
    if target_col_name != col:
        feature_target_corr[col + '_' + target_col_name] = \
            pearsonr(df[col], df[target_col_name])[0]
print("Feature-Target Correlations")
print(feature_target_corr)

William Gurecky 25 сен. 2018, в 09:07

1

Это также работает, но решение wm более элегантно
Cox Tox 25 сен. 2018, в 13:02

Ещё вопросы

Для лучшего ответа посмотрите здесь: datascience.stackexchange.com/questions/39137/…
Это также работает, но решение wm более элегантно

w-m · Accepted Answer · 2018-09-25T10-35-00.000Z

Вы можете использовать pandas corr для каждого столбца:

df.drop("Target", axis=1).apply(lambda x: x.corr(df.Target))