Как рассчитать p-значения для парной корреляции столбцов в Pandas?

Question

Как рассчитать p-значения для парной корреляции столбцов в Pandas?

1

Pandas имеет очень удобную функцию для парной корреляции столбцов с помощью pd.corr(). Это означает, что можно сравнить корреляции между столбцами любой длины. Например:

df = pd.DataFrame(np.random.randint(0,100,size=(100, 10)))

     0   1   2   3   4   5   6   7   8   9
0    9  17  55  32   7  97  61  47  48  46
1    8  83  87  56  17  96  81   8  87   0
2   60  29   8  68  56  63  81   5  24  52
3   42  76   6  75   7  59  19  17   3  63
...

Теперь можно проверить корреляцию между всеми 10 столбцами с помощью df.corr(method='pearson'):

      0         1         2         3         4         5         6         7         8         9
0  1.000000  0.082789 -0.094096 -0.086091  0.163091  0.013210  0.167204 -0.002514  0.097481  0.091020
1  0.082789  1.000000  0.027158 -0.080073  0.056364 -0.050978 -0.018428 -0.014099 -0.135125 -0.043797
2 -0.094096  0.027158  1.000000 -0.102975  0.101597 -0.036270  0.202929  0.085181  0.093723 -0.055824
3 -0.086091 -0.080073 -0.102975  1.000000 -0.149465  0.033130 -0.020929  0.183301 -0.003853 -0.062889
4  0.163091  0.056364  0.101597 -0.149465  1.000000 -0.007567 -0.017212 -0.086300  0.177247 -0.008612
5  0.013210 -0.050978 -0.036270  0.033130 -0.007567  1.000000 -0.080148 -0.080915 -0.004612  0.243713
6  0.167204 -0.018428  0.202929 -0.020929 -0.017212 -0.080148  1.000000  0.135348  0.070330  0.008170
7 -0.002514 -0.014099  0.085181  0.183301 -0.086300 -0.080915  0.135348  1.000000 -0.114413 -0.111642
8  0.097481 -0.135125  0.093723 -0.003853  0.177247 -0.004612  0.070330 -0.114413  1.000000 -0.153564
9  0.091020 -0.043797 -0.055824 -0.062889 -0.008612  0.243713  0.008170 -0.111642 -0.153564  1.000000

Есть ли простой способ получить соответствующие p-значения (в идеале в пандах), так как он возвращается, например, scipy kendalltau()?

n1000 10 окт. 2018, в 16:19

Источник

0

что вы подразумеваете под p-значениями? здесь нет гипотезы для проверки
Yuca 10 окт. 2018, в 13:23
0

Я предполагаю, что гипотеза «переменная коррелирует или нет»
Rahul Agarwal 10 окт. 2018, в 13:25
0

@Yuca Я ищу "двустороннее значение p для теста гипотез, нулевая гипотеза которого - отсутствие ассоциации", так как оно возвращается, например, kendalltau ()
n1000 10 окт. 2018, в 13:28

Показать ещё 1 комментарий

Теги:

python

pandas

dataframe

correlation

2 ответа

0

Это будет работать:

from scipy.stats import pearsonr

column_values = [column for column in df.columns.tolist() ]


df['Correlation_coefficent'], df['P-value'] = zip(*df.T.apply(lambda x: pearsonr(x[column_values ],x[column_values ])))
df_result = df[['Correlation_coefficent','P-value']]

Rahul Agarwal 10 окт. 2018, в 10:34

0

Я получаю ("pearsonr() missing 1 required positional argument: 'y'", 'occurred at index 0') . Должен ли я просто повторить x[column_values ] ?
n1000 10 окт. 2018, в 13:36
0

Да .. обновил ответ
Rahul Agarwal 10 окт. 2018, в 13:38
0

Что-то еще здесь ... Откуда должна появиться колонка 'Sam' ? KeyError: "['Sam'] not in index" я получаю KeyError: "['Sam'] not in index"
n1000 10 окт. 2018, в 15:03
0

Я пытался в какой-то другой df и копировать вставил, не задумываясь ... попробуйте сейчас
Rahul Agarwal 10 окт. 2018, в 18:05
0

Спасибо! Это возвращает таблицу 2x100. Тем не менее, я искал таблицу 10x10, которая показывает корреляции / p-значения между столбцами (не строками). Извините, если это не было достаточно ясно из моего вопроса. Пожалуйста, дайте мне знать, если я могу улучшить это.
n1000 11 окт. 2018, в 06:06

Показать ещё 3 комментария

Ещё вопросы

что вы подразумеваете под p-значениями? здесь нет гипотезы для проверки
Я предполагаю, что гипотеза «переменная коррелирует или нет»
@Yuca Я ищу "двустороннее значение p для теста гипотез, нулевая гипотеза которого - отсутствие ассоциации", так как оно возвращается, например, kendalltau ()
Я получаю ("pearsonr() missing 1 required positional argument: 'y'", 'occurred at index 0') . Должен ли я просто повторить x[column_values ] ?
Что-то еще здесь ... Откуда должна появиться колонка 'Sam' ? KeyError: "['Sam'] not in index" я получаю KeyError: "['Sam'] not in index"
Я пытался в какой-то другой df и копировать вставил, не задумываясь ... попробуйте сейчас
Спасибо! Это возвращает таблицу 2x100. Тем не менее, я искал таблицу 10x10, которая показывает корреляции / p-значения между столбцами (не строками). Извините, если это не было достаточно ясно из моего вопроса. Пожалуйста, дайте мне знать, если я могу улучшить это.

ALollz · Accepted Answer · 2018-10-10T10-56-00.000Z

Наверное, просто петля. Это в основном то, что панды делают в исходном коде для создания корреляционной матрицы:

import pandas as pd
import numpy as np
from scipy import stats

df_corr = pd.DataFrame() # Correlation matrix
df_p = pd.DataFrame()  # Matrix of p-values
for x in df.columns:
    for y in df.columns:
        corr = stats.pearsonr(df[x], df[y])
        df_corr.loc[x,y] = corr[0]
        df_p.loc[x,y] = corr[1]

Если вы хотите использовать тот факт, что это симметрично, вам нужно всего лишь вычислить это примерно для половины из них, а затем выполните:

mat = df.values.T
K = len(df.columns)
correl = np.empty((K,K), dtype=float)
p_vals = np.empty((K,K), dtype=float)

for i, ac in enumerate(mat):
    for j, bc in enumerate(mat):
        if i > j:
            continue
        else:
            corr = stats.pearsonr(ac, bc)
            #corr = stats.kendalltau(ac, bc)

        correl[i,j] = corr[0]
        correl[j,i] = corr[0]
        p_vals[i,j] = corr[1]
        p_vals[j,i] = corr[1]

df_p = pd.DataFrame(p_vals)
df_corr = pd.DataFrame(correl)
#pd.concat([df_corr, df_p], keys=['corr', 'p_val'])