Сокращение времени расчета и требований к большой ковариационной матрице

Question

Сокращение времени расчета и требований к большой ковариационной матрице

1

В настоящее время я пытаюсь вычислить матрицу ковариации для матрицы строк в 30 тыс. (Все значения находятся в диапазоне [0,1]), и она занимает очень много времени (я позволил ей работать больше и час, и она все еще имеет завершено).

Одна вещь, которую я заметил на более мелких примерах (матрица строк 7k), состоит в том, что выведенные значения имеют смехотворное количество значимых цифр (например, ~ 10 ^ 32) и могут замедлять работу (и увеличивать размер файла) --is там любым способом ограничить это?

Я использую метод ковариации numpys на простом фреймворке данных:

import numpy as np
import pandas as pd
import sklearn as sk

df = pd.read_csv('gene_data/genetic_data25.csv')

df = df.set_index('ID_REF')
df = (df-df.min(axis = 0))/(df.max(axis = 0)-df.min(axis = 0))

cov = np.cov(df)

cov = pd.DataFrame(cov)

cov.to_csv('/gemnetics/cov_matrix.csv')

DrTchocky 26 июль 2018, в 21:29

Источник

0

Сколько столбцов у вашей матрицы? Вывод cov должен быть нормализован, поэтому эти большие числа не имеют смысла. Вы должны знать, если у вас есть прямоугольная матрица с одним измерением намного большим, чем другое (строки в вашем случае), то решение матрицы cov таким способом неэффективно из-за пустых пространств.
anishtain4 26 июль 2018, в 19:08
0

в этом случае мы имеем что-то порядка ~ 10 ^ 3 столбцов, так что это не квадратная матрица. Я не думал о пустых местах, спасибо, что удалил это
DrTchocky 26 июль 2018, в 19:19
0

Могу я спросить, каков следующий шаг? Может быть способ решить проблему с правильными собственными значениями вместо формирования всей ковариационной матрицы.
anishtain4 26 июль 2018, в 19:23
0

Я пробую множество способов построения ориентированных ациклических графов, используя значения ковариации в качестве весов между узлами (например, строки в моей матрице. Матрица - это значения выражения гена в серии экспериментов, и я хочу посмотреть, данные могут показать, какие группы генов взаимодействуют друг с другом и каким образом). Я предполагаю, что собственные значения могли бы достигнуть этого также.
DrTchocky 26 июль 2018, в 19:48
0

Похоже, это должно быть довольно быстро; 30K на 1K не слишком велика в наши дни, хотя, конечно, YMMV. Возможно, в классе df есть некоторые непредвиденные издержки - возможно, попробуйте прочитать csv в R или, возможно, Octave и вычислите ковариацию там. Возможно, попробуйте подмножества столбцов, чтобы увидеть, как масштабируется требуемое время и, следовательно, оценивать время, необходимое для всех столбцов 1k. В более широкой картине мне интересно, уместны ли здесь ориентированные графы, поскольку ковариация кажется более естественно ненаправленной. Похоже, вы ищете клики в неориентированном графике - возможно, уже есть какая-то работа над этим.
Robert Dodier 26 июль 2018, в 22:09

Показать ещё 3 комментария

Теги:

python

numpy

statistics

1 ответ

Ещё вопросы

Сколько столбцов у вашей матрицы? Вывод cov должен быть нормализован, поэтому эти большие числа не имеют смысла. Вы должны знать, если у вас есть прямоугольная матрица с одним измерением намного большим, чем другое (строки в вашем случае), то решение матрицы cov таким способом неэффективно из-за пустых пространств.
в этом случае мы имеем что-то порядка ~ 10 ^ 3 столбцов, так что это не квадратная матрица. Я не думал о пустых местах, спасибо, что удалил это
Могу я спросить, каков следующий шаг? Может быть способ решить проблему с правильными собственными значениями вместо формирования всей ковариационной матрицы.
Я пробую множество способов построения ориентированных ациклических графов, используя значения ковариации в качестве весов между узлами (например, строки в моей матрице. Матрица - это значения выражения гена в серии экспериментов, и я хочу посмотреть, данные могут показать, какие группы генов взаимодействуют друг с другом и каким образом). Я предполагаю, что собственные значения могли бы достигнуть этого также.
Похоже, это должно быть довольно быстро; 30K на 1K не слишком велика в наши дни, хотя, конечно, YMMV. Возможно, в классе df есть некоторые непредвиденные издержки - возможно, попробуйте прочитать csv в R или, возможно, Octave и вычислите ковариацию там. Возможно, попробуйте подмножества столбцов, чтобы увидеть, как масштабируется требуемое время и, следовательно, оценивать время, необходимое для всех столбцов 1k. В более широкой картине мне интересно, уместны ли здесь ориентированные графы, поскольку ковариация кажется более естественно ненаправленной. Похоже, вы ищете клики в неориентированном графике - возможно, уже есть какая-то работа над этим.

anishtain4 · Answer 1 · 2018-07-27T13-34-00.000Z

Поскольку я не знаком с генетикой, я дам вам общие рекомендации и надеюсь, что это сработает. Предположим, что у вас есть данные в матрице X которая равна 30 + k на 1k. Вам действительно не нужно нормализовать свои данные (если это не имеет для вас значения), но и для вычисления ковариации, которую вы должны сосредоточить на ней. Тогда вы можете вычислить правильные собственные векторы:

Xp=X-X.mean(axis=0,keepdims=True)
k=Xp.T @ Xp
ev,R=np.linalg.eigh(k)
ev=ev[::-1]
R=R[:,::-1]

На этом этапе вы должны посмотреть на собственные значения, чтобы увидеть, есть ли в них резкое падение (это метод Scree), позвольте этому номеру отсечки n. Если нет, то вам просто нужно выбрать, какой процент собственных значений вы хотите сохранить. Следующим шагом будет восстановление левых собственных векторов:

L=X @ R[:,:n]

Теперь RT говорит вам, какая комбинация собственных векторов важна, а собственные векторы (L) являются наиболее заметными комбинациями ваших генов. Надеюсь, это поможет.