Векторизованный расчет среднего значения и числа уникальных значений с плавающей точкой в каждом ряду панд DataFrame

Question

Векторизованный расчет среднего значения и числа уникальных значений с плавающей точкой в каждом ряду панд DataFrame

1

Я хочу рассчитать среднее значение (т.е. Numpy.mean) и sem (т.е. scipy.stats.sem) уникальных значений float в каждой строке pandas DataFrame в векторном виде.

Пример ввода:

import pandas as pd
t = pd.DataFrame(data={'c1':[1.,2.,3.,4.],
                       'c2':[1.,2.,3.,3.],
                       'c3':[1.,2.,2.,2.],
                       'c4':[1.,1.,1.,1.]})
t.index.name = 'i'
# unique values: [1] [1,2] [1,2,3] [1,2,3,4]

Ожидаемый результат:

   mean       sem
i                
0   1.0       NaN
1   1.5  0.500000
2   2.0  0.577350
3   2.5  0.645497

Пожалуйста, не отправляйте не векторизованные решения вроде этого:

import numpy as np, scipy.stats as ss
def fun(x):
    r = x.transpose()[x.index[0]].value_counts(sort=False).rename('count')
    r.index.name = 'value'
    y = r.index.values
    return pd.DataFrame({'mean':np.mean(y), 'sem':ss.sem(y)}, index=[0])

t2 = t.groupby(t.index.names).apply(fun)
t2.index = t2.index.droplevel(1)

Реальный DataFrame имеет> 1e12 строк, поэтому неэффективные решения не будут делать.

В идеале было бы здорово иметь условие уникальности (т.е. абс. Разность или отклонение отношения от одного) от значений float, но любое эффективное решение было бы удивительным.

Спасибо за помощь!

S.V 23 авг. 2018, в 23:30

Источник

0

Я не верю, что векторизованное решение возможно - в основном потому, что у панд нет векторизованной функции для определения уникальности.
DYZ 23 авг. 2018, в 20:53
0

@DYZ: у Панд есть такие функции. Например, pandas.Series.value_counts , pandas.Series.unique , pandas.core.groupby.SeriesGroupBy.unique , pandas.unique и т. Д. Вопрос заключается в том, существует ли способ эффективного объединения таких функций. Я полагаю, что решение транспонировало бы входной DataFrame таким образом, чтобы строки становились столбцами, а затем применяли одну из функций уникальности к столбцам Series. Обратите внимание, что настоящий DataFrame имеет MultiIndex, поэтому при его выполнении необходимо соблюдать осторожность.
S.V 23 авг. 2018, в 21:00
0

Все функции, которые вы упомянули, применимы только к серии, а не к фрейму данных. Это означает, что они должны применяться к одному ряду за раз. Таким образом, они не векторизованы.
DYZ 23 авг. 2018, в 21:02
0

@DYZ: Если бы это было так, я должен был бы написать код C ++, чтобы сделать это. Огромным обломом является то, что в C ++ нет аналога панд, и поэтому мне нужно было бы найти способ преобразовать панду DataFrame в список массивов C ++, а затем преобразовать их обратно в панду DataFrame.
S.V 23 авг. 2018, в 21:08
0

В реальной проблеме у вас есть ограничение на количество столбцов? 1e12 строк много, поэтому даже довольно эффективные подходы будут очень медленными после умножения на это N.
DSM 23 авг. 2018, в 22:10
0

@DYZ: в реальной задаче у меня есть конечное число столбцов, которое невелико. Но разные столбцы могут содержать дублированную информацию, поэтому необходимо выбирать только уникальные значения.
S.V 23 авг. 2018, в 22:41

Показать ещё 4 комментария

Теги:

python

pandas

mean

vectorization

rows

2 ответа

3

Вот почти векторизованное решение, единственная не-векторизованная операция создает вашу маску, которая в основном векторизована, но вам нужно создать один за столбец.

m = np.column_stack([t[col].duplicated() for col in t])
out = t.mask(m)
pd.DataFrame({'mean': np.mean(out), 'sem':ss.sem(out, nan_policy='omit').data})

    mean       sem
c1   2.5  0.645497
c2   2.0  0.577350
c3   1.5  0.500000
c4   1.0  0.000000

У меня недостаточно памяти, чтобы проверить это на вашем размере DataFrame, но вот образец на 1-миллионной строке DataFrame:

t = pd.concat([t]*250000)

In [649]: %%timeit
     ...: m = np.column_stack([t[col].duplicated() for col in t])
     ...: out = t.mask(m)
     ...: pd.DataFrame({'mean': np.mean(out), 'sem':ss.sem(out, nan_policy='omit').data})
     ...:
326 ms ± 10.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

user3483203 23 авг. 2018, в 19:19

1

Это круто.
DYZ 23 авг. 2018, в 21:10
0

Не могли бы вы проверить время моего решения?
WeNYoBen 23 авг. 2018, в 21:22
0

Да, время это сейчас!
user3483203 23 авг. 2018, в 21:26
0

Мне кажется, что это решение ищет уникальные значения в столбцах, а не в строках. Попробуйте применить его к моему примеру ввода, но с добавлением дополнительной строки [5., 4., 3., 1.]. Ваше решение полностью изменит результаты для первых 4 строк, и результирующий DataFrame будет иметь размеры 4x2. В то время как ожидаемый результат состоит в том, что первые 4 строки результата останутся прежними, и результат должен иметь форму 5x2.
S.V 23 авг. 2018, в 21:28
0

@SV, если это на строку, то это решение все еще очень медленное из-за того, сколько времени занимает создание начальной маски.
user3483203 23 авг. 2018, в 21:38

Показать ещё 3 комментария

Ещё вопросы

Я не верю, что векторизованное решение возможно - в основном потому, что у панд нет векторизованной функции для определения уникальности.
@DYZ: у Панд есть такие функции. Например, pandas.Series.value_counts , pandas.Series.unique , pandas.core.groupby.SeriesGroupBy.unique , pandas.unique и т. Д. Вопрос заключается в том, существует ли способ эффективного объединения таких функций. Я полагаю, что решение транспонировало бы входной DataFrame таким образом, чтобы строки становились столбцами, а затем применяли одну из функций уникальности к столбцам Series. Обратите внимание, что настоящий DataFrame имеет MultiIndex, поэтому при его выполнении необходимо соблюдать осторожность.
Все функции, которые вы упомянули, применимы только к серии, а не к фрейму данных. Это означает, что они должны применяться к одному ряду за раз. Таким образом, они не векторизованы.
@DYZ: Если бы это было так, я должен был бы написать код C ++, чтобы сделать это. Огромным обломом является то, что в C ++ нет аналога панд, и поэтому мне нужно было бы найти способ преобразовать панду DataFrame в список массивов C ++, а затем преобразовать их обратно в панду DataFrame.
В реальной проблеме у вас есть ограничение на количество столбцов? 1e12 строк много, поэтому даже довольно эффективные подходы будут очень медленными после умножения на это N.
@DYZ: в реальной задаче у меня есть конечное число столбцов, которое невелико. Но разные столбцы могут содержать дублированную информацию, поэтому необходимо выбирать только уникальные значения.
Не могли бы вы проверить время моего решения?
Мне кажется, что это решение ищет уникальные значения в столбцах, а не в строках. Попробуйте применить его к моему примеру ввода, но с добавлением дополнительной строки [5., 4., 3., 1.]. Ваше решение полностью изменит результаты для первых 4 строк, и результирующий DataFrame будет иметь размеры 4x2. В то время как ожидаемый результат состоит в том, что первые 4 строки результата останутся прежними, и результат должен иметь форму 5x2.
@SV, если это на строку, то это решение все еще очень медленное из-за того, сколько времени занимает создание начальной маски.

Wen · Accepted Answer · 2018-08-23T18-48-00.000Z

2

Лучший ответ

IIUC, pandas имеют sem, вам не нужно вызывать scipy

newdf=pd.DataFrame(list(map(set,t.values)))
newdf.T.agg(['mean','sem']).T
Out[436]: 
   mean       sem
0   1.0       NaN
1   1.5  0.500000
2   2.0  0.577350
3   2.5  0.645497

Wen 23 авг. 2018, в 18:48

0

Хотя это работает правильно, это решение очень медленное. Его применение на 1000 строк занимает 2,8 секунды, что соответствует 88 годам для 1–12 строк.
S.V 24 авг. 2018, в 13:06
0

@SV медленнее чем у тебя?
WeNYoBen 24 авг. 2018, в 13:08
0

@SV sem - функция затрат времени, вы можете посмотреть на cpython или найти тренд в исходных данных и оптимизировать их.
WeNYoBen 24 авг. 2018, в 13:19
0

Мое решение только в 3 раза медленнее, чем ваше. В вашем решении: map занимает 2e-4 секунды, +list занимает 7e-3 секунды, +DataFrame занимает 1e-2 секунды, +.T занимает 1e-2 секунды, +agg занимает 2,8 секунды, +.T занимает 2,8 секунды. Итак, самая медленная часть - это agg . Если вместо agg(['mean','sem']) я вызываю .mean() и .sem() отдельности, решение занимает 3e-2 секунды. Так что это один из способов сделать это в 100 раз быстрее. Значит, mean и sem быстрые, но таким образом agg['mean','sem']) называть их медленными.
S.V 24 авг. 2018, в 13:44
0

@SV, тогда давайте сделаем один вызов, затем объединяем их вместе
WeNYoBen 24 авг. 2018, в 13:54
1

Да, вот быстрая версия: t2 = pd.DataFrame(list(map(set,t.values))).T; pd.DataFrame({'mean':t2.mean().T, 'sem':t2.sem().T}) . Время сокращается с 2,8 с до 1-е-2 с.
S.V 24 авг. 2018, в 13:56
0

@SV здорово, я не проверял время на моей стороне, спасибо, что поделились информацией.
WeNYoBen 24 авг. 2018, в 13:57
0

Спасибо за предоставление основных идей!
S.V 24 авг. 2018, в 13:58

Показать ещё 6 комментариев