Эффективно сравнивайте серии поплавков панд с рядами панд

1

Следующее воспроизводится и возвращает желаемые результаты.

import pandas as pd, numpy as np
np.random.seed(3124)

x = 10 + np.random.rand(10)
y = np.split(10 + np.random.rand(100), 10)

x >= y
# array([[False,  True,  True, False, False, False, False,  True, False, True],
#        ...
#        [False,  True,  True,  True, False,  True, False,  True, False, False]])

np.apply_along_axis(np.greater_equal, 0, x , y)
# same results as x >= y.

Однако, если x и y сверху были сверху, были извлечены из кадра данных pandas, мне нужно преобразовать ряды массивов панд в список массивов. Это очень дорогостоящее вычисление для большой серии.

Как я могу это сделать более эффективным способом?

df = pd.DataFrame({'x':x,'y':y})

df['x'].values >= df['y'].tolist()
# same results as above.

df['x'] >= df['y']
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

df['x'].values >= df['y'].values
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

редактировать

@Дивакар дал правильный ответ на вопрос выше. Однако в моем фактическом случае использование массивов в y будет различной длиной.

Используя y сверху, создайте y2 который ближе к моим данным. Следующее воспроизводится.

y2 = [np.resize(a, r) for a,r in zip(y,np.random.randint(2, 10, 10))]
# yields something like:
# [array([10.1269906 , 10.34269353, 10.39461373, 10.022271  , 10.69316165, 10.83981557, 10.03328485, 10.56850597]), 
# array([10.99159117, 10.21215159, 10.65208435, 10.22483111, 10.13748229, 10.72621328]), 
# ...
# array([10.61071355, 10.62141997]), 
# array([10.3899659 , 10.66207985, 10.85937807]), 
# array([10.38374303, 10.93140162, 10.88535643, 10.51529231, 10.60723795, 10.60504599, 10.6773523 ]), 
# array([10.02775067, 10.91382588, 10.31222259, 10.44732757, 10.16980452, 10.88914854, 10.22677905])]

Следующее возвращает результаты, которые я хочу, но не представляется возможным для размера моего фактического кадра данных. Я предпочел бы сделать это в векторной форме с numpy.

[x[i] >= y2[i] for i in range(len(y2))]
# returns 
# [array([False, False, False, False, False, False, False, False]),
#  array([False,  True, False,  True,  True, False]),
#  ...
#  array([ True,  True]), 
#  array([ True, False, False]),
#  array([False, False, False, False, False, False, False]),
#  array([ True,  True,  True,  True,  True,  True,  True])]
  • 0
    Да, я думаю, что с резкими размерами вам придется прибегнуть к какому-то зацикленному решению. Здесь не видно, как помогает векторизация.
  • 0
    Есть ли векторизованная функция, которая может дополнить все массивы с помощью np.nan чтобы они были одинаковой длины, а затем использовать ваше решение?
Показать ещё 2 комментария
Теги:
pandas
numpy

1 ответ

1
Лучший ответ

Получите базовые данные массива, так что у нас будет y виде 2D массива, позвольте ему обозначить Y и x как 1D, назвав его X Затем выполните сравнение, чтобы использовать broadcasting, например,

Y = np.concatenate(df.y.values).reshape(-1,len(df.y[0]))
X = df.x.values
out = X >= Y

Обратите внимание, что это будет сравнивать каждую запись в df.y с x.

Если вы хотите сравнить каждую запись в x с каждой записью в df.y, продолжите X до 2D а затем сравните: out = X[:,None] >= Y

  • 0
    Спасибо @Divakar. Вы ответили на мой вопрос, когда я его сформулировал, поэтому я принял его как ответ. Хотя для моего фактического варианта использования каждый массив y имеет разный размер.
  • 0
    что-то вроде y2 = [np.resize(a, r) for a,r in zip(y,np.random.randint(2, 10, 10))]
Показать ещё 2 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню