Доступ к атрибуту элементов в массиве numpy

Question

Доступ к атрибуту элементов в массиве numpy

1

У меня есть полный массив объектов (dtype = object) класса cftime.

In [1]: a
Out[1]: 
array([cftime.DatetimeNoLeap(2000, 1, 1, 11, 29, 59, 999996, 5, 1),
       cftime.DatetimeNoLeap(2000, 1, 2, 11, 29, 59, 999996, 6, 2),
       cftime.DatetimeNoLeap(2000, 1, 3, 11, 29, 59, 999996, 0, 3)],
      dtype=object)

In [2]: type(a[0])
Out[2]: cftime._cftime.DatetimeNoLeap

Каждый из этих объектов имеет атрибут month.

a[0].month
Out[66]: 1

Я хотел бы получить новый массив с такой же формой, но заполненный этим атрибутом для каждого из элементов исходного массива. Что-то вроде b=a.month. Но, очевидно, это не удается, так как является NumPy массива без a month атрибута. Как мне достичь этого результата?

PS: конечно, я мог бы сделать это с простым циклом Python, но я хотел бы следовать полностью тупому подходу:

b=np.zeros_like(a, dtype=int)
for i in range(a.size):
    b[i] = a[i].month

Onturenio 15 янв. 2019, в 15:29

Источник

0

Не тупой ответ, но если не считать, что вы должны использовать понимание цикла / списка. Вы можете создать список, сказав list = [ele] * n , но все элементы ссылаются на одно и то же пространство памяти - изменение любого из них повлияет на остальные. Понимание петли / списка избегает этого.
KuboMD 15 янв. 2019, в 13:36
0

Почему массив объектов вместо списка? Это не быстрее и не проще.
hpaulj 15 янв. 2019, в 16:30
0

Не мой выбор. Это, как я получаю данные из предварительного вызова в num2date функции пакете cftime.
Onturenio 16 янв. 2019, в 09:46
0

cftime написано на cython (Python скомпилирован в c (насколько это возможно)). Поэтому убедитесь, что вы используете его собственную функциональность как можно больше.
hpaulj 16 янв. 2019, в 17:06

Показать ещё 2 комментария

Теги:

python

numpy

2 ответа

0

У меня не установлено cftime, поэтому я продемонстрирую обычные объекты datetime.

Сначала создайте массив объектов datetime - ленивый способ, используя собственный тип datetime dtype:

In [599]: arr = np.arange('2000-01-11','2000-12-31',dtype='datetime64[D]')
In [600]: arr.shape
Out[600]: (355,)

Создайте массив dtype объекта из этого:

In [601]: arrO = arr.astype(object)

а также список дат:

In [602]: alist = arr.tolist()

Сроки для регулярного понимания списка:

In [603]: timeit [d.month for d in alist]
20.1 µs ± 62.7 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Понимание списка в массиве dtype объекта обычно немного медленнее (но быстрее, чем понимание списка в обычном массиве):

In [604]: timeit [d.month for d in arrO]
30.7 µs ± 266 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

frompyfunc - вот оно медленнее; в других случаях я вижу это в 2 раза быстрее, чем понимание списка:

In [605]: timeit np.frompyfunc(lambda x: x.month, 1,1)(arrO)
51 µs ± 32.4 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

vectorize (почти) всегда медленнее, чем frompyfunc (даже если для реальной итерации используется frompyfunc):

In [606]: timeit np.vectorize(lambda x: x.month, otypes=[int])(arrO)
76.7 µs ± 123 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Вот образцы массивов и список:

In [607]: arr[:5]
Out[607]: 
array(['2000-01-11', '2000-01-12', '2000-01-13', '2000-01-14',
       '2000-01-15'], dtype='datetime64[D]')
In [608]: arrO[:5]
Out[608]: 
array([datetime.date(2000, 1, 11), datetime.date(2000, 1, 12),
       datetime.date(2000, 1, 13), datetime.date(2000, 1, 14),
       datetime.date(2000, 1, 15)], dtype=object)
In [609]: alist[:5]
Out[609]: 
[datetime.date(2000, 1, 11),
 datetime.date(2000, 1, 12),
 datetime.date(2000, 1, 13),
 datetime.date(2000, 1, 14),
 datetime.date(2000, 1, 15)]

frompyfunc и vectorize лучше всего использовать, когда вы хотите всеобщности вещания и многомерных массивов. Для 1d массивов понимание списка почти всегда лучше.

Чтобы сделать frompyfunc, я должен вернуть массив из списка понимания:

In [610]: timeit np.array([d.month for d in arrO])
50.1 µs ± 36.3 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Чтобы получить лучшую скорость с датами в numpy, используйте datatime64 datatime64 вместо dtype объекта. Это позволяет более широко использовать скомпилированный код.

In [611]: timeit arr = np.arange('2000-01-11','2000-12-31',dtype='datetime64[D]'
     ...: )
3.16 µs ± 51 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

In [616]: arr.astype('datetime64[M]')[::60]
Out[616]: 
array(['2000-01', '2000-03', '2000-05', '2000-07', '2000-09', '2000-11'],
      dtype='datetime64[M]')

hpaulj 16 янв. 2019, в 14:50

Ещё вопросы

Не тупой ответ, но если не считать, что вы должны использовать понимание цикла / списка. Вы можете создать список, сказав list = [ele] * n , но все элементы ссылаются на одно и то же пространство памяти - изменение любого из них повлияет на остальные. Понимание петли / списка избегает этого.
Почему массив объектов вместо списка? Это не быстрее и не проще.
Не мой выбор. Это, как я получаю данные из предварительного вызова в num2date функции пакете cftime.
cftime написано на cython (Python скомпилирован в c (насколько это возможно)). Поэтому убедитесь, что вы используете его собственную функциональность как можно больше.

yatu · Accepted Answer · 2019-01-15T11-48-00.000Z

2

Лучший ответ

Вы можете использовать np.vectorize, чтобы отобразить функцию на каждый элемент массива. Для этого случая вы можете определить собственную lambda функцию для извлечения месяца каждой записи. lambda x: x.month:

np.vectorize(lambda x: x.month)(a)
array([1, 1, 1])

yatu 15 янв. 2019, в 11:48

0

Использование np.frompyfunc может быть быстрее. vectorize использует его, но имеет тенденцию быть медленнее.
hpaulj 15 янв. 2019, в 17:22
0

Спасибо за ваш комментарий, посмотрю его :-)
yatu 15 янв. 2019, в 17:23
0

Помогло ли это @Onturenio? Не забудьте подтвердить / принять ответ, если это так, спасибо!
yatu 15 янв. 2019, в 20:22
0

Я попробовал это, и это сработало, но я также читал о том факте, что vectorize в значительной степени является оберткой для цикла, так что на самом деле это не просто крошечный подход к производительности. Но я признаю, что ваше решение работает, поэтому я приму его как решенное. Тем не менее, я попытаюсь исследовать другие варианты, которые могут быть быстрее, возможно, frompyfunc - это способ продолжить.
Onturenio 16 янв. 2019, в 09:41
0

Да это правильно. Я не думаю, что это может быть векторизовано, ведь numpy самом деле не инструмент для работы с объектами datetime или подобными. Таким образом , вы должны будете использовать что - то похожее на map в стандартном питона, и в NumPy вы можете использовать либо vectorize или frompyfunc как @hpaulj suggestes
yatu 16 янв. 2019, в 09:44
0

Массив объектов содержит указатели на объекты в других местах памяти. Это похоже на list . Доступ к атрибутам этих объектов требует того же самого метода Python. frompyfunc упрощает итерацию по этим указателям, но все еще много обработки на уровне Python.
hpaulj 16 янв. 2019, в 16:55

Показать ещё 4 комментария