Разверните массив пустот по новому измерению, используя значения в качестве индекса

Question

Разверните массив пустот по новому измерению, используя значения в качестве индекса

1

У меня есть массив [m,m] numpy с элементом в {0, 1, 2,..., 24}, теперь я хочу разделить каждое число в третьем измерении, чтобы получить массив [m,m,24].

простой пример, массив [5,5] с элементом в {0, 1, 2, 3}

Теперь мне нужно получить массив [5,5,3]

[[0 0 1 0 0
  0 0 0 0 1
  0 0 0 1 0
  0 0 1 0 0
  1 0 0 0 1]
 [0 0 0 0 0
  2 0 0 0 0
  0 2 0 0 0
  0 0 0 0 0
  0 0 2 0 0]
 [0 0 0 0 0
  0 0 3 0 0
  0 0 3 0 0
  0 0 0 0 0
  0 0 0 0 0]]

В настоящее время у меня есть простой метод, но это очень дорого. Потому что мне нужно делать эту операцию часто.

img = np.expand_dims(img, axis=2)
for i in range(24):
    img_norm[..., i] = (img[..., 0] == (i + np.ones(shape=img[..., 0].shape)))

Для массива 64 с размером [224,224] и элементом в {0, 1, 2,..., 24} приведенный выше код занимает около 5s.

Есть ли более быстрый способ сделать это?

Lee David 10 янв. 2019, в 10:39

Источник

0

Что случилось с 0 с в вашем примере? Кажется, вы подходите только для 1, 2 и 3.
0 0 10 янв. 2019, в 10:26
0

Можете ли вы предоставить нам способ тестирования большого набора данных? Спасибо
IMCoins 10 янв. 2019, в 10:30
0

Не уверен, почему этот вопрос получает отрицательные отзывы. Это просто отлично. Хотите тестовый набор данных? Сделать один в один лайнер! Смотрите ответы на данный момент для вдохновения.
Jean-François Corbett 10 янв. 2019, в 10:37
0

@ 9769953 ОП не заботится о нулях.
Jean-François Corbett 10 янв. 2019, в 10:39
0

@ Jean-FrançoisCorbett Я не вижу, что указано в вопросе: он явно упоминает элементы {0, 1, 2, 3} в примере и аналогично для фактических данных. Было бы хорошо, если бы ОП разъяснил это.
0 0 10 янв. 2019, в 10:43
0

Привет, извините за опоздание. Вот пример данных . Это изображение размером 224x224 человека, состоящее из 24 частей. Мне нужно разделить каждую часть на отдельный канал во время обучения. Поэтому мне нужен быстрый способ выполнить эту операцию.
Lee David 10 янв. 2019, в 11:54
0

@ 9769953 Из приведенного примера видно, что нули не предназначены для регистрации в выходном трехмерном массиве. (Потому что, если бы они были, это был бы просто двумерный слой нулей - никакого значения в этом - тривиальный, чтобы добавить, если это желательно.)
Jean-François Corbett 10 янв. 2019, в 12:04
0

Для массивов 224x224 все, что вы просите, все еще хорошо. Однако, если ваши массивы станут больше, то, вероятно, будет более эффективно анализировать каждый слой по одному, а не объединять их все в один массив. (Например, вам, вероятно, не хочется работать с одним массивом 2000x2000x200, и вы бы предпочли работать с 20 отдельными массивами 2000x2000 отдельно, поэтому вам не нужно хранить их все в памяти.)
acdr 10 янв. 2019, в 13:43
0

@acdr Привет, мой размер данных [64, 224, 224, 1] со всеми элементами в наборе {0, 1, 2, ..., 24} , и мне нужно преобразовать их в [64, 224, 224, 24] до подачи в сеть.
Lee David 11 янв. 2019, в 02:13

Показать ещё 7 комментариев

Теги:

python

numpy

3 ответа

1

Определенно более элегантно: используйте np.ndenumerate().

for (i,j), val in np.ndenumerate(img):
    img_norm[val-1,i,j] = val

Похоже, это должно быть быстрее, чем у вас, потому что O (N ^ 2), а не O (N ^ 3). Давайте попробуем это на массиве с размером и содержанием, как вы описываете:

def getnorm_ndenumerate(img):
    img_norm = np.zeros([np.max(img), *img.shape])
    for (i,j), val in np.ndenumerate(img):
        img_norm[val-1,i,j] = val  
    return img_norm

b = np.int64(25*np.random.rand(224, 224)) 

%timeit getnorm_ndenumerate(b)

дает

47.8 ms ± 1.38 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Это действительно быстрее, чем у вас. Но элегантность имеет свою цену, потому что она медленнее, чем метод acdr.

Jean-François Corbett 10 янв. 2019, в 09:03

0

Я сделал ошибку, в выходном массиве все ненулевые значения должны быть равны 1. Извините за мою глупую ошибку.

Спасибо за всю вашу помощь. Я проверил три метода выше, в том числе код от Jean-François Corbett, acdr + Jean-François Corbett и мой. Оказывается, метод от acdr + Jean-François Corbett самый быстрый.

Вот мой тестовый код

def test_time():
    def func1(img, max_num):
        w, h = img.shape
        img_norm = np.zeros([w, h, max_num], np.float32)
        for (i, j), val in np.ndenumerate(img):
            # img_norm[i, j, val - 1] = val
            img_norm[i, j, val - 1] = 0 if val == 0 else 1
        return img_norm

    def func2(img, max_num):
        w, h = img.shape
        img_norm = np.zeros([w, h, max_num], np.float32)
        for idx in range(1, max_num + 1):
            # img_norm[:, :, idx - 1] = idx*(img == idx)
            img_norm[:, :, idx - 1] = (img == idx)
        return img_norm

    def func3(img, max_num):
        w, h = img.shape
        img_norm = np.zeros([w, h, max_num], np.float32)
        for idx in range(max_num):
            # img_norm[:, :, idx] = (idx+1) * (img[:, :, 0] == (idx + np.ones(shape=img[:, :, 0].shape)))
            img_norm[:, :, idx] = (img == (idx + np.ones(shape=img.shape)))
        return img_norm

    import cv2
    img_tmp = cv2.imread('dat.png', cv2.IMREAD_UNCHANGED)
    img_tmp = np.asarray(img_tmp, np.int)

    # img_tmp = np.array([
    #     [0, 0, 1, 0, 0],
    #     [2, 0, 3, 0, 1],
    #     [0, 2, 3, 1, 0],
    #     [0, 0, 1, 0, 0],
    #     [1, 0, 2, 0, 1],
    # ])

    img_bkp = np.array(img_tmp, copy=True)
    print(img_bkp.shape)
    import time
    cnt = 100
    maxnum = 24
    start_time = time.time()
    for i in range(cnt):
        _ = func1(img_tmp, maxnum)
    print('1 total time =', time.time() - start_time)

    start_time = time.time()
    for i in range(cnt):
        _ = func2(img_tmp, maxnum)
    print('2 total time =', time.time() - start_time)

    start_time = time.time()
    for i in range(cnt):
        _ = func3(img_tmp, maxnum)
    print('3 total time =', time.time() - start_time)

    print((img_tmp == img_bkp).all())
    img1 = func1(img_tmp, maxnum)
    img2 = func2(img_tmp, maxnum)
    img3 = func3(img_tmp, maxnum)
    print(img1.shape, img2.shape, img3.shape)
    print((img1 == img2).all())
    print((img2 == img3).all())
    print((img1 == img3).all())
    # print(type(img1[0, 0, 0]), type(img2[0, 0, 0]), type(img3[0, 0, 0]))
    # print('img1\n', img1[:, :, 2])
    # print('img3\n', img3[:, :, 2])

Вывод

    (224, 224)
    1 total time = 4.738261938095093
    2 total time = 0.7725710868835449
    3 total time = 1.5980615615844727
    True
    (224, 224, 24) (224, 224, 24) (224, 224, 24)
    True
    True
    True

Если есть какие-либо проблемы, пожалуйста, оставьте это в комментариях.

Спасибо за вашу помощь!

Lee David 10 янв. 2019, в 10:47

Ещё вопросы

Что случилось с 0 с в вашем примере? Кажется, вы подходите только для 1, 2 и 3.
Можете ли вы предоставить нам способ тестирования большого набора данных? Спасибо
Не уверен, почему этот вопрос получает отрицательные отзывы. Это просто отлично. Хотите тестовый набор данных? Сделать один в один лайнер! Смотрите ответы на данный момент для вдохновения.
@ Jean-FrançoisCorbett Я не вижу, что указано в вопросе: он явно упоминает элементы {0, 1, 2, 3} в примере и аналогично для фактических данных. Было бы хорошо, если бы ОП разъяснил это.
Привет, извините за опоздание. Вот пример данных . Это изображение размером 224x224 человека, состоящее из 24 частей. Мне нужно разделить каждую часть на отдельный канал во время обучения. Поэтому мне нужен быстрый способ выполнить эту операцию.
@ 9769953 Из приведенного примера видно, что нули не предназначены для регистрации в выходном трехмерном массиве. (Потому что, если бы они были, это был бы просто двумерный слой нулей - никакого значения в этом - тривиальный, чтобы добавить, если это желательно.)
Для массивов 224x224 все, что вы просите, все еще хорошо. Однако, если ваши массивы станут больше, то, вероятно, будет более эффективно анализировать каждый слой по одному, а не объединять их все в один массив. (Например, вам, вероятно, не хочется работать с одним массивом 2000x2000x200, и вы бы предпочли работать с 20 отдельными массивами 2000x2000 отдельно, поэтому вам не нужно хранить их все в памяти.)
@acdr Привет, мой размер данных [64, 224, 224, 1] со всеми элементами в наборе {0, 1, 2, ..., 24} , и мне нужно преобразовать их в [64, 224, 224, 24] до подачи в сеть.

acdr · Accepted Answer · 2019-01-10T07-30-00.000Z

Следующее довольно быстро для меня:

import numpy as np
max_num = 3
img = np.array([
    [0,0,1,0,0],
    [2,0,3,0,1],
    [0,2,3,1,0],
    [0,0,1,0,0],
    [1,0,2,0,1],
    ])

img_norm = np.zeros(img.shape + (max_num,))
for idx in range(1, max_num + 1):
    img_norm[idx-1,:,:]=idx*(img == idx)

Тестирование со случайным массивом указанного вами размера;

max_num = 24
img = np.int64((max_num+1)*np.random.rand(224, 224)) # Random array

img_norm = np.zeros(img.shape + (max_num,))
for idx in range(1, max_num + 1):
    img_norm[idx-1,:,:]=img*(img == idx)

Едва ли занимает какое-то время вообще на моей машине.

def getnorm_acdr(img):
    max_num = np.max(img)
    img_norm = np.zeros([max_num, *img.shape])    
    for idx in range(1, max_num + 1):
        img_norm[idx-1,:,:]=img*(img == idx)

img = np.int64((max_num+1)*np.random.rand(224, 224))

%timeit getnorm_acdr(img)

дает:

11.9 ms ± 536 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)