Алгоритм: вынимаем каждый 4-й элемент массива

Question

Алгоритм: вынимаем каждый 4-й элемент массива

0

У меня есть два огромных массива (int source [1000], dest [1000] в коде ниже, но в действительности есть миллионы элементов). Исходный массив содержит ряд int из которых я хочу скопировать 3 из каждых 4.

Например, если исходный массив:

int source[1000] = {1,2,3,4,5,6,7,8....};
int dest[1000];

Вот мой код:

for (int count_small = 0, count_large = 0; count_large < 1000; count_small += 3, count_large +=4)
    {
      dest[count_small] = source[count_large];
      dest[count_small+1] = source[count_large+1];
      dest[count_small+2] = source[count_large+2];
    }

В конце концов, выход консоли console будет:

1 2 3 5 6 7 9 10 11...

Но этот алгоритм настолько медленный! Есть ли алгоритм или функция с открытым исходным кодом, которую я могу использовать/включить?

Спасибо :)

Изменение: фактическая длина моего массива составит около 1 миллиона (640 * 480 * 3)

Редактирование 2: обработка этого цикла занимает от 0,98 секунды до 2,28 секунды, а другой код занимает от 0,08 секунды до 0,14 секунды, поэтому устройство использует не менее 90% времени процессора только для цикла

Guntram 11 фев. 2014, в 15:57

Источник

0

Это вопрос C или C #, Гунтрам? Ваши теги говорят C, но я не был уверен, было ли это ошибкой
Andy Brown 11 фев. 2014, в 14:10
0

Учитывая определения массива, это определенно не C #.
Sneftel 11 фев. 2014, в 14:11
0

Если пропущенный new [] был опечаткой, отсюда и мой вопрос.
Andy Brown 11 фев. 2014, в 14:11
0

Существует несколько оптимизаций, которые компилятор сделает для вас в любом случае. Так что нет более быстрого пути.
Ari 11 фев. 2014, в 14:12
1

Так медленно ??? Всего 1000 элементов, и ваш цикл C ++ (?) Делает все оптимальным образом. Должно быть невероятно быстро (менее чем за микросекунду)! Что вы нам не говорите?
Yves Daoust 11 фев. 2014, в 14:14
0

Извините за вводящий в заблуждение тег, это код C ++
Guntram 11 фев. 2014, в 14:16
0

Я думаю, что это уже так быстро, как вы можете получить с помощью петли. Поэтому вместо того, чтобы искать другой алгоритм, вы должны искать новый компьютер :-)
Thorsten Kettner 11 фев. 2014, в 14:16
0

Вы действительно видите [1000] как огромный массив? Это даже вписывается в одну страницу RAM ...
glglgl 11 фев. 2014, в 14:16
0

@YvesDaoust YvesDaoust длина на самом деле составляет около 1 миллиона ..
Guntram 11 фев. 2014, в 14:17
1

Какой процессор вы используете? Некоторые (в частности, DSP) имеют встроенные операции 2D-DMA-копирования, поэтому вы можете ссылаться на source как матрицу N x 4 и копировать из него блок N x 3 в dest .
barak manos 11 фев. 2014, в 14:17
2

Что заставляет вас говорить, что ваше решение медленное? Что бы вы ни делали с этими элементами в вашей программе, это займет больше времени!
Yves Daoust 11 фев. 2014, в 14:21
0

Это процессор ARM с частотой 1 ГГц (одноядерный)
Guntram 11 фев. 2014, в 14:23
0

@GuntramGöres GuntramGöres Копирование, как это займет O (N), независимо от того, что вы делаете, пожалуйста, отделите код и проверьте его, безусловно, не является узким местом даже для миллиона элементов C ++ очень быстро
Vikram Bhat 11 фев. 2014, в 14:26
0

@GuntramGöres GuntramGöres Какова ваша оперативная память, потому что вам нужно 8 МБ, чтобы соответствовать этому и, как вы работаете над встроенной системой, если чувствуете, что вам так не хватает?
Vikram Bhat 11 фев. 2014, в 14:31
0

Я знаю, что копирование всего массива с помощью memcpy (без извлечения каждого 4-го элемента) происходит намного быстрее, но, возможно, memcpy не выполняет глубокую копирование? Объем оперативной памяти на устройстве составляет 512 МБ
Guntram 11 фев. 2014, в 14:38
0

То, что вы делаете, является формой прореживания, так что, возможно, вы можете получить больше информации на сайте dsp.stackexchange.com
Peter M 11 фев. 2014, в 14:49
0

Это обработка видео, верно? Если у вас есть массив int вы уже сделали что-то не так, у вас должен быть массив из 8-битных сущностей, таких как char или byte .
pentadecagon 11 фев. 2014, в 15:10
0

Смотрите похожий вопрос здесь: stackoverflow.com/questions/6804101/…
MBo 11 фев. 2014, в 15:25
0

Это обработка видео, это верно, и вы также правы с типом, это массив символов. @MBo, это очень интересная ссылка, с хорошей идеей, спасибо. Выполнение битовых операций может также ускорить процесс
Guntram 11 фев. 2014, в 15:59

Показать ещё 17 комментариев

Теги:

c++

arrays

c

algorithm

real-time

5 ответов

Ещё вопросы

Это вопрос C или C #, Гунтрам? Ваши теги говорят C, но я не был уверен, было ли это ошибкой
Учитывая определения массива, это определенно не C #.
Если пропущенный new [] был опечаткой, отсюда и мой вопрос.
Существует несколько оптимизаций, которые компилятор сделает для вас в любом случае. Так что нет более быстрого пути.
Так медленно ??? Всего 1000 элементов, и ваш цикл C ++ (?) Делает все оптимальным образом. Должно быть невероятно быстро (менее чем за микросекунду)! Что вы нам не говорите?
Извините за вводящий в заблуждение тег, это код C ++
Я думаю, что это уже так быстро, как вы можете получить с помощью петли. Поэтому вместо того, чтобы искать другой алгоритм, вы должны искать новый компьютер :-)
Вы действительно видите [1000] как огромный массив? Это даже вписывается в одну страницу RAM ...
@YvesDaoust YvesDaoust длина на самом деле составляет около 1 миллиона ..
Какой процессор вы используете? Некоторые (в частности, DSP) имеют встроенные операции 2D-DMA-копирования, поэтому вы можете ссылаться на source как матрицу N x 4 и копировать из него блок N x 3 в dest .
Что заставляет вас говорить, что ваше решение медленное? Что бы вы ни делали с этими элементами в вашей программе, это займет больше времени!
Это процессор ARM с частотой 1 ГГц (одноядерный)
@GuntramGöres GuntramGöres Копирование, как это займет O (N), независимо от того, что вы делаете, пожалуйста, отделите код и проверьте его, безусловно, не является узким местом даже для миллиона элементов C ++ очень быстро
@GuntramGöres GuntramGöres Какова ваша оперативная память, потому что вам нужно 8 МБ, чтобы соответствовать этому и, как вы работаете над встроенной системой, если чувствуете, что вам так не хватает?
Я знаю, что копирование всего массива с помощью memcpy (без извлечения каждого 4-го элемента) происходит намного быстрее, но, возможно, memcpy не выполняет глубокую копирование? Объем оперативной памяти на устройстве составляет 512 МБ
То, что вы делаете, является формой прореживания, так что, возможно, вы можете получить больше информации на сайте dsp.stackexchange.com
Это обработка видео, верно? Если у вас есть массив int вы уже сделали что-то не так, у вас должен быть массив из 8-битных сущностей, таких как char или byte .
Смотрите похожий вопрос здесь: stackoverflow.com/questions/6804101/…
Это обработка видео, это верно, и вы также правы с типом, это массив символов. @MBo, это очень интересная ссылка, с хорошей идеей, спасибо. Выполнение битовых операций может также ускорить процесс

Sean Bright · Answer 1 · 2014-02-11T12-46-00.000Z

3

Вы можете попробовать memcpy вместо отдельных назначений:

memcpy(&dest[count_small], &source[count_large], sizeof(int) * 3);

Sean Bright 11 фев. 2014, в 12:46

0

Это не поможет Компиляторы умны, поэтому такие оптимизации будут выполняться автоматически. И даже если нет. Это не сделает такой медленный алгоритм быстрым.
Ari 11 фев. 2014, в 14:12
0

Это вызов функции; Не уверен, что это повысит производительность, особенно если вы включите оптимизацию компилятора для развертывания цикла!
barak manos 11 фев. 2014, в 14:13
0

Я протестирую с -O3 и посмотрю, как это выглядит.
Sean Bright 11 фев. 2014, в 14:13
2

Жесткое кодирование 12 очень плохо. По крайней мере, я бы сделал sizeof(source[0])*3 .
glglgl 11 фев. 2014, в 14:15
0

FWIW - метод memcpy ~ 15% быстрее, чем метод «по одному за раз» с -O3 (gcc 4.6.3)
Sean Bright 11 фев. 2014, в 14:28
0

На самом деле я использовал memcpy раньше, когда пытался скопировать весь массив. Это было намного быстрее, чем мои циклы, но я просто не мог найти способ извлечь каждый 4-й байт. Но я сейчас попробую и посмотрю, не ускоряет ли это код
Guntram 11 фев. 2014, в 14:41
0

@glglgl: Обновлено
Sean Bright 11 фев. 2014, в 16:09
0

Я только что попробовал это с твоим кодом, это здорово ускоряет процесс! При использовании циклов for требуемое время сдвигается от 0,98 секунды до 2,28 секунды, а с memcpy оно стабильно сохраняется на уровне 0,70 секунды, что составляет увеличение на 30%. Спасибо!
Guntram 11 фев. 2014, в 16:10
0

Пожалуйста. Я хотел бы добавить, что есть инструкции SIMD для ARM (как уже отмечали другие), которые могут еще больше сократить время. Что-то иметь в виду.
Sean Bright 11 фев. 2014, в 16:15

Показать ещё 7 комментариев

Sneftel · Answer 2 · 2014-02-11T11-43-00.000Z

Ну, асимптотическая сложность там так же хороша, как и собираться. Возможно, вы сможете добиться немного лучшей производительности, загрузив значения в виде четырех четырехсторонних SIMD-целых чисел, перетасовывая их в три 4-позиционных SIMD-целых числа и записывая их обратно, но даже это вряд ли будет намного быстрее.

С учетом сказанного, однако, время обработки 1000 элементов (Edit: или один миллион элементов) будет совершенно тривиальным. Если вы считаете, что это узкое место в вашей программе, вы ошибаетесь.

Andy Brown · Answer 3 · 2014-02-11T11-29-00.000Z

Прежде чем делать гораздо больше, попробуйте профилировать свое приложение и определить, является ли это лучшим местом для проведения вашего времени. Затем, если это горячее пятно, определите, насколько это быстро, и как быстро вам это нужно/может достичь? Затем проверьте альтернативы; накладные расходы на потоки или OpenMP могут даже замедлить работу (особенно, как вы уже отмечали, если вы работаете на одном основном процессоре, и в этом случае это вообще не поможет). Для одиночной резьбы я бы посмотрел на memcpy в соответствии с ответом Шона.

@Sneftel также ссылается на другие варианты ниже, содержащие SIMD-целые числа.

Один из вариантов - попытаться выполнить параллельную обработку цикла и посмотреть, поможет ли это. Вы можете попробовать использовать стандарт OpenMP (см. Ссылку Википедии здесь), но вам придется попробовать его для вашей конкретной ситуации и посмотреть, помогло ли это. Я использовал это недавно в реализации ИИ, и это очень помогло нам.

#pragma omp parallel for
for (...)
{
   ... do work
}

Помимо этого, вы ограничены собственными оптимизациями компилятора.

Вы также можете посмотреть недавнюю поддержку потоков в C11, хотя вам может быть лучше использовать предварительно реализованные средства инфраструктуры, такие как parallel_for (доступны в новой среде выполнения Windows Concurrency Runtime через PPL в Visual Studio, если это то, что вы используете), чем сворачивая свои собственные.

parallel_for(0, max_iterations,
    [...] (int i)
    {
        ... do stuff
    }
);

Внутри цикла for вас все еще есть другие варианты. Вы можете попробовать цикл for, который выполняет итерацию и пропускает все, вместо того, чтобы делать 3 копии на итерацию (просто пропустите, когда (i+1) % 4 == 0), или выполните операции блочной memcopy для групп из 3 целых чисел в соответствии с ответом Seans, Для некоторых из них вы можете добиться немного разных оптимизаций компилятора, но это маловероятно (memcpy, вероятно, так же быстро, как вы получите).

for (int i = 0, int j = 0; i < 1000; i++)
{
  if ((i+1) % 4 != 0)
  { 
    dest[j] = source[i];
    j++;
  }
}

Затем вы должны разработать испытательную установку, чтобы вы могли быстро выполнить тест производительности и выбрать лучший для вас. Прежде всего, решите, сколько времени стоит потратить на это, прежде чем оптимизировать в другом месте.

ИМХО, действительно маловероятно, что OpenMP даст здесь какую-то выгоду, и, как вы говорите, накладные расходы вполне могут сделать его значительно медленнее. Текущий код уже будет насыщать пропускную способность памяти, и если он не очень осторожен с распределением и сегментированием, использование нескольких потоков приведет к ложным штрафам за совместное использование.
Согласовано - но если (и только если) это определенное узкое место, которое требует адресации для повышения производительности, то стоило бы быстро опробовать различные варианты и провести их тестирование
Я надеюсь, что это решение работает, я тоже попробую! К сожалению, процессор, на котором он работает, является одноядерным процессором, поэтому я не уверен, что многопоточность работает на этом устройстве
Если у вас есть только одно ядро, то забудьте про многопоточность, это только замедлит вас.
В то время как код (i+1) % 4 != 0 выглядел довольно неплохо, к сожалению, он не ускорил процесс, скорость оставалась стабильной - от 2,09 до 2,27 секунды. В любом случае, спасибо :)
Я не думаю, что вы будете лучше, чем memcpy , и вы не сможете распараллелить, если у вас будет только одно ядро процессора.

Fekete Ferenc · Answer 4 · 2014-02-11T12-14-00.000Z

Если у вас есть карта Nvidia, вы можете использовать CUDA. Если это не так, вы можете попробовать другие методы и среды параллельного программирования.

Roy Samuel · Answer 5 · 2014-02-11T11-19-00.000Z

Является ли ваш массив размером всего 1000? Если да, то как это медленно? Это должно быть сделано в кратчайшие сроки! Пока вы создаете новый массив и однопоточное приложение, это единственный удаленный AFAIK.

Однако, если массивы данных огромны, вы можете попробовать многопоточное приложение.

Также вы можете исследовать наличие более крупного типа данных, содержащего значение, так что размер массива уменьшается... То есть, если это жизнеспособно для вашего реального приложения.