Самый быстрый вид массива с фиксированной длиной 6 int

Question

Самый быстрый вид массива с фиксированной длиной 6 int

350

Отвечая на другой вопрос (этот), я наткнулся на интересную подзадачу. Каков самый быстрый способ сортировки массива из 6 ints?

Как вопрос очень низкий уровень:

мы не можем предположить, что библиотеки доступны (и сам вызов имеет свою стоимость), только обычный C
чтобы избежать опустошения конвейера команд (который имеет очень высокую стоимость), мы должны, вероятно, минимизировать ветки, скачки и любой другой тип нарушения потока управления (например, скрытые за точками последовательности в && или ||).
помещение ограничено, и минимизация регистров и использование памяти - проблема, в идеале на месте сортировка, вероятно, лучше всего.

Действительно, этот вопрос - это своего рода гольф, целью которого является не минимизация длины источника, а времени выполнения. Я называю это кодом "Zening", как используется в названии книги Zen of Code optimization Michael Abrash и его сиквелы.

Что касается того, почему это интересно, существует несколько слоев:

пример прост и прост для понимания и измерения, а не при использовании C-навыков
он показывает эффекты выбора хорошего алгоритма для проблемы, а также эффекты компилятора и базового оборудования.

Вот моя ссылка (наивная, не оптимизированная) реализация и мой набор тестов.

#include <stdio.h>

static __inline__ int sort6(int * d){

    char j, i, imin;
    int tmp;
    for (j = 0 ; j < 5 ; j++){
        imin = j;
        for (i = j + 1; i < 6 ; i++){
            if (d[i] < d[imin]){
                imin = i;
            }
        }
        tmp = d[j];
        d[j] = d[imin];
        d[imin] = tmp;
    }
}

static __inline__ unsigned long long rdtsc(void)
{
  unsigned long long int x;
     __asm__ volatile (".byte 0x0f, 0x31" : "=A" (x));
     return x;
}

int main(int argc, char ** argv){
    int i;
    int d[6][5] = {
        {1, 2, 3, 4, 5, 6},
        {6, 5, 4, 3, 2, 1},
        {100, 2, 300, 4, 500, 6},
        {100, 2, 3, 4, 500, 6},
        {1, 200, 3, 4, 5, 600},
        {1, 1, 2, 1, 2, 1}
    };

    unsigned long long cycles = rdtsc();
    for (i = 0; i < 6 ; i++){
        sort6(d[i]);
        /*
         * printf("d%d : %d %d %d %d %d %d\n", i,
         *  d[i][0], d[i][6], d[i][7],
         *  d[i][8], d[i][9], d[i][10]);
        */
    }
    cycles = rdtsc() - cycles;
    printf("Time is %d\n", (unsigned)cycles);
}

Исходные результаты

По мере того как количество вариантов становится большим, я собрал их все в тестовом наборе, который можно найти здесь. Фактические использованные тесты немного наивны, чем те, которые были показаны выше, благодаря Кевину Стоксу. Вы можете скомпилировать и выполнить его в своей собственной среде. Меня очень интересует поведение в разных целевых архитектурах/компиляторах. (Хорошо, ребята, поместите его в ответы, я добавлю +1 каждого вкладчика нового набора результатов).

Я дал ответ Даниилу Штуцбаху (для гольфа) год назад, поскольку он был источником самого быстрого решения в то время (сортировка сетей).

Linux 64 бит, gcc 4.6.1 64 бит, Intel Core 2 Duo E8400, -O2

Прямой вызов функции библиотеки qsort: 689.38
Наивная реализация (сортировка вставки): 285.70
Вставка Сортировка (Daniel Stutzbach): 142.12
Вставка Сортировка Без разметки: 125.47
Ранг: 102.26
Порядок ранжирования с регистрами: 58.03
Сортировка сетей (Daniel Stutzbach): 111.68
Сортировка сетей (Paul R): 66.36
Сортировка сетей 12 с быстрой заменой: 58.86
Сортировка сетей 12 переупорядоченных свопов: 53.74
Сортировочные сети 12 переупорядоченные простые свопы: 31.54
Переупорядоченная сортировочная сеть с быстрой заменой: 31.54
Переупорядоченная сортировочная сеть с быстрой заменой V2: 33.63
Связанная сортировка пузырьков (Paolo Bonzini): 48.85
Unrolled Insertion Sort (Paolo Bonzini): 75.30

Linux 64 бит, gcc 4.6.1 64 бит, Intel Core 2 Duo E8400, -O1

Прямой вызов функции библиотеки qsort: 705.93
Наивная реализация (сортировка вставки): 135.60
Вставка Сортировка (Daniel Stutzbach): 142.11
Вставка Сортировка Без разметки: 126.75
Ранг: 46.42
Порядок ранжирования с регистрами: 43.58
Сортировка сетей (Daniel Stutzbach): 115.57
Сортировка сетей (Paul R): 64.44
Сортировка сетей 12 с быстрой заменой: 61.98
Сортировка сетей 12 переупорядоченных свопов: 54.67
Сортировочные сети 12 переупорядоченные простые свопы: 31.54
Переупорядоченная сортировочная сеть с быстрой заменой: 31.24
Переупорядоченная сортировочная сеть с быстрой заменой V2: 33.07
Введенная сортировка пузыря (Paolo Bonzini): 45.79
Unrolled Insertion Sort (Паоло Бонзини): 80.15

Я включил результаты как -O1 и -O2, потому что неожиданно для нескольких программ O2 меньше эффективнее, чем O1. Интересно, какая именно оптимизация имеет этот эффект?

Комментарии к предлагаемым решениям

Вставка Сортировка (Daniel Stutzbach)

Как и ожидалось, минимизация ветвей действительно хорошая идея.

Сортировка сетей (Daniel Stutzbach)

Лучше, чем сортировка вставки. Я задавался вопросом, не вытекает ли главный эффект из-за отсутствия внешнего контура. Я попробовал разворачивать сортировку вставки, чтобы проверить, и действительно мы получаем примерно одинаковые цифры (код здесь).

Сортировка сетей (Paul R)

Лучшее до сих пор. Фактический код, который я использовал для тестирования, здесь. Пока не знаю, почему это почти в два раза быстрее, чем реализация другой сортировочной сети. Передача параметров? Быстрый макс?

Сортировка сетей 12 SWAP с быстрой заменой

Как предложил Даниэль Штуцбах, я объединил свою 12 сортировочную сеть для свопинга с нераспределенной быстрой заменой (код здесь). Это действительно быстрее, лучше всего с небольшим отрывом (примерно 5%), как и следовало ожидать, используя 1 меньший своп.

Также интересно заметить, что разветвленный своп, по-видимому, намного (в 4 раза) менее эффективен, чем простой, используя if на архитектуре PPC.

Вызов библиотеки qsort

Чтобы дать другую контрольную точку, я также попробовал, как было предложено просто вызвать библиотеку qsort (код здесь). Как и ожидалось, он намного медленнее: в 10-30 раз медленнее... Как стало очевидно в новом наборе тестов, основной проблемой, по-видимому, является первоначальная загрузка библиотеки после первого вызова, и она сравнивается не так плохо с другими версия. Это всего лишь от 3 до 20 раз медленнее на моем Linux. На некоторой архитектуре, используемой для тестов другими, кажется, что даже быстрее (я действительно удивлен этим, так как библиотека qsort использует более сложный API).

Порядок ранжирования

Рекс Керр предложил другой совершенно другой метод: для каждого элемента массива вычислить непосредственно его конечную позицию. Это эффективно, потому что для вычисления ранжирования не требуется разветвление. Недостатком этого метода является то, что он занимает в три раза больше объема памяти массива (одна копия массива и переменных для хранения заказов рангов). Результаты работы очень удивительны (и интересны). В моей базовой архитектуре с 32-разрядной ОС и Intel Core2 Quad E8300 количество циклов было немного ниже 1000 (например, сортировка сетей с разветвлением). Но когда он скомпилирован и выполнен на моем 64-битном поле (Intel Core2 Duo), он выполнялся намного лучше: он стал самым быстрым до сих пор. Наконец я узнал истинную причину. В моем 32-битном поле используется gcc 4.4.1 и мой 64-битный бокс gcc 4.4.3, и последний выглядит намного лучше для оптимизации этого кода (для других предложений было очень мало).

обновление:

Как опубликованные выше цифры показывают, что этот эффект все же был усилен более поздними версиями gcc и Rank Order, которые стали последовательно в два раза быстрее, чем любая другая альтернатива.

Сортировка сетей 12 с переупорядоченным свопом

Удивительная эффективность предложения Rex Kerr с gcc 4.4.3 заставило меня задуматься: как могла бы программа с 3-кратным потреблением памяти быстрее, чем бесконтактные сортировочные сети? Моя гипотеза заключалась в том, что у нее было меньше зависимостей вида, читаемого после записи, что позволяет лучше использовать суперскалярный планировщик команд x86. Это дало мне представление: переупорядочить свопы, чтобы свести к минимуму количество записей после зависимостей записи. Проще говоря: когда вы делаете SWAP(1, 2); SWAP(0, 2);, вам нужно дождаться завершения первого свопа перед выполнением второго, потому что оба доступа к общей ячейке памяти. Когда вы выполняете SWAP(1, 2); SWAP(4, 5);, процессор может выполнять оба параллельно. Я попробовал, и он работает так, как ожидалось, сортировочные сети работают на 10% быстрее.

Сортировка сетей 12 с простой заменой

Через год после первоначального сообщения Steinar H. Gunderson предположил, что мы не должны пытаться перехитрить компилятор и держать код свопа простым. Это действительно хорошая идея, поскольку полученный код примерно на 40% быстрее! Он также предложил своп, оптимизированный вручную, используя встроенный ассемблерный код x86, который еще может сэкономить несколько циклов. Самое удивительное (это говорит о объемах по психологии программиста) заключается в том, что год назад ни одна из использованных не пыталась использовать эту версию свопа. Код, который я использовал для тестирования, здесь. Другие предложили другие способы написания быстрого обмена C, но он дает те же самые характеристики, что и простой, с достойным компилятором.

"Лучший" код теперь выглядит следующим образом:

static inline void sort6_sorting_network_simple_swap(int * d){
#define min(x, y) (x<y?x:y)
#define max(x, y) (x<y?y:x) 
#define SWAP(x,y) { const int a = min(d[x], d[y]); \
                    const int b = max(d[x], d[y]); \
                    d[x] = a; d[y] = b; }
    SWAP(1, 2);
    SWAP(4, 5);
    SWAP(0, 2);
    SWAP(3, 5);
    SWAP(0, 1);
    SWAP(3, 4);
    SWAP(1, 4);
    SWAP(0, 3);
    SWAP(2, 5);
    SWAP(1, 3);
    SWAP(2, 4);
    SWAP(2, 3);
#undef SWAP
#undef min
#undef max
}

Если мы полагаем, что наш тестовый набор (и, да, он довольно плох, простое преимущество короткое, простое и легко понять, что мы измеряем), среднее число циклов полученного кода для одного вида ниже 40 циклов (6 тестов выполнены). Это ставит каждый обмен в среднем на 4 цикла. Я называю это удивительно быстро. Возможны ли другие улучшения?

kriss 07 май 2010, в 08:27

Источник

0

Это не настоящий гольф, если вы не можете объективно оценить ответы, поэтому вам нужно указать конкретную архитектуру (и будет ли она оценена в среднем или в худшем случае).
caf 07 май 2010, в 07:31
0

Интс на GPU ... вы можете использовать поплавки вместо? Тогда у вас есть функции мин / макс. (По крайней мере, GLSL не поддерживает min / max для целых чисел.) Кроме того, вероятно, быстрее использовать два типа vec3 или аналогичные вместо массива, так что вы можете использовать swizzling для сортировки.
Thomas 07 май 2010, в 07:40
0

@ Томас: да, вы правы, было бы более логично использовать массив с плавающей точкой. Действительно, тип векторного содержимого не имеет отношения к проблеме, кроме того, что он является своего рода «встроенным» типом удержания в регистре.
kriss 07 май 2010, в 08:23
0

@caf: я буду использовать некоторый эталонный таймер, который читает регистр цикла, например, этот fit.vutbr.cz/~peringer/SIMLIB/doc/html/rdtsc_8h-source.html . В контексте GPU я знаю, что это мошенничество, но правила игры очень удобны для игры в гольф.
kriss 07 май 2010, в 08:30
1

Есть ли у вас какие-то ограничения на Ints? Например, можем ли мы предположить, что для любых 2 x, y xy и x+y не вызовет переполнение или переполнение?
Matthieu M. 07 май 2010, в 09:49
0

в контексте у меня нет информации о int (вы можете представить, что они являются произвольными пикселями, кодирующими цвета), так что нет, извините, вы не можете сэкономить немного для трюка подкачки ;-)
kriss 07 май 2010, в 11:16
2

Вы должны попробовать объединить мою 12-местную сортировочную сеть с функцией обмена без ответвлений Пола. Его решение передает все параметры в виде отдельных элементов в стеке вместо одного указателя на массив. Это также может иметь значение.
Daniel Stutzbach 07 май 2010, в 22:22
0

@kriss: Как парень не из C, я очень очарован этим постом. Мне просто интересно, что такое -O1 , -O2 и т. Д. Это уровни оптимизации компилятора?
Zaid 08 май 2010, в 09:15
0

@Zaid: да, это предопределенные наборы оптимизации gcc (вы также можете определить функции оптимизации индивидуально). Вы можете увидеть здесь gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html Что это за оптимизации? Другие компиляторы имеют похожие флаги оптимизации.
kriss 08 май 2010, в 09:45
0

Отличный анализ и хорошая выгода при переупорядочении свопов. На странице, на которую я ссылаюсь, которая генерирует макросы SWAP, похоже, что вы можете получить оптимальный порядок с опцией «Просмотр сети с помощью текстовых символов» вместо опции «Создать набор макросов SWAP». Я пишу автору письмо, чтобы узнать, можно ли получить макросы SWAP для вывода в оптимальном порядке.
Daniel Stutzbach 10 май 2010, в 20:00
1

Обратите внимание, что правильная реализация rdtsc в 64-битной __asm__ volatile (".byte 0x0f, 0x31; shlq $32, %%rdx; orq %%rdx, %0" : "=a" (x) : : "rdx"); потому что rdtsc помещает ответ в EDX: EAX, а GCC ожидает его в одном 64-битном регистре. Вы можете увидеть ошибку, скомпилировав в -O3. Также см. Ниже мой комментарий Полу Р. о более быстром обмене.
Paolo Bonzini 24 авг. 2011, в 09:24
0

Несколько советов - 6 циклов недостаточно для всех платформ, также вам следует использовать тестовый набор мощностью два, чтобы позволить модулю увеличивать два с и повторять несколько раз, не загрязняя результаты потенциально дорогими операциями с модами. Вот некоторые результаты для платформы, которую я не могу назвать из-за NDA, но которая использует архитектуру PPC:
jheriko 24 авг. 2011, в 13:09
0

Прямой вызов к функции библиотеки qsort : 101 Наивная реализация (сортировка вставок) : 299 Сортировка вставок (Даниэль Штутцбах) : Сортировка вставок развернута : 51 Сортировка сетей (Даниэль Штутцбах) : 26 Сортировка сетей (Paul R) : 85 Сортировка сетей 12 с Быстрой Своп : 117 Сортировка сетей 12 переупорядочено Своп : 116 Порядок ранжирования : 56
jheriko 24 авг. 2011, в 13:09
1

У меня есть претензии к Сортировке сетей 12 с кодом быстрой замены: посмотрите на функции min & max: есть общий элемент, который содержит ветвь.
Loren Pechtel 24 авг. 2011, в 15:04
1

Может быть, компилятор достаточно умен, чтобы сделать это за вас, но небольшое ускорение в min / max SWAP, по-видимому, доступно благодаря повторному использованию значения xor'd из min / max, например: int s = (x^y) & -(x<y); int t = y^s; y = x^s; x = t; (Замените {x, y} на d [{x, y}]; я хотел, чтобы фрагмент кода читался.)
Tyler 24 авг. 2011, в 15:10
0

@ Лорен, нет никакого ответвления от вычисления x<y , это просто бинарная операция, как + или *. Если бы это было в операторе if , например, тогда это могло бы вызвать ветвление, но это не так, что является прелестью этой реализации подкачки - она дает нам условное поведение с нулевыми скачками.
Tyler 24 авг. 2011, в 15:13
2

@Tyler: Как вы реализуете это на уровне сборки без ветки?
Loren Pechtel 24 авг. 2011, в 16:32
0

@Loren, это просто инструкция cmp, которая устанавливает бит состояния.
Kevin Stock 24 авг. 2011, в 20:10
0

Вы делаете сортировку выбора , а не сортировку вставкой. В остальном отличный анализ, с убедительными доказательствами. Оптимизация подкачки наиболее интересна.
cdunn2001 24 авг. 2011, в 21:14
0

@ Лорен, я думаю, что вы говорите: «Процессор должен вести себя по-разному в зависимости от того, является ли x <y или нет», что верно, но процессор все время принимает решения, не изменяя поток управления - например, он должен решить во время добавления, если определенный выходной бит равен 1 или 0 на основе входных битов. Слово «ветвь», в частности, означает переход к другому набору инструкций, так что поток управления изменяется. Разница важна, поскольку меньшее ветвление позволяет процессору предвидеть будущие инструкции и начать работу над ними до завершения последней инструкции, называемой конвейерной обработкой.
Tyler 24 авг. 2011, в 21:27
0

Какой смысл в минимизации скорости выполнения?
bandi 24 авг. 2011, в 21:42
0

@Tyler: я думаю, что моя сборка слишком ржавая, так как я не помню, чтобы какой-либо способ получить этот бит состояния в регистр, не перепрыгивая через большое количество обручей (нажмите флаги, нажмите AX, замаскируйте и затем сдвиньте. Минимум 4 цикла { Прошло долгое время с тех пор, как я посмотрел использованные циклы, я думаю, что это все операции с одним циклом в наши дни} и одна остановка памяти.) Единственный момент, который я могу использовать при непосредственном использовании, - это добавление с переносом.
Loren Pechtel 25 авг. 2011, в 04:19
3

@Loren: CMP EAX, EBX; SBB EAX, EAX установит 0 или 0xFFFFFFFF в EAX зависимости от того, больше или меньше EAX чем EBX , соответственно. SBB - это «вычесть с займом», аналог ADC («добавить с переносом»); бит статуса, на который вы ссылаетесь, является битом переноса. С другой стороны, я помню, что ADC и SBB имели ужасную задержку и пропускную способность на Pentium 4 по сравнению с ADD и SUB , и все еще были в два раза медленнее на процессорах Core. Начиная с 80386 есть также SETcc условного перемещения CMOVcc условного перемещения CMOVcc , но они также медленные.
j_random_hacker 25 авг. 2011, в 05:59
0

@ bandi: бессмысленно сводить к минимуму длину источника, как я уже говорил, это игра, своего рода гольф. Но я верю, что у процесса есть свои преимущества. Он узнает нам о том, какой тип кода эффективен или нет на нескольких уровнях: алгоритмическом (обычно с большими преимуществами), а также на уровне компилятора и аппаратного обеспечения. Это также дает некоторую справочную информацию о том, какую производительность можно ожидать от программы на Си (при необходимости).
kriss 25 авг. 2011, в 06:25
0

@Loren: Pentium 2 и новее имеют быстрые условные перемещения, см. Ассемблерный код Steinar Gunderson.
Paolo Bonzini 26 авг. 2011, в 08:37
0

@kriss Я думаю, что то, что вы сказали, верно для случая максимизации скорости, что вполне понятно. Чего я не понимаю, так это почему вы минимизируете это? Почему вы хотите написать медленную программу?
bandi 26 авг. 2011, в 11:09
0

@ bandi: плохое слово, моя вина, я хочу минимизировать время выполнения, а не скорость ;-). Спасибо, что обнаружили опечатку.
kriss 26 авг. 2011, в 11:51
0

«Зенинг», мне это нравится. Не уверен, куда идти с этим словом, но я постараюсь использовать его.
Kent 04 март 2014, в 03:31
0

Ссылки на copypastecode.com не работают; сейчас это похоже на хитрый рекламный сайт.
Olaf Seibert 25 авг. 2015, в 10:10
0

@Olaf: действительно, copypastecode.com прекратил работу два года назад (!). Как только у меня будет свободное время, я верну контент на какой-нибудь рабочий сайт (возможно, на github). Спасибо за предупреждение.
kriss 26 авг. 2015, в 02:11
0

Этот вопрос на самом деле имеет мало общего с C, и больше касается сборки, поскольку вы проверяете машинный код, который создается. Кроме того, вы использовали __asm__ который на самом деле не является простым C.
autistic 08 дек. 2015, в 03:08
0

@seb 11: некоторые постеры использовали asm для ответов, я использовал его для доступа к аппаратным таймерам на x86 для точных измерений, но это незначительно. Здесь нет больше сборки, чем в большинстве типичных реализаций libc. Вы бы поспорили, что использование libc делает это не простым C? Большинство ответов - чистый C. Но я не согласен с вами, потому что знание того, как язык компилируется под капотом (и что может быть эффективно скомпилировано для той или иной цели), является очень важной частью знания C. Конечно, никто не вынужден читать этот вопрос или его ответы. Не волнует, если вы не освоите этот уровень C.
kriss 08 дек. 2015, в 14:40
1

Для C ++ я недавно написал шаблонный класс для генерации сетей Бозе-Нельсона во время компиляции . С оптимизацией производительность находится на одном уровне с самыми быстрыми ручными ответами здесь.
Vectorized 24 март 2016, в 20:46
0

Хм ... вы указываете, что язык должен быть C, но вы говорите, что код будет выполняться на GPU. Как вы запускаете код C на GPU?
Stefan Monov 12 март 2017, в 16:52
0

@kriss: Кроме того, я вижу, что вы удалили оператор "будет работать на GPU". Тем не gpgpu тег gpgpu остается. Вы больше не намерены задавать вопрос о коде графического процессора?
Stefan Monov 12 март 2017, в 16:59
0

@ Стефан Монов: все еще заинтересован, но я считаю, что код будет совсем другой на GPU. Отныне это, вероятно, должен быть другой вопрос. Поскольку я ленивый, я не открыл это. Так что, если у вас есть хороший ответ, работающий над GPU, не стесняйтесь дать его.
kriss 12 март 2017, в 22:43
0

Для запуска кода C на GPU вы можете использовать CUDA или OpenCL. Это накладывает некоторые ограничения, но это все еще код на C и преимущества от GPU. Кстати, если у вас есть графический процессор, просто сортировка 6 чисел, вероятно, будет пустой тратой энергии.
kriss 12 март 2017, в 22:46

Показать ещё 35 комментариев

Теги:

optimization

c

algorithm

sorting

gpgpu

23 ответа

57

Здесь реализация с использованием сортировочных сетей:

inline void Sort2(int *p0, int *p1)
{
    const int temp = min(*p0, *p1);
    *p1 = max(*p0, *p1);
    *p0 = temp;
}

inline void Sort3(int *p0, int *p1, int *p2)
{
    Sort2(p0, p1);
    Sort2(p1, p2);
    Sort2(p0, p1);
}

inline void Sort4(int *p0, int *p1, int *p2, int *p3)
{
    Sort2(p0, p1);
    Sort2(p2, p3);
    Sort2(p0, p2);  
    Sort2(p1, p3);  
    Sort2(p1, p2);  
}

inline void Sort6(int *p0, int *p1, int *p2, int *p3, int *p4, int *p5)
{
    Sort3(p0, p1, p2);
    Sort3(p3, p4, p5);
    Sort2(p0, p3);  
    Sort2(p2, p5);  
    Sort4(p1, p2, p3, p4);  
}

Для этого вам понадобятся очень эффективные для этого разветвленные min и max реализации, так как это фактически то, к чему этот код сводится - последовательность операций min и max (всего 13 из них). Я оставляю это как упражнение для читателя.

Обратите внимание, что эта реализация легко поддается векторизации (например, SIMD - большинство SIMD ISAs имеют векторные инструкции min/max), а также к реализациям графического процессора (например, CUDA - бездисковое отсутствие проблем с деформированием warp и т.д.).

См. Также: Быстрая реализация алгоритма для сортировки очень малого списка

Paul R 07 май 2010, в 08:19

1

Для некоторых битовых хаков для мин / макс: graphics.stanford.edu/~seander/bithacks.html#IntegerMinOrMax
Rubys 07 май 2010, в 08:20
1

@Paul: в реальном контексте использования CUDA, это, безусловно, лучший ответ. Я проверю, есть ли он (и сколько) в контексте гольфа x64, и опубликую результаты.
kriss 07 май 2010, в 12:06
1

Sort3 будет быстрее (на большинстве архитектур, во всяком случае), если вы Sort3 что (a+b+c)-(min+max) - это центральное число.
Rex Kerr 07 май 2010, в 23:35
0

@Rex: интересная идея - для предотвращения переполнения потребуется расширение данных, что в некоторых случаях может повлиять на производительность (особенно SIMD). Хотя было бы интересно подсчитать количество операций: приведенная выше реализация Sort3 - это операции с 3 max И 3 min общей сложности 6 - как вы думаете, сколько будет ваш метод?
Paul R 08 май 2010, в 07:16
0

@Paul: Переполнение не имеет значения - вы снова возвращаетесь в диапазон (если это не странная архитектура, которая не выполняет целочисленный математический мод 2 ^ 32). Мой метод - 1 мин., 1 макс., 2 сложения, 2 саб - и с добавлением / сабом, как правило, быстрее, чем мин / макс. Если они одинаковы, это должно быть эквивалентно.
Rex Kerr 08 май 2010, в 12:55
1

@Rex: я вижу - это выглядит хорошо. Для SIMD-архитектур, таких как AltiVec и SSE, это будет одинаковое количество циклов команд (max и min - это инструкции с одним циклом, такие как сложение / вычитание), но для нормального скалярного ЦП ваш метод выглядит лучше.
Paul R 08 май 2010, в 16:13
2

Если я позволю GCC оптимизировать min с помощью инструкций условного перемещения, я получу ускорение на 33%: #define SWAP(x,y) { int dx = d[x], dy = d[y], tmp; tmp = d[x] = dx < dy ? dx : dy; d[y] ^= dx ^ tmp; } Здесь я не использую?: For d [y], потому что он дает немного худшую производительность, но почти в шуме.
Paolo Bonzini 24 авг. 2011, в 08:55

Показать ещё 5 комментариев

40

Так как это целые числа, а сравнения - быстрые, почему бы не вычислить порядок рангов каждого из них:

inline void sort6(int *d) {
  int e[6];
  memcpy(e,d,6*sizeof(int));
  int o0 = (d[0]>d[1])+(d[0]>d[2])+(d[0]>d[3])+(d[0]>d[4])+(d[0]>d[5]);
  int o1 = (d[1]>=d[0])+(d[1]>d[2])+(d[1]>d[3])+(d[1]>d[4])+(d[1]>d[5]);
  int o2 = (d[2]>=d[0])+(d[2]>=d[1])+(d[2]>d[3])+(d[2]>d[4])+(d[2]>d[5]);
  int o3 = (d[3]>=d[0])+(d[3]>=d[1])+(d[3]>=d[2])+(d[3]>d[4])+(d[3]>d[5]);
  int o4 = (d[4]>=d[0])+(d[4]>=d[1])+(d[4]>=d[2])+(d[4]>=d[3])+(d[4]>d[5]);
  int o5 = 15-(o0+o1+o2+o3+o4);
  d[o0]=e[0]; d[o1]=e[1]; d[o2]=e[2]; d[o3]=e[3]; d[o4]=e[4]; d[o5]=e[5];
}

Rex Kerr 08 май 2010, в 00:14

0

@Rex: с gcc -O1 это меньше 1000 циклов, довольно быстро, но медленнее, чем сортировка сети. Есть идеи по улучшению кода? Может быть, если бы мы могли избежать копирования массива ...
kriss 07 май 2010, в 23:47
0

@kriss: Это быстрее, чем сортировочная сеть для меня с -O2. Есть ли какая-то причина, почему -O2 не в порядке, или она медленнее для вас на -O2? Может быть, это разница в архитектуре машины?
Rex Kerr 08 май 2010, в 01:22
0

@Rex: O2 действительно лучший вариант для меня с вашей программой. Количество циклов составляет около 950 (я запускаю программу несколько раз, потому что результат никогда не бывает абсолютно стабильным). Таким образом, он быстрее, чем первая реализация Network Sort (та, в которой без свопа без ветвления), но медленнее, чем две другие. Но вы правы, целевая архитектура или точная модель процессора могут иметь значение. 400 циклов не большая разница. Моя цель тестирования - Intel Core2 Quad [email protected], шаг 0a (хотя с методом тестирования частота не имеет значения).
kriss 08 май 2010, в 06:22
0

@Rex: Мне также интересно, действительно ли ваш метод работает с каждым набором данных. Интересно, нет ли у вас случаев, когда несколько значений отображаются в одно и то же место, когда отсортированные данные повторяются.
kriss 08 май 2010, в 06:34
1

@Rex: извините, я пропустил шаблон> vs> = с первого взгляда. Это работает в каждом случае.
kriss 08 май 2010, в 06:41
0

@Rex: я попробовал ваш код на другом тестовом компьютере (Intel Core 2 E8400 @ 3GHz с родной 64-битной ОС Linux), и на нем ваша программа самая быстрая (~ 370 циклов против ~ 390). Я должен отредактировать свой вопрос, чтобы получить результаты для обеих архитектур (с вашим ответом).
kriss 08 май 2010, в 07:00
0

@kriss: Я думаю, что разность циклов в 2 раза достаточно велика, особенно с учетом того, что я тестировал двухъядерный компьютер того же винтажа, что и Q8300!
Rex Kerr 08 май 2010, в 18:32
0

@Rex; Я обновил свой ответ. Истинной причиной была версия компилятора (gcc441 против gcc 443), а не целевая архитектура. Я точно не определил, что такое оптимизация. Ваше решение, кажется, сильно толкает GCC. Например, gcc443 дает гораздо лучшие результаты с O1, чем с O2). Думаю, мне придется взглянуть на ассемблер, если я действительно хочу понять, почему.
kriss 09 май 2010, в 21:15
3

@kriss: ага В этом нет ничего удивительного - вокруг много плавающих переменных, их нужно аккуратно упорядочивать и кэшировать в регистрах и так далее.
Rex Kerr 09 май 2010, в 22:32
0

Эффективность этого подхода во многом зависит от того, насколько легко сделать (int) (a> = b) на конкретной машине. Pentiums дал инструкцию 'setcc', позволяющую сделать это двумя инструкциями, но на некоторых процессорах это может потребовать более сложного кода. Хотя почти во всем современном это возможно без ветки, компиляторы не всегда могут это сделать. Если вы можете предположить, что в вычитании нет переполнения, ((ab) >> 31) даст 0 или -1, и это можно использовать вместо этого.
greggo 18 сен. 2014, в 13:43
0

Большой «плюс» здесь заключается в том, что в основной части нет «хранилищ», поэтому оптимизатор сможет легко работать с регистрами и читать только каждый d [i] один раз. Если компилятор может определить, что, например, e [0] уже прочитано как d [0] (и у вас достаточно регистров), это было бы еще лучше. Это можно сделать явным, используя 6 локальных переменных d0..d5 вместо memcpy для e.
greggo 18 сен. 2014, в 13:53
0

что означает магическое число 15?
SSpoke 21 сен. 2015, в 19:46
2

@SSpoke 0+1+2+3+4+5=15 Так как один из них отсутствует, 15 минус сумма остальных дает один отсутствующий
Glenn Teitelbaum 01 июнь 2016, в 20:51

Показать ещё 11 комментариев

36

Похоже, я попал на вечеринку в конце года, но здесь мы идем...

Глядя на сборку, сгенерированную gcc 4.5.2, я заметил, что нагрузки и магазины выполняются для каждого свопа, что действительно не нужно. Было бы лучше загрузить 6 значений в регистры, отсортировать их и сохранить их обратно в память. Я приказал, чтобы нагрузки в магазинах были как можно ближе к тому, чтобы регистры были сначала необходимы и использовались в последний раз. Я также использовал SWAP-макрос Steinar H. Gunderson. Обновление: я переключился на макрос SWAP Paolo Bonzini, который gcc конвертирует в нечто похожее на Gunderson, но gcc может лучше упорядочить инструкции, поскольку они не указаны как явная сборка.

Я использовал тот же порядок подкачки, что и переупорядоченная сеть подкачки, которую вы выбрали как наиболее эффективный, хотя может быть и лучший порядок. Если я найду еще какое-то время, я создам и проведу кучу перестановок.

Я изменил код тестирования, чтобы рассмотреть более 4000 массивов и показать среднее количество циклов, необходимых для сортировки каждого из них. На i5-650 я получаю ~ 34.1 циклов/сортировку (используя -O3) по сравнению с исходной переупорядоченной сетью сортировки, получающей ~ 65.3 циклов/сортировку (с использованием -O1, бит -O2 и -O3).

#include <stdio.h>

static inline void sort6_fast(int * d) {
#define SWAP(x,y) { int dx = x, dy = y, tmp; tmp = x = dx < dy ? dx : dy; y ^= dx ^ tmp; }
    register int x0,x1,x2,x3,x4,x5;
    x1 = d[1];
    x2 = d[2];
    SWAP(x1, x2);
    x4 = d[4];
    x5 = d[5];
    SWAP(x4, x5);
    x0 = d[0];
    SWAP(x0, x2);
    x3 = d[3];
    SWAP(x3, x5);
    SWAP(x0, x1);
    SWAP(x3, x4);
    SWAP(x1, x4);
    SWAP(x0, x3);
    d[0] = x0;
    SWAP(x2, x5);
    d[5] = x5;
    SWAP(x1, x3);
    d[1] = x1;
    SWAP(x2, x4);
    d[4] = x4;
    SWAP(x2, x3);
    d[2] = x2;
    d[3] = x3;

#undef SWAP
#undef min
#undef max
}

static __inline__ unsigned long long rdtsc(void)
{
    unsigned long long int x;
    __asm__ volatile ("rdtsc; shlq $32, %%rdx; orq %%rdx, %0" : "=a" (x) : : "rdx");
    return x;
}

void ran_fill(int n, int *a) {
    static int seed = 76521;
    while (n--) *a++ = (seed = seed *1812433253 + 12345);
}

#define NTESTS 4096
int main() {
    int i;
    int d[6*NTESTS];
    ran_fill(6*NTESTS, d);

    unsigned long long cycles = rdtsc();
    for (i = 0; i < 6*NTESTS ; i+=6) {
        sort6_fast(d+i);
    }
    cycles = rdtsc() - cycles;
    printf("Time is %.2lf\n", (double)cycles/(double)NTESTS);

    for (i = 0; i < 6*NTESTS ; i+=6) {
        if (d[i+0] > d[i+1] || d[i+1] > d[i+2] || d[i+2] > d[i+3] || d[i+3] > d[i+4] || d[i+4] > d[i+5])
            printf("d%d : %d %d %d %d %d %d\n", i,
                    d[i+0], d[i+1], d[i+2],
                    d[i+3], d[i+4], d[i+5]);
    }
    return 0;
}

Я изменил измененный набор тестов, чтобы также сообщать о часах в сортировке и запускать больше тестов (функция cmp была обновлена для обработки переполнения целых чисел), вот результаты по некоторым различным архитектурам. Я попытался протестировать процессор AMD, но rdtsc не является надежным на X6 1100T, который у меня есть.

Clarkdale (i5-650)
==================
Direct call to qsort library function      635.14   575.65   581.61   577.76   521.12
Naive implementation (insertion sort)      538.30   135.36   134.89   240.62   101.23
Insertion Sort (Daniel Stutzbach)          424.48   159.85   160.76   152.01   151.92
Insertion Sort Unrolled                    339.16   125.16   125.81   129.93   123.16
Rank Order                                 184.34   106.58   54.74    93.24    94.09
Rank Order with registers                  127.45   104.65   53.79    98.05    97.95
Sorting Networks (Daniel Stutzbach)        269.77   130.56   128.15   126.70   127.30
Sorting Networks (Paul R)                  551.64   103.20   64.57    73.68    73.51
Sorting Networks 12 with Fast Swap         321.74   61.61    63.90    67.92    67.76
Sorting Networks 12 reordered Swap         318.75   60.69    65.90    70.25    70.06
Reordered Sorting Network w/ fast swap     145.91   34.17    32.66    32.22    32.18

Kentsfield (Core 2 Quad)
========================
Direct call to qsort library function      870.01   736.39   723.39   725.48   721.85
Naive implementation (insertion sort)      503.67   174.09   182.13   284.41   191.10
Insertion Sort (Daniel Stutzbach)          345.32   152.84   157.67   151.23   150.96
Insertion Sort Unrolled                    316.20   133.03   129.86   118.96   105.06
Rank Order                                 164.37   138.32   46.29    99.87    99.81
Rank Order with registers                  115.44   116.02   44.04    116.04   116.03
Sorting Networks (Daniel Stutzbach)        230.35   114.31   119.15   110.51   111.45
Sorting Networks (Paul R)                  498.94   77.24    63.98    62.17    65.67
Sorting Networks 12 with Fast Swap         315.98   59.41    58.36    60.29    55.15
Sorting Networks 12 reordered Swap         307.67   55.78    51.48    51.67    50.74
Reordered Sorting Network w/ fast swap     149.68   31.46    30.91    31.54    31.58

Sandy Bridge (i7-2600k)
=======================
Direct call to qsort library function      559.97   451.88   464.84   491.35   458.11
Naive implementation (insertion sort)      341.15   160.26   160.45   154.40   106.54
Insertion Sort (Daniel Stutzbach)          284.17   136.74   132.69   123.85   121.77
Insertion Sort Unrolled                    239.40   110.49   114.81   110.79   117.30
Rank Order                                 114.24   76.42    45.31    36.96    36.73
Rank Order with registers                  105.09   32.31    48.54    32.51    33.29
Sorting Networks (Daniel Stutzbach)        210.56   115.68   116.69   107.05   124.08
Sorting Networks (Paul R)                  364.03   66.02    61.64    45.70    44.19
Sorting Networks 12 with Fast Swap         246.97   41.36    59.03    41.66    38.98
Sorting Networks 12 reordered Swap         235.39   38.84    47.36    38.61    37.29
Reordered Sorting Network w/ fast swap     115.58   27.23    27.75    27.25    26.54

Nehalem (Xeon E5640)
====================
Direct call to qsort library function      911.62   890.88   681.80   876.03   872.89
Naive implementation (insertion sort)      457.69   236.87   127.68   388.74   175.28
Insertion Sort (Daniel Stutzbach)          317.89   279.74   147.78   247.97   245.09
Insertion Sort Unrolled                    259.63   220.60   116.55   221.66   212.93
Rank Order                                 140.62   197.04   52.10    163.66   153.63
Rank Order with registers                  84.83    96.78    50.93    109.96   54.73
Sorting Networks (Daniel Stutzbach)        214.59   220.94   118.68   120.60   116.09
Sorting Networks (Paul R)                  459.17   163.76   56.40    61.83    58.69
Sorting Networks 12 with Fast Swap         284.58   95.01    50.66    53.19    55.47
Sorting Networks 12 reordered Swap         281.20   96.72    44.15    56.38    54.57
Reordered Sorting Network w/ fast swap     128.34   50.87    26.87    27.91    28.02

Kevin Stock 24 авг. 2011, в 17:20

0

+1 нет ничего быстрее, чем использовать регистр
BlackBear 24 авг. 2011, в 17:53
0

Ваша идея о переменных регистра должна быть применена к решению "порядка ранга" Рекса Керра. Это должно быть быстрее, и, возможно, тогда оптимизация -O3 не будет контрпродуктивной.
cdunn2001 24 авг. 2011, в 21:30
1

@ cdunn2001 Я только что проверил, я не вижу улучшения (за исключением нескольких циклов при -O0 и -Os). Глядя на asm, кажется, что gcc уже удалось выяснить, использовать ли регистры и исключить вызов memcpy.
Kevin Stock 24 авг. 2011, в 22:06
0

Не могли бы вы добавить простую версию подкачки в свой набор тестов, я думаю, было бы интересно сравнить ее с быстрой заменой сборки, оптимизированной вручную.
kriss 25 авг. 2011, в 07:43
1

Ваш код по-прежнему использует своп Гандерсона, мой будет #define SWAP(x,y) { int oldx = x; x = x < y ? x : y; y ^= oldx ^ x; }
Paolo Bonzini 25 авг. 2011, в 07:49
0

@Paolo Bonzini: Да, я собираюсь добавить тестовый пример с вашим, но пока не успел. Но я буду избегать встроенной сборки.
kriss 25 авг. 2011, в 10:04
0

@Paolo Bonzini: также кажется, что использование двух временных переменных вместо одной в swap имеет положительный эффект, но я не совсем уверен в этом.
kriss 25 авг. 2011, в 10:07
0

@Paolo Bonzini: я просто забыл обновить код на этой странице (ссылка на вставку содержит правильный код). Результаты используют ваш макрос. Исправлена.
Kevin Stock 25 авг. 2011, в 10:58
0

@ BlackBear: я думал, что нет ничего быстрее света. О, я вижу свет. Это регистрируется :-)
kriss 25 авг. 2011, в 23:38
0

Мне кажется, что порядок загрузки может привести к остановке. Поскольку все нагрузки происходят непосредственно перед первым использованием, своп должен ждать загрузки переменных, что приводит к остановке. С чередованными хранилищами все в порядке, надо надеяться, что они будут перекрываться между сохраняемыми данными и следующим обменом. В любом случае, это, вероятно, спорный вопрос для достаточно хорошего компилятора, он будет переупорядочивать вещи, чтобы эта работа происходила, пока он ожидает получения данных из ОЗУ. Вполне возможно, что выполнение всех нагрузок в одном блоке было бы весьма полезно для графического процессора.
Axman6 29 авг. 2011, в 09:56
0

@ Axman6 Ты прав. В одном из моих предыдущих вариантов я обнаружил, что чередование нагрузок было немного выгодно, и поэтому оно застряло. Однако компилятор теперь перемещает большинство или все нагрузки в начало.
Kevin Stock 29 авг. 2011, в 13:31
0

Есть ровно 720 различных заказов из 6 элементов. В каком-то смысле «лучшим» будет тот, у которого наилучшая производительность в худшем случае среди этих 720 заказов.
Yakk - Adam Nevraumont 04 сен. 2014, в 13:46
0

@ cdunn2001 решение «Порядок ранга», как правило, будет в основном в regs, поскольку оно откладывает магазины до тех пор, пока не будут выполнены все основные вычисления. Может быть улучшено с помощью чтения в 6 локальных файлов вместо memcpy для 'e'. Я не удивлюсь, если gcc может сделать это сам (он может обрабатывать небольшой локальный массив как отдельные int; здесь также необходимо преобразовать memcpy в 6 отдельных операций e [0] = d [0]; e [ 1] = d [1] .. для того, чтобы сделать эту оптимизацию. Но было бы лучше сделать это явным в коде).
greggo 18 сен. 2014, в 14:02

Показать ещё 11 комментариев

14

Я наткнулся на этот вопрос из Google несколько дней назад, потому что мне также пришлось быстро отсортировать массив фиксированной длины из 6 целых чисел. В моем случае, однако, мои целые числа составляют всего 8 бит (вместо 32), и у меня нет строгого требования использовать только C. Я думал, что буду делиться своими результатами так или иначе, в случае, если они могут быть полезны кому-то...

Я реализовал вариант сортировки сети в сборке, который использует SSE для векторизации операций сравнения и свопинга, насколько это возможно. Для полного сортировки массива требуется шесть "проходов". Я использовал новый механизм для прямого преобразования результатов PCMPGTB (векторизованного сравнения) для перетасовки параметров для PSHUFB (векторизованный своп), используя только PADDB (векторизованное дополнение), а в некоторых случаях также команду PAND (побитовое И).

Этот подход также имел побочный эффект, дающий действительно бесветренную функцию. Инструкции о прыжках отсутствуют.

Похоже, что эта реализация примерно на 38% быстрее, чем реализация, которая в настоящее время отмечена как самый быстрый вариант в вопросе ( "Сортировка сетей 12 с простой заменой" ). Я модифицировал эту реализацию для использования элементов массива char во время моего тестирования, чтобы сделать сравнение справедливым.

Следует отметить, что этот подход может применяться к любому размеру массива до 16 элементов. Я ожидаю, что преимущество относительной скорости над альтернативами будет увеличиваться для больших массивов.

Код написан в MASM для процессоров x86_64 с SSSE3. Функция использует "новое" соглашение на использование Windows x64. Вот оно...

PUBLIC simd_sort_6

.DATA

ALIGN 16

pass1_shuffle   OWORD   0F0E0D0C0B0A09080706040503010200h
pass1_add       OWORD   0F0E0D0C0B0A09080706050503020200h
pass2_shuffle   OWORD   0F0E0D0C0B0A09080706030405000102h
pass2_and       OWORD   00000000000000000000FE00FEFE00FEh
pass2_add       OWORD   0F0E0D0C0B0A09080706050405020102h
pass3_shuffle   OWORD   0F0E0D0C0B0A09080706020304050001h
pass3_and       OWORD   00000000000000000000FDFFFFFDFFFFh
pass3_add       OWORD   0F0E0D0C0B0A09080706050404050101h
pass4_shuffle   OWORD   0F0E0D0C0B0A09080706050100020403h
pass4_and       OWORD   0000000000000000000000FDFD00FDFDh
pass4_add       OWORD   0F0E0D0C0B0A09080706050403020403h
pass5_shuffle   OWORD   0F0E0D0C0B0A09080706050201040300h
pass5_and       OWORD 0000000000000000000000FEFEFEFE00h
pass5_add       OWORD   0F0E0D0C0B0A09080706050403040300h
pass6_shuffle   OWORD   0F0E0D0C0B0A09080706050402030100h
pass6_add       OWORD   0F0E0D0C0B0A09080706050403030100h

.CODE

simd_sort_6 PROC FRAME

    .endprolog

    ; pxor xmm4, xmm4
    ; pinsrd xmm4, dword ptr [rcx], 0
    ; pinsrb xmm4, byte ptr [rcx + 4], 4
    ; pinsrb xmm4, byte ptr [rcx + 5], 5
    ; The benchmarked 38% faster mentioned in the text was with the above slower sequence that tied up the shuffle port longer.  Same on extract
    ; avoiding pins/extrb also means we don't need SSE 4.1, but SSSE3 CPUs without SSE4.1 (e.g. Conroe/Merom) have slow pshufb.
    movd    xmm4, dword ptr [rcx]
    pinsrw  xmm4,  word ptr [rcx + 4], 2  ; word 2 = bytes 4 and 5


    movdqa xmm5, xmm4
    pshufb xmm5, oword ptr [pass1_shuffle]
    pcmpgtb xmm5, xmm4
    paddb xmm5, oword ptr [pass1_add]
    pshufb xmm4, xmm5

    movdqa xmm5, xmm4
    pshufb xmm5, oword ptr [pass2_shuffle]
    pcmpgtb xmm5, xmm4
    pand xmm5, oword ptr [pass2_and]
    paddb xmm5, oword ptr [pass2_add]
    pshufb xmm4, xmm5

    movdqa xmm5, xmm4
    pshufb xmm5, oword ptr [pass3_shuffle]
    pcmpgtb xmm5, xmm4
    pand xmm5, oword ptr [pass3_and]
    paddb xmm5, oword ptr [pass3_add]
    pshufb xmm4, xmm5

    movdqa xmm5, xmm4
    pshufb xmm5, oword ptr [pass4_shuffle]
    pcmpgtb xmm5, xmm4
    pand xmm5, oword ptr [pass4_and]
    paddb xmm5, oword ptr [pass4_add]
    pshufb xmm4, xmm5

    movdqa xmm5, xmm4
    pshufb xmm5, oword ptr [pass5_shuffle]
    pcmpgtb xmm5, xmm4
    pand xmm5, oword ptr [pass5_and]
    paddb xmm5, oword ptr [pass5_add]
    pshufb xmm4, xmm5

    movdqa xmm5, xmm4
    pshufb xmm5, oword ptr [pass6_shuffle]
    pcmpgtb xmm5, xmm4
    paddb xmm5, oword ptr [pass6_add]
    pshufb xmm4, xmm5

    ;pextrd dword ptr [rcx], xmm4, 0    ; benchmarked with this
    ;pextrb byte ptr [rcx + 4], xmm4, 4 ; slower version
    ;pextrb byte ptr [rcx + 5], xmm4, 5
    movd   dword ptr [rcx], xmm4
    pextrw  word ptr [rcx + 4], xmm4, 2  ; x86 is little-endian, so this is the right order

    ret

simd_sort_6 ENDP

END

Вы можете скомпилировать это для исполняемого объекта и связать его с вашим проектом C. Инструкции о том, как это сделать в Visual Studio, можно прочитать в этой статье. Вы можете использовать следующий прототип C для вызова функции из вашего кода C:

void simd_sort_6(char *values);

Joe Crivello 02 дек. 2012, в 05:15

0

Было бы интересно сравнить ваши предложения с другими предложениями на уровне сборки. Сравненные характеристики реализации не включают их. Использование SSE в любом случае звучит хорошо.
kriss 03 дек. 2012, в 12:33
0

Другой областью будущих исследований будет применение новых инструкций Intel AVX для решения этой проблемы. Большие 256-битные векторы достаточно велики, чтобы вместить 8 DWORD.
Joe Crivello 03 дек. 2012, в 17:08
0

Вместо pxor / pinsrd xmm4, mem, 0 , просто используйте movd !
Peter Cordes 01 сен. 2015, в 19:00

Показать ещё 1 комментарий

14

Тест-код довольно плохой; он переполняет исходный массив (не читают ли люди здесь предупреждения компилятора?), printf печатает неправильные элементы, он использует .byte для rdtsc без уважительной причины, там только один запуск (!), там ничего не проверяют, что конечные результаты на самом деле правильные (поэтому очень легко "оптимизировать" что-то неточно неправильно), включенные тесты очень рудиментарны (нет отрицательных чисел?), и нет ничего, что могло бы заставить компилятор просто отбросить всю функцию как мертвый код.

Это, как говорится, также довольно легко улучшает решение битовой сети; просто измените материал min/max/SWAP на

#define SWAP(x,y) { int tmp; asm("mov %0, %2 ; cmp %1, %0 ; cmovg %1, %0 ; cmovg %2, %1" : "=r" (d[x]), "=r" (d[y]), "=r" (tmp) : "0" (d[x]), "1" (d[y]) : "cc"); }

и для меня это получается примерно на 65% (Debian gcc 4.4.5 с -O2, amd64, Core i7).

Steinar H. Gunderson 24 авг. 2011, в 16:28

0

ОК, тестовый код плохой. Не стесняйтесь улучшать это. И да, вы можете использовать ассемблерный код. Почему бы не пройти весь путь и полностью кодировать его с помощью ассемблера x86? Это может быть немного менее портативно, но зачем?
kriss 24 авг. 2011, в 16:30
0

Спасибо за замечание переполнения массива, я исправил это. Другие люди, возможно, не заметили это, потому что нажали на ссылку, чтобы скопировать / вставить код, где нет переполнения.
kriss 24 авг. 2011, в 16:40
4

На самом деле вам даже не нужен ассемблер; если вы просто отбросите все хитрые трюки, GCC распознает последовательность и вставит для вас условные ходы: #define min (a, b) ((a <b)? a: b) #define max (a, b) ( (a <b)? b: a) # определить SWAP (x, y) {int a = min (d [x], d [y]); int b = max (d [x], d [y]); д [х] = а; d [y] = b; } Это может быть на несколько процентов медленнее, чем встроенный вариант asm, но это трудно сказать, учитывая отсутствие надлежащего бенчмаркинга.
Steinar H. Gunderson 24 авг. 2011, в 19:35
3

... и, наконец, если ваши числа являются числами с плавающей точкой, и вам не нужно беспокоиться о NaN и т. Д., GCC может преобразовать это в инструкции SSE minss / maxss, что еще на ~ 25% быстрее. Мораль: отбросьте хитрые хитрые трюки и дайте компилятору выполнить свою работу. :-)
Steinar H. Gunderson 24 авг. 2011, в 19:40

Показать ещё 2 комментария

12

Пока мне действительно нравится макрос подкачки:

#define min(x, y) (y ^ ((x ^ y) & -(x < y)))
#define max(x, y) (x ^ ((x ^ y) & -(x < y)))
#define SWAP(x,y) { int tmp = min(d[x], d[y]); d[y] = max(d[x], d[y]); d[x] = tmp; }

Я вижу улучшение (которое может сделать хороший компилятор):

#define SWAP(x,y) { int tmp = ((x ^ y) & -(y < x)); y ^= tmp; x ^= tmp; }

Мы принимаем во внимание, как работают min и max и вытягивают общее подвыражение явно. Это полностью исключает макросы min и max.

phkahler 24 авг. 2011, в 15:06

0

Это возвращает их назад, обратите внимание, что d [y] получает максимум, который равен x ^ (общее подвыражение).
Kevin Stock 24 авг. 2011, в 15:09
0

Я заметил то же самое; Я думаю, что для правильной реализации вы хотите, чтобы d[x] вместо x (то же самое для y ) и d[y] < d[x] для неравенства здесь (да, отличается от кода min / max).
Tyler 24 авг. 2011, в 15:18
0

@Tyler: сделал оба исправления, которые вы указали. Благодарю.
phkahler 24 авг. 2011, в 20:38
0

Я пробовал с вашим свопом, но локальная оптимизация имеет негативные последствия на более высоком уровне (я предполагаю, что она вводит зависимости). И результат медленнее, чем другой обмен. Но, как вы можете видеть, с новым предложением было действительно много производительности для оптимизации обмена.
kriss 25 авг. 2011, в 06:41

Показать ещё 2 комментария

11

Никогда не оптимизируйте min/max без бенчмаркинга и посмотрите на сборку, созданную компилятором. Если я позволю GCC оптимизировать min с условными инструкциями перемещения, я получаю ускорение на 33%:

#define SWAP(x,y) { int dx = d[x], dy = d[y], tmp; tmp = d[x] = dx < dy ? dx : dy; d[y] ^= dx ^ tmp; }

(280 против 420 циклов в тестовом коде). Выполнение max с?: Более или менее одинаково, почти потеряно в шуме, но выше это немного быстрее. Этот SWAP быстрее работает как с GCC, так и с Clang.

Компиляторы также выполняют исключительную работу по распределению регистров и анализу псевдонимов, эффективно перемещая d [x] в локальные переменные авансом и только копируя обратно в память в конце. Фактически, они делают это даже лучше, чем если бы вы полностью работали с локальными переменными (например, d0 = d[0], d1 = d[1], d2 = d[2], d3 = d[3], d4 = d[4], d5 = d[5]). Я пишу это, потому что вы принимаете сильную оптимизацию и все же пытаетесь перехитрить компилятор на min/max.:)

Кстати, я пробовал Clang и GCC. Они выполняют ту же оптимизацию, но из-за различий в расписании два имеют некоторые вариации в результатах, не могут сказать действительно, что происходит быстрее или медленнее. GCC работает быстрее в сортировочных сетях, Clang на квадратичных сортировках.

Просто для полноты, возможны разбросанные сортировки и сортировки в виде пузырей. Вот сортировка пузырьков:

SWAP(0,1); SWAP(1,2); SWAP(2,3); SWAP(3,4); SWAP(4,5);
SWAP(0,1); SWAP(1,2); SWAP(2,3); SWAP(3,4);
SWAP(0,1); SWAP(1,2); SWAP(2,3);
SWAP(0,1); SWAP(1,2);
SWAP(0,1);

и вот сортировка вставки:

//#define ITER(x) { if (t < d[x]) { d[x+1] = d[x]; d[x] = t; } }
//Faster on x86, probably slower on ARM or similar:
#define ITER(x) { d[x+1] ^= t < d[x] ? d[x] ^ d[x+1] : 0; d[x] = t < d[x] ? t : d[x]; }
static inline void sort6_insertion_sort_unrolled_v2(int * d){
    int t;
    t = d[1]; ITER(0);
    t = d[2]; ITER(1); ITER(0);
    t = d[3]; ITER(2); ITER(1); ITER(0);
    t = d[4]; ITER(3); ITER(2); ITER(1); ITER(0);
    t = d[5]; ITER(4); ITER(3); ITER(2); ITER(1); ITER(0);

Эта сортировка вставки быстрее, чем у Даниэля Штуцбаха, и особенно хороша на графическом процессоре или компьютере с предикацией, потому что ITER может выполняться только с тремя инструкциями (против 4 для SWAP). Например, вот строка t = d[2]; ITER(1); ITER(0); в сборке ARM:

    MOV    r6, r2
    CMP    r6, r1
    MOVLT  r2, r1
    MOVLT  r1, r6
    CMP    r6, r0
    MOVLT  r1, r0
    MOVLT  r0, r6

Для шести элементов сортировка вставки конкурирует с сетью сортировки (12 свопов против 15 итераций балансирует 4 команды/своп против 3 инструкций/итераций); сорт пузыря, конечно, медленнее. Но это будет не так, когда размер возрастает, поскольку сортировка вставки - это O (n ^ 2), а сортировочные сети - O (n log n).

Paolo Bonzini 24 авг. 2011, в 20:52

0

Более или менее связанный: я представил отчет в GCC, чтобы он мог реализовать оптимизацию непосредственно в компиляторе. Не уверен, что это будет сделано, но, по крайней мере, вы можете следить за его развитием.
Morwenn 28 окт. 2015, в 14:18

10

Я портировал тестовый пакет на машину архитектуры PPC, которую я не могу идентифицировать (не нужно касаться кода, просто увеличивайте итерации теста, используйте 8 тестовых примеров, чтобы избежать загрязнения результатов с помощью модов и заменить специфичный x86 rdtsc ):

Прямой вызов функции библиотеки qsort: 101

Наивная реализация (сортировка вставки): 299

Вставка Сортировка (Daniel Stutzbach): 108

Вставка Сортировка развернута: 51

Сортировка сетей (Daniel Stutzbach): 26

Сортировка сетей (Paul R): 85

Сортировка сетей 12 с быстрой заменой: 117

Сортировка сетей 12 переупорядоченных свопов: 116

Порядок ранга: 56

jheriko 24 авг. 2011, в 13:50

1

Очень интересно. Похоже, что обмен без ветвей - плохая идея на PPC. Это также может быть эффект, связанный с компилятором. Какой был использован?
kriss 24 авг. 2011, в 16:03
0

Это ветвь компилятора gcc - логика min, max, вероятно, не без ветвей - я проверю разборку и дам вам знать, но если компилятор не достаточно умен, включая что-то вроде x <y без if, все равно становится ветвью - на x86 / x64 инструкция CMOV могла бы этого избежать, но такой инструкции для значений с фиксированной запятой на PPC нет, только плавающие. Я мог бы поиграть с этим завтра и дать вам знать - я помню, что в исходном коде Winamp AVS был намного более простой мин / макс без ветвей, но он был только для поплавков - но мог бы стать хорошим началом к действительно безветренному подходу.
jheriko 25 авг. 2011, в 00:48
3

Вот минимальные / максимальные значения без subfc r5,r4,r3; subfe r6,r6,r6; andc r6,r5,r6; add r4,r6,r4; subf r3,r6,r3 для PPC с входами без знака: subfc r5,r4,r3; subfe r6,r6,r6; andc r6,r5,r6; add r4,r6,r4; subf r3,r6,r3 . r3 / r4 - входы, r5 / r6 - регистры нуля, на выходе r3 получает минимум, а r4 - максимум. Это должно быть прилично по расписанию вручную. Я нашел это с помощью супероптимизатора GNU, начиная с 4-минутных и максимальных последовательностей инструкций и просматривая вручную два, которые можно объединить. Для входов со знаком вы, конечно, можете добавить 0x80000000 ко всем элементам в начале и снова вычесть его в конце, а затем работать так, как если бы они были без знака.
Paolo Bonzini 25 авг. 2011, в 07:44

Показать ещё 1 комментарий

7

Смена XOR может быть полезна в ваших функциях обмена.

void xorSwap (int *x, int *y) {
     if (*x != *y) {
         *x ^= *y;
         *y ^= *x;
         *x ^= *y;
     }
 }

Если это может привести к слишком большому расхождению в вашем коде, но если у вас есть гарантия, что все ваши ints уникальны, это может быть удобно.

naj 24 авг. 2011, в 11:47

1

xor swap работает и для одинаковых значений ... x ^ = y устанавливает x в 0, y ^ = x оставляет y в качестве y (== x), x ^ = y устанавливает x в y
jheriko 24 авг. 2011, в 12:46
11

Когда это не работает, это когда x и y указывают на одно и то же место.
hobbs 24 авг. 2011, в 13:48
0

В любом случае, при использовании с сетями сортировки мы никогда не звоним, когда x и y указывают на одно и то же местоположение. Еще предстоит найти способ избежать тестирования, который был бы более эффективным, чтобы получить тот же эффект, что и своп без ветвей. У меня есть идея, чтобы достичь этого.
kriss 24 авг. 2011, в 15:59

Показать ещё 1 комментарий

5

С нетерпением ждем попыток разобраться в этом и изучая эти примеры, но сначала некоторые тайминги от моего 1,5 ГГц PPC Powerbook G4 с 1 ГБ оперативной памяти DDR. (Я заимствовал аналогичный rdtsc-подобный таймер для PPC от http://www.mcs.anl.gov/~kazutomo/rdtsc.html для таймингов.) Я запускал программу несколько раз, и абсолютные результаты но последовательным самым быстрым тестом была "Insertion Sort (Daniel Stutzbach)", с "Insertion Sort Unrolled" - вторая секунда.

Здесь последний набор раз:

**Direct call to qsort library function** : 164
**Naive implementation (insertion sort)** : 138
**Insertion Sort (Daniel Stutzbach)**     : 85
**Insertion Sort Unrolled**               : 97
**Sorting Networks (Daniel Stutzbach)**   : 457
**Sorting Networks (Paul R)**             : 179
**Sorting Networks 12 with Fast Swap**    : 238
**Sorting Networks 12 reordered Swap**    : 236
**Rank Order**                            : 116

Nico 25 авг. 2011, в 04:05

4

Вот мой вклад в этот поток: оптимизированный 1, 4 промежуточный shellsort для 6-членного int vector (valp), содержащий уникальные значения.

void shellsort (int *valp)
{      
  int c,a,*cp,*ip=valp,*ep=valp+5;

  c=*valp;    a=*(valp+4);if (c>a) {*valp=    a;*(valp+4)=c;}
  c=*(valp+1);a=*(valp+5);if (c>a) {*(valp+1)=a;*(valp+5)=c;}

  cp=ip;    
  do
  {
    c=*cp;
    a=*(cp+1);
    do
    {
      if (c<a) break;

      *cp=a;
      *(cp+1)=c;
      cp-=1;
      c=*cp;
    } while (cp>=valp);
    ip+=1;
    cp=ip;
  } while (ip<ep);
}

На моем ноутбуке HP dv7-3010so с двухъядерным Athlon M300 @2 Ghz (память DDR2) он выполняется в 165 тактах. Это среднее значение, рассчитываемое по времени каждой уникальной последовательности (всего 6!/720). Скомпилирован в Win32 с использованием OpenWatcom 1.8. Цикл по существу является сортировкой вставки и составляет 16 инструкций/длиной 37 байт.

У меня нет 64-разрядной среды для компиляции.

Olof Forshell 14 март 2012, в 12:38

0

отлично. Я добавлю это в более длинный тестовый пакет
kriss 23 март 2012, в 15:20

3

Если сортировка вставки здесь достаточно конкурентоспособна, я бы рекомендовал попробовать shellsort. Я боюсь, что 6 элементов, вероятно, слишком малы, чтобы быть одним из лучших, но, возможно, стоит попробовать.

Пример кода, непроверенный, undebugged и т.д. Вы хотите настроить последовательность inc = 4 и inc - = 3, чтобы найти оптимальный (пример inc = 2, inc - = 1, например).

static __inline__ int sort6(int * d) {
    char j, i;
    int tmp;
    for (inc = 4; inc > 0; inc -= 3) {
        for (i = inc; i < 5; i++) {
            tmp = a[i];
            j = i;
            while (j >= inc && a[j - inc] > tmp) {
                a[j] = a[j - inc];
                j -= inc;
            }
            a[j] = tmp;
        }
    }
}

Я не думаю, что это победит, но если кто-то задаст вопрос о сортировке 10 элементов, кто знает...

Согласно Википедии, это может быть даже объединено с сортировочными сетями: Pratt, V (1979). Оболочки и сортировочные сети (выдающиеся диссертации в области компьютерных наук). Garland. ISBN 0-824-04406-1

gcp 24 авг. 2011, в 15:29

0

не стесняйтесь предложить некоторую реализацию :-)
kriss 24 авг. 2011, в 15:44
0

Предложение добавлено. Наслаждайтесь ошибками.
gcp 24 авг. 2011, в 19:04

2

Я знаю, что я очень поздно, но мне было интересно экспериментировать с некоторыми другими решениями. Во-первых, я очистил эту пасту, скомпилировал ее и поместил в репозиторий. Я сохранил некоторые нежелательные решения как тупики, чтобы другие не пробовали. Среди них было мое первое решение, которое пыталось обеспечить однократное вычисление x1 > x2. После оптимизации он не быстрее других простых версий.

Я добавил циклическую версию сортировки ранжирования, так как мое собственное приложение этого исследования предназначено для сортировки 2-8 элементов, поэтому, поскольку существует переменное количество аргументов, необходим цикл. Вот почему я проигнорировал сетевые решения сортировки.

В тестовом коде не было проверено правильность обработки дубликатов, поэтому, хотя существующие решения были правильными, я добавил специальный код для тестового кода, чтобы убедиться, что дубликаты обработаны правильно.

Затем я написал сортировку вставки, которая полностью находится в регистре AVX. На моей машине он на 25% быстрее, чем другие сортировки вставки, но на 100% медленнее, чем ранжирование. Я сделал это исключительно для эксперимента и не ожидал, что это лучше из-за разветвления в сортировке вставки.

static inline void sort6_insertion_sort_avx(int* d) {
    __m256i src = _mm256_setr_epi32(d[0], d[1], d[2], d[3], d[4], d[5], 0, 0);
    __m256i index = _mm256_setr_epi32(0, 1, 2, 3, 4, 5, 6, 7);
    __m256i shlpermute = _mm256_setr_epi32(7, 0, 1, 2, 3, 4, 5, 6);
    __m256i sorted = _mm256_setr_epi32(d[0], INT_MAX, INT_MAX, INT_MAX,
            INT_MAX, INT_MAX, INT_MAX, INT_MAX);
    __m256i val, gt, permute;
    unsigned j;
     // 8 / 32 = 2^-2
#define ITER(I) \
        val = _mm256_permutevar8x32_epi32(src, _mm256_set1_epi32(I));\
        gt =  _mm256_cmpgt_epi32(sorted, val);\
        permute =  _mm256_blendv_epi8(index, shlpermute, gt);\
        j = ffs( _mm256_movemask_epi8(gt)) >> 2;\
        sorted = _mm256_blendv_epi8(_mm256_permutevar8x32_epi32(sorted, permute),\
                val, _mm256_cmpeq_epi32(index, _mm256_set1_epi32(j)))
    ITER(1);
    ITER(2);
    ITER(3);
    ITER(4);
    ITER(5);
    int x[8];
    _mm256_storeu_si256((__m256i*)x, sorted);
    d[0] = x[0]; d[1] = x[1]; d[2] = x[2]; d[3] = x[3]; d[4] = x[4]; d[5] = x[5];
#undef ITER
}

Затем я написал сортировку порядка ранжирования с использованием AVX. Это соответствует скорости других решений ранга, но не быстрее. Проблема здесь в том, что я могу вычислять индексы с помощью AVX, а затем мне приходится составлять таблицу индексов. Это связано с тем, что вычисление основано на назначении, а не на основе исходного кода. См. Преобразование из индексов, основанных на источнике, в индексы на основе назначений

static inline void sort6_rank_order_avx(int* d) {
    __m256i ror = _mm256_setr_epi32(5, 0, 1, 2, 3, 4, 6, 7);
    __m256i one = _mm256_set1_epi32(1);
    __m256i src = _mm256_setr_epi32(d[0], d[1], d[2], d[3], d[4], d[5], INT_MAX, INT_MAX);
    __m256i rot = src;
    __m256i index = _mm256_setzero_si256();
    __m256i gt, permute;
    __m256i shl = _mm256_setr_epi32(1, 2, 3, 4, 5, 6, 6, 6);
    __m256i dstIx = _mm256_setr_epi32(0,1,2,3,4,5,6,7);
    __m256i srcIx = dstIx;
    __m256i eq = one;
    __m256i rotIx = _mm256_setzero_si256();
#define INC(I)\
    rot = _mm256_permutevar8x32_epi32(rot, ror);\
    gt = _mm256_cmpgt_epi32(src, rot);\
    index = _mm256_add_epi32(index, _mm256_and_si256(gt, one));\
    index = _mm256_add_epi32(index, _mm256_and_si256(eq,\
                _mm256_cmpeq_epi32(src, rot)));\
    eq = _mm256_insert_epi32(eq, 0, I)
    INC(0);
    INC(1);
    INC(2);
    INC(3);
    INC(4);
    int e[6];
    e[0] = d[0]; e[1] = d[1]; e[2] = d[2]; e[3] = d[3]; e[4] = d[4]; e[5] = d[5];
    int i[8];
    _mm256_storeu_si256((__m256i*)i, index);
    d[i[0]] = e[0]; d[i[1]] = e[1]; d[i[2]] = e[2]; d[i[3]] = e[3]; d[i[4]] = e[4]; d[i[5]] = e[5];
}

Репо можно найти здесь: https://github.com/eyepatchParrot/sort6/

eyepatch 05 сен. 2016, в 20:13

2

Этот вопрос становится довольно старым, но в действительности мне приходилось решать ту же проблему: быстрые агоримы для сортировки небольших массивов. Я подумал, что было бы неплохо поделиться своими знаниями. Когда я впервые начал использовать сортировочные сети, мне наконец удалось найти другие алгоритмы, для которых общее количество сравнений, выполняемых для сортировки каждой перестановки из 6 значений, было меньше, чем при сортировке сетей, и меньше, чем при сортировке вставки. Я не считал количество свопов; Я ожидаю, что это будет примерно эквивалентно (может быть, иногда немного выше).

Алгоритм sort6 использует алгоритм sort4, который использует алгоритм sort3. Вот реализация в некоторой легкой форме С++ (оригинал тяжелый шаблон, так что он может работать с любым итератором произвольного доступа и любой подходящей функцией сравнения).

Сортировка 3 значений

Следующий алгоритм представляет собой развернутую сортировку вставки. Когда необходимо выполнить два свопа (6 назначений), вместо этого он использует 4 назначения:

void sort3(int* array)
{
    if (array[1] < array[0]) {
        if (array[2] < array[0]) {
            if (array[2] < array[1]) {
                std::swap(array[0], array[2]);
            } else {
                int tmp = array[0];
                array[0] = array[1];
                array[1] = array[2];
                array[2] = tmp;
            }
        } else {
            std::swap(array[0], array[1]);
        }
    } else {
        if (array[2] < array[1]) {
            if (array[2] < array[0]) {
                int tmp = array[2];
                array[2] = array[1];
                array[1] = array[0];
                array[0] = tmp;
            } else {
                std::swap(array[1], array[2]);
            }
        }
    }
}

Он выглядит немного сложным, поскольку сортировка имеет более или менее одну ветвь для каждой возможной перестановки массива, используя 2 ~ 3 сравнения и не более 4 назначений для сортировки трех значений.

Сортировка 4 значений

Этот вызов вызывает sort3, затем выполняет развернутую сортировку вставки с последним элементом массива:

void sort4(int* array)
{
    // Sort the first 3 elements
    sort3(array);

    // Insert the 4th element with insertion sort 
    if (array[3] < array[2]) {
        std::swap(array[2], array[3]);
        if (array[2] < array[1]) {
            std::swap(array[1], array[2]);
            if (array[1] < array[0]) {
                std::swap(array[0], array[1]);
            }
        }
    }
}

Этот алгоритм выполняет от 3 до 6 сравнений и не более 5 свопов. Легко развернуть сортировку вставки, но мы будем использовать другой алгоритм для последнего сортировки...

Сортировка 6 значений

В этом случае используется развернутая версия того, что я назвал двойной сортировкой вставки. Название не так уж и велико, но это довольно описательно, вот как это работает:

Сортировка всех, кроме первого и последнего элементов массива.
Поменяйте сначала и элементы массива, если первый больше, чем последний.
Вставьте первый элемент в отсортированную последовательность спереди, а затем последний элемент со спины.

После свопа первый элемент всегда меньше последнего, что означает, что при вставке их в отсортированную последовательность не будет больше N сравнений, чтобы вставить два элемента в худшем случае: например, если первый элемент был вставлен в третью позицию, то последний не может быть вставлен ниже четвертой позиции.

void sort6(int* array)
{
    // Sort everything but first and last elements
    sort4(array+1);

    // Switch first and last elements if needed
    if (array[5] < array[0]) {
        std::swap(array[0], array[5]);
    }

    // Insert first element from the front
    if (array[1] < array[0]) {
        std::swap(array[0], array[1]);
        if (array[2] < array[1]) {
            std::swap(array[1], array[2]);
            if (array[3] < array[2]) {
                std::swap(array[2], array[3]);
                if (array[4] < array[3]) {
                    std::swap(array[3], array[4]);
                }
            }
        }
    }

    // Insert last element from the back
    if (array[5] < array[4]) {
        std::swap(array[4], array[5]);
        if (array[4] < array[3]) {
            std::swap(array[3], array[4]);
            if (array[3] < array[2]) {
                std::swap(array[2], array[3]);
                if (array[2] < array[1]) {
                    std::swap(array[1], array[2]);
                }
            }
        }
    }
}

Мои тесты при каждой перестановке из 6 значений показывают, что эти алгоритмы всегда выполняют между 6 и 13 сравнениями. Я не вычислял количество выполняемых свопов, но я не ожидаю, что в худшем случае он будет выше 11.

Я надеюсь, что это поможет, даже если этот вопрос больше не может представлять собой настоящую проблему:)

РЕДАКТИРОВАТЬ: после того, как он поместит его в предоставленный ориентир, он будет медленнее, чем большинство интересных альтернатив. Он имеет тенденцию работать немного лучше, чем развернутая сортировка вставки, но это в значительной степени. В принципе, это не лучший вид для целых чисел, но может быть интересен для типов с дорогостоящей операцией сравнения.

Morwenn 07 окт. 2015, в 11:13

0

Это хорошо. Поскольку решаемой проблеме уже много десятилетий, вероятно, столько же лет, как и программированию на С, то, что этот вопрос уже почти 5 лет, выглядит не так уж актуально.
kriss 07 окт. 2015, в 12:24
0

Вы должны взглянуть на то, как рассчитаны другие ответы. Дело в том, что при таких небольших сравнениях подсчета наборов данных или даже сравнений и свопов на самом деле не говорится, насколько быстрым является алгоритм (в основном, сортировка 6-ти целых всегда равна O (1), потому что O (6 * 6) - это O (1)). Наиболее быстрым из предложенных ранее решений является немедленное определение позиции каждого значения с использованием большого сравнения (по RexKerr).
kriss 07 окт. 2015, в 12:30
0

@kriss Это самый быстрый сейчас? Из моего прочтения результатов, подход к сортировочным сетям был самым быстрым, а мой - плохим. Также верно, что мое решение исходит из моей универсальной библиотеки и я не всегда сравниваю целые числа и не всегда использую operator< для сравнения. Помимо объективного количества сравнений и свопов, я также правильно рассчитал свои алгоритмы; это решение было самым быстрым, но я действительно пропустил @ RexKerr. Попробую :)
Morwenn 07 окт. 2015, в 12:41
0

Решение от RexKerr (Order Rank) стало самым быстрым на архитектуре X86 со времен компилятора gcc 4.2.3 (а с gcc 4.9 стало почти в два раза быстрее, чем второй лучший). Но это сильно зависит от оптимизации компилятора и может не соответствовать действительности для других архитектур.
kriss 07 окт. 2015, в 14:23
0

@kriss Это интересно знать. И я действительно мог бы больше различий снова с -O3 . Я предполагаю, что тогда я приму другую стратегию для своей библиотеки сортировки: предоставляя три вида алгоритмов, которые будут иметь либо небольшое количество сравнений, либо небольшое количество перестановок, либо потенциально лучшую производительность. По крайней мере, то, что произойдет, будет прозрачным для читателя. Спасибо за ваши идеи :)
Morwenn 07 окт. 2015, в 14:26

Показать ещё 3 комментария

1

Я знаю, что это старый вопрос.

Но я просто написал другое решение, которое хочу поделиться. Используя ничего, кроме вложенного MIN MAX,

Это не быстро, так как он использует 114 из каждого,
мог бы уменьшить его до 75, просто так вот → pastebin

Но тогда это не чисто минмакс больше.

Что может работать min/max для нескольких целых чисел одновременно с AVX

Ссылка PMINSW

#include <stdio.h>

static __inline__ int MIN(int a, int b){
int result =a;
__asm__ ("pminsw %1, %0" : "+x" (result) : "x" (b));
return result;
}
static __inline__ int MAX(int a, int b){
int result = a;
__asm__ ("pmaxsw %1, %0" : "+x" (result) : "x" (b));
return result;
}
static __inline__ unsigned long long rdtsc(void){
  unsigned long long int x;
__asm__ volatile (".byte 0x0f, 0x31" :
  "=A" (x));
  return x;
}

#define MIN3(a, b, c) (MIN(MIN(a,b),c))
#define MIN4(a, b, c, d) (MIN(MIN(a,b),MIN(c,d)))

static __inline__ void sort6(int * in) {
  const int A=in[0], B=in[1], C=in[2], D=in[3], E=in[4], F=in[5];

  in[0] = MIN( MIN4(A,B,C,D),MIN(E,F) );

  const int
  AB = MAX(A, B),
  AC = MAX(A, C),
  AD = MAX(A, D),
  AE = MAX(A, E),
  AF = MAX(A, F),
  BC = MAX(B, C),
  BD = MAX(B, D),
  BE = MAX(B, E),
  BF = MAX(B, F),
  CD = MAX(C, D),
  CE = MAX(C, E),
  CF = MAX(C, F),
  DE = MAX(D, E),
  DF = MAX(D, F),
  EF = MAX(E, F);

  in[1] = MIN4 (
  MIN4( AB, AC, AD, AE ),
  MIN4( AF, BC, BD, BE ),
  MIN4( BF, CD, CE, CF ),
  MIN3( DE, DF, EF)
  );

  const int
  ABC = MAX(AB,C),
  ABD = MAX(AB,D),
  ABE = MAX(AB,E),
  ABF = MAX(AB,F),
  ACD = MAX(AC,D),
  ACE = MAX(AC,E),
  ACF = MAX(AC,F),
  ADE = MAX(AD,E),
  ADF = MAX(AD,F),
  AEF = MAX(AE,F),
  BCD = MAX(BC,D),
  BCE = MAX(BC,E),
  BCF = MAX(BC,F),
  BDE = MAX(BD,E),
  BDF = MAX(BD,F),
  BEF = MAX(BE,F),
  CDE = MAX(CD,E),
  CDF = MAX(CD,F),
  CEF = MAX(CE,F),
  DEF = MAX(DE,F);

  in[2] = MIN( MIN4 (
  MIN4( ABC, ABD, ABE, ABF ),
  MIN4( ACD, ACE, ACF, ADE ),
  MIN4( ADF, AEF, BCD, BCE ),
  MIN4( BCF, BDE, BDF, BEF )),
  MIN4( CDE, CDF, CEF, DEF )
  );


  const int
  ABCD = MAX(ABC,D),
  ABCE = MAX(ABC,E),
  ABCF = MAX(ABC,F),
  ABDE = MAX(ABD,E),
  ABDF = MAX(ABD,F),
  ABEF = MAX(ABE,F),
  ACDE = MAX(ACD,E),
  ACDF = MAX(ACD,F),
  ACEF = MAX(ACE,F),
  ADEF = MAX(ADE,F),
  BCDE = MAX(BCD,E),
  BCDF = MAX(BCD,F),
  BCEF = MAX(BCE,F),
  BDEF = MAX(BDE,F),
  CDEF = MAX(CDE,F);

  in[3] = MIN4 (
  MIN4( ABCD, ABCE, ABCF, ABDE ),
  MIN4( ABDF, ABEF, ACDE, ACDF ),
  MIN4( ACEF, ADEF, BCDE, BCDF ),
  MIN3( BCEF, BDEF, CDEF )
  );

  const int
  ABCDE= MAX(ABCD,E),
  ABCDF= MAX(ABCD,F),
  ABCEF= MAX(ABCE,F),
  ABDEF= MAX(ABDE,F),
  ACDEF= MAX(ACDE,F),
  BCDEF= MAX(BCDE,F);

  in[4]= MIN (
  MIN4( ABCDE, ABCDF, ABCEF, ABDEF ),
  MIN ( ACDEF, BCDEF )
  );

  in[5] = MAX(ABCDE,F);
}

int main(int argc, char ** argv) {
  int d[6][6] = {
    {1, 2, 3, 4, 5, 6},
    {6, 5, 4, 3, 2, 1},
    {100, 2, 300, 4, 500, 6},
    {100, 2, 3, 4, 500, 6},
    {1, 200, 3, 4, 5, 600},
    {1, 1, 2, 1, 2, 1}
  };

  unsigned long long cycles = rdtsc();
  for (int i = 0; i < 6; i++) {
    sort6(d[i]);
  }
  cycles = rdtsc() - cycles;
  printf("Time is %d\n", (unsigned)cycles);

  for (int i = 0; i < 6; i++) {
    printf("d%d : %d %d %d %d %d %d\n", i,
     d[i][0], d[i][1], d[i][2],
     d[i][3], d[i][4], d[i][5]);
  }
}

EDIT:
Ранжирование заказа, вдохновленное Рексом Керром, Гораздо быстрее, чем беспорядок выше

static void sort6(int *o) {
const int 
A=o[0],B=o[1],C=o[2],D=o[3],E=o[4],F=o[5];
const unsigned char
AB = A>B, AC = A>C, AD = A>D, AE = A>E,
          BC = B>C, BD = B>D, BE = B>E,
                    CD = C>D, CE = C>E,
                              DE = D>E,
a =          AB + AC + AD + AE + (A>F),
b = 1 - AB      + BC + BD + BE + (B>F),
c = 2 - AC - BC      + CD + CE + (C>F),
d = 3 - AD - BD - CD      + DE + (D>F),
e = 4 - AE - BE - CE - DE      + (E>F);
o[a]=A; o[b]=B; o[c]=C; o[d]=D; o[e]=E;
o[15-a-b-c-d-e]=F;
}

PrincePolka 28 сен. 2017, в 20:59

1

Всегда приятно видеть новые решения. Похоже, возможна некоторая легкая оптимизация. В конце концов, это может не сильно отличаться от сортировки сетей.
kriss 28 сен. 2017, в 20:49
0

Да, количество MIN и MAX может быть уменьшено, например, MIN (AB, CD) повторяется несколько раз, но я думаю, что уменьшить их много будет сложно. Я добавил ваши тесты.
PrincePolka 28 сен. 2017, в 20:53

1

Я обнаружил, что, по крайней мере, на моей системе, функции sort6_iterator() и sort6_iterator_local(), определенные ниже, выполнялись как минимум так быстро, а часто заметно быстрее, чем предыдущий текущий держатель:

#define MIN(x, y) (x<y?x:y)
#define MAX(x, y) (x<y?y:x)

template<class IterType> 
inline void sort6_iterator(IterType it) 
{
#define SWAP(x,y) { const auto a = MIN(*(it + x), *(it + y)); \
  const auto b = MAX(*(it + x), *(it + y)); \
  *(it + x) = a; *(it + y) = b; }

  SWAP(1, 2) SWAP(4, 5)
  SWAP(0, 2) SWAP(3, 5)
  SWAP(0, 1) SWAP(3, 4)
  SWAP(1, 4) SWAP(0, 3)
  SWAP(2, 5) SWAP(1, 3)
  SWAP(2, 4)
  SWAP(2, 3)
#undef SWAP
}

Я передал эту функцию итератору std::vector в моем коде времени. Я подозреваю, что использование итераторов дает g++ определенные заверения в том, что может и не может случиться с памятью, на которую ссылается итератор, чего у него иначе не было бы, и именно эти заверения позволяют g++ лучше оптимизировать код сортировки (который if Я правильно помню, также является причиной того, почему так много алгоритмов std, таких как std::sort(), как правило, имеют такую неприличную хорошую производительность). Однако, хотя время я заметил, что контекст (т.е. Окружающий код), в котором был выполнен вызов функции сортировки, оказал значительное влияние на производительность, что, вероятно, связано с тем, что функция была встроена, а затем оптимизирована. Например, если программа была достаточно простой, то обычно не было большой разницы в производительности между передачей функции сортировки указателем и передачей им итератора; в противном случае использование итераторов обычно приводило к значительно более высокой производительности и никогда (по моему опыту, по крайней мере, по крайней мере) какой-либо заметно худшей производительности. Я подозреваю, что это может быть связано с тем, что g++ может глобально оптимизировать достаточно простой код.

Кроме того, sort6_iterator() иногда (опять же, в зависимости от контекста, в котором вызывается функция), последовательно превосходит следующую функцию сортировки:

template<class IterType> 
inline void sort6_iterator_local(IterType it) 
{
#define SWAP(x,y) { const auto a = MIN(data##x, data##y); \
  const auto b = MAX(data##x, data##y); \
  data##x = a; data##y = b; }
//DD = Define Data
#define DD1(a)   auto data##a = *(it + a);
#define DD2(a,b) auto data##a = *(it + a), data##b = *(it + b);
//CB = Copy Back
#define CB(a) *(it + a) = data##a;

  DD2(1,2)    SWAP(1, 2)
  DD2(4,5)    SWAP(4, 5)
  DD1(0)      SWAP(0, 2)
  DD1(3)      SWAP(3, 5)
  SWAP(0, 1)  SWAP(3, 4)
  SWAP(1, 4)  SWAP(0, 3)   CB(0)
  SWAP(2, 5)  CB(5)
  SWAP(1, 3)  CB(1)
  SWAP(2, 4)  CB(4)
  SWAP(2, 3)  CB(2)        CB(3)
#undef CB
#undef DD2
#undef DD1
#undef SWAP
}

Обратите внимание, что определение SWAP(), как следует, иногда приводит к немного лучшей производительности, хотя в большинстве случаев это приводит к немного худшей производительности или незначительной разнице в производительности.

#define SWAP(x,y) { const auto a = MIN(data##x, data##y); \
  data##y = MAX(data##x, data##y); \
  data##x = a; }

Если вам нужен алгоритм сортировки, который gcc -O3 последовательно оптимизирует, то в зависимости от того, как вы передаете вход, попробуйте один из следующих двух алгоритмов:

template<class T> inline void sort6(T it) {
#define SORT2(x,y) {if(data##x>data##y){auto a=std::move(data##y);data##y=std::move(data##x);data##x=std::move(a);}}
#define DD1(a)   register auto data##a=*(it+a);
#define DD2(a,b) register auto data##a=*(it+a);register auto data##b=*(it+b);
#define CB1(a)   *(it+a)=data##a;
#define CB2(a,b) *(it+a)=data##a;*(it+b)=data##b;
  DD2(1,2) SORT2(1,2)
  DD2(4,5) SORT2(4,5)
  DD1(0)   SORT2(0,2)
  DD1(3)   SORT2(3,5)
  SORT2(0,1) SORT2(3,4) SORT2(2,5) CB1(5)
  SORT2(1,4) SORT2(0,3) CB1(0)
  SORT2(2,4) CB1(4)
  SORT2(1,3) CB1(1)
  SORT2(2,3) CB2(2,3)
#undef CB1
#undef CB2
#undef DD1
#undef DD2
#undef SORT2
}

или

template<class T> inline void sort6(T& e0, T& e1, T& e2, T& e3, T& e4, T& e5) {
#define SORT2(x,y) {if(data##x>data##y)std::swap(data##x,data##y);}
#define DD1(a)   register auto data##a=e##a;
#define DD2(a,b) register auto data##a=e##a;register auto data##b=e##b;
#define CB1(a)   e##a=data##a;
#define CB2(a,b) e##a=data##a;e##b=data##b;
  DD2(1,2) SORT2(1,2)
  DD2(4,5) SORT2(4,5)
  DD1(0)   SORT2(0,2)
  DD1(3)   SORT2(3,5)
  SORT2(0,1) SORT2(3,4) SORT2(2,5) CB1(5)
  SORT2(1,4) SORT2(0,3) CB1(0)
  SORT2(2,4) CB1(4)
  SORT2(1,3) CB1(1)
  SORT2(2,3) CB2(2,3)
#undef CB1
#undef CB2
#undef DD1
#undef DD2
#undef SORT2
}

Причина использования ключевого слова register заключается в том, что это одно из немногих случаев, когда вы знаете, что эти значения нужны для регистров. Без register компилятор будет определять это большую часть времени, но иногда это не так. Использование ключевого слова register помогает решить эту проблему. Обычно, однако, не используйте ключевое слово register, поскольку он скорее замедляет ваш код, чем ускоряет его.

Также обратите внимание на использование шаблонов. Это делается специально, так как даже с ключевым словом inline функции шаблона, как правило, гораздо более агрессивно оптимизируются gcc, чем функции ваниль C (это связано с тем, что gcc необходимо иметь дело с указателями функций для функций ваниль C, но не с шаблоном функции).

Matthew K. 03 июнь 2017, в 05:29

1

Я считаю, что есть две части вашего вопроса.

Первый - определить оптимальный алгоритм. Это делается, по крайней мере, в этом случае, путем циклического перебора всех возможных порядков (их не так много), что позволяет вам вычислять точное минимальное, максимальное, среднее и стандартное отклонение сравнений и свопов. Имейте второе место или два удобных, а также.
Вторая задача - оптимизировать алгоритм. Многое можно сделать, чтобы преобразовать примеры кода учебника для обозначения и опре деления реальных алгоритмов. Если вы понимаете, что алгоритм не может быть оптимизирован настолько, насколько это необходимо, попробуйте занявшего второе место.

Я бы не стал слишком беспокоиться об освобождении конвейеров (предполагая текущий x86): предсказание ветки прошло долгий путь. Я бы беспокоился о том, что код и данные вписываются в одну строку кэша (возможно, два для кода). После того, как выборки задержек будут освежающе низкими, что компенсирует любой ларек. Это также означает, что ваш внутренний цикл будет, может быть, десятью инструкциями или так, что правильно там, где это должно быть (в моем алгоритме сортировки есть две разные внутренние петли, они - 10 команд /22 байта и 9/22 длинны соответственно). Предполагая, что код не содержит никаких div, вы можете быть уверены, что он будет ослепительно быстрым.

Olof Forshell 06 март 2012, в 11:35

0

Я не уверен, как понять твой ответ. Во-первых, я вообще не понимаю, какой алгоритм вы предлагаете? И как это может быть оптимальным, если вам нужно пройти через 720 возможных порядков (существующие ответы занимают гораздо меньше, чем 720 циклов). Если у вас есть случайный ввод, я не могу себе представить (даже на теоретическом уровне), как предсказание ветвлений может работать лучше, чем 50-50, если только это не волнует все входные данные. Кроме того, большинство уже предложенных хороших решений уже могут работать как с данными, так и с кодом полностью в кеше. Но, возможно, я совершенно не понял ваш ответ. Не могли бы вы показать какой-нибудь код?
kriss 06 март 2012, в 23:33
0

Я имел в виду, что существует только 720 (6!) Различных комбинаций из 6 целых чисел, и, выполняя все из них через алгоритмы-кандидаты, вы можете определить много вещей, как я уже упоминал, - это теоретическая часть. Практическая часть - это точная настройка этого алгоритма, чтобы он выполнялся за минимально возможное количество тактов. Моя отправная точка для сортировки 6 целых чисел - 1, 4 пробела. Разрыв 4 прокладывает путь для хорошего предсказания ветвления в разрыве 1.
Olof Forshell 07 март 2012, в 08:05
0

1, 4 пробела сортировки на 6! уникальные комбинации (начиная с 012345 и заканчивая 543210) будут иметь лучший случай из 7 сравнений и 0 обменов и худший из 14 сравнений и 10 обменов. Средний случай составляет около 11,14 сравнений и 6 обменов.
Olof Forshell 07 март 2012, в 14:55
0

Ошибка в среднем роде: это 10,63 сравнения и 6 обменов.
Olof Forshell 08 март 2012, в 09:40
0

Вы не забыли посчитать сравнения, использованные для завершения цикла?
kriss 08 март 2012, в 22:31
0

Количество сравнений - это то, что требуется для сравнения фактических (в данном случае целых) данных. Если доступ к данным более сложный (например, для строки со смещением в строке в таблице), любой другой условный условный тест (например, тот, который вы упомянули) будет тривиальным по сравнению. В этом случае тесты эквивалентны по обработке, но для определения общей эффективности алгоритма сортировки вы учитываете сравнения (и обмены) данных, которые должны быть отсортированы.
Olof Forshell 09 март 2012, в 06:09
0

Я понимаю, что вы говорите, но вы отвечаете на другой вопрос, который я не задавал. Это о сортировке массива 6 int с использованием обычного оператора сравнения int. Я указал на ваш счет, потому что это означает, что вы принимаете в качестве «бесплатных» операций, которые в этом случае не являются бесплатными. Вы также предполагаете регулярное случайное распределение данных для вычисления количества, которое может иметь место или не иметь место. Возможно, я ошибаюсь, но мое грубое предположение состоит в том, что сортировка с пропуском будет работать примерно так же, как сортировка вставкой. Некоторые решения, предлагаемые здесь, в 3 раза быстрее.
kriss 14 март 2012, в 08:24
0

Я не получаю "регулярное случайное распределение" - я проверяю каждую возможную комбинацию и определяю минимальную / среднюю / максимальную статистику. Оболочка сортировки представляет собой серию сортирующих вставок с уменьшающимися приращениями, так что окончательное приращение - 1 - выполняет намного меньше работы, чем если бы оно выполнялось само по себе, как при чисто сортировочной вставке. Что касается подсчета тактов, то мой алгоритм требует в среднем 406 тактов, что включает сбор статистики и выполнение двух вызовов самой процедуры сортировки - по одному на каждый пробел. Это на мобильном телефоне Athlon M300, компилятор OpenWatcom.
Olof Forshell 14 март 2012, в 09:11
0

«регулярное случайное распределение» означает, что каждая комбинация отсортированных фактических данных может иметь разную вероятность. Если каждая комбинация не имеет одинаковой вероятности, ваша статистика будет нарушена, потому что в среднем необходимо учитывать, сколько раз может произойти данное распределение. Для подсчета времени, если вы попробуете любую другую реализацию такого рода (ссылки предоставлены выше) и запустите ее в своей тестовой системе, у нас будет база для сравнения и посмотрим, насколько хорошо работает выбранная вами.
kriss 19 март 2012, в 00:43

Показать ещё 7 комментариев

0

Возможно, я опаздываю на вечеринку, но, по крайней мере, мой вклад - это новый подход.

Код действительно должен быть встроен
даже если в строке указано слишком много ветвей
анализирующая часть в основном O (N (N-1)), которая кажется ОК для N = 6
код может быть более эффективным, если стоимость swap будет выше (irt стоимость compare)
Я полагаюсь на встроенные статические функции.
Метод связан с сортировкой ранга
- вместо рангов используются относительные ранги (смещения).
- сумма рангов равна нулю для каждого цикла в любой группе подстановок.
- вместо SWAP() двух элементов, циклы преследуются, требуется только одна временная и одна (register- > register) swap (new < - old).

Обновление: немного изменил код, некоторые люди используют компиляторы С++ для компиляции кода C...

#include <stdio.h>

#if WANT_CHAR
typedef signed char Dif;
#else
typedef signed int Dif;
#endif

static int walksort (int *arr, int cnt);
static void countdifs (int *arr, Dif *dif, int cnt);
static void calcranks(int *arr, Dif *dif);

int wsort6(int *arr);

void do_print_a(char *msg, int *arr, unsigned cnt)
{
fprintf(stderr,"%s:", msg);
for (; cnt--; arr++) {
        fprintf(stderr, " %3d", *arr);
        }
fprintf(stderr,"\n");
}

void do_print_d(char *msg, Dif *arr, unsigned cnt)
{
fprintf(stderr,"%s:", msg);
for (; cnt--; arr++) {
        fprintf(stderr, " %3d", (int) *arr);
        }
fprintf(stderr,"\n");
}

static void inline countdifs (int *arr, Dif *dif, int cnt)
{
int top, bot;

for (top = 0; top < cnt; top++ ) {
        for (bot = 0; bot < top; bot++ ) {
                if (arr[top] < arr[bot]) { dif[top]--; dif[bot]++; }
                }
        }
return ;
}
        /* Copied from RexKerr ... */
static void inline calcranks(int *arr, Dif *dif){

dif[0] =     (arr[0]>arr[1])+(arr[0]>arr[2])+(arr[0]>arr[3])+(arr[0]>arr[4])+(arr[0]>arr[5]);
dif[1] = -1+ (arr[1]>=arr[0])+(arr[1]>arr[2])+(arr[1]>arr[3])+(arr[1]>arr[4])+(arr[1]>arr[5]);
dif[2] = -2+ (arr[2]>=arr[0])+(arr[2]>=arr[1])+(arr[2]>arr[3])+(arr[2]>arr[4])+(arr[2]>arr[5]);
dif[3] = -3+ (arr[3]>=arr[0])+(arr[3]>=arr[1])+(arr[3]>=arr[2])+(arr[3]>arr[4])+(arr[3]>arr[5]);
dif[4] = -4+ (arr[4]>=arr[0])+(arr[4]>=arr[1])+(arr[4]>=arr[2])+(arr[4]>=arr[3])+(arr[4]>arr[5]);
dif[5] = -(dif[0]+dif[1]+dif[2]+dif[3]+dif[4]);
}

static int walksort (int *arr, int cnt)
{
int idx, src,dst, nswap;

Dif difs[cnt];

#if WANT_REXK
calcranks(arr, difs);
#else
for (idx=0; idx < cnt; idx++) difs[idx] =0;
countdifs(arr, difs, cnt);
#endif
calcranks(arr, difs);

#define DUMP_IT 0
#if DUMP_IT
do_print_d("ISteps ", difs, cnt);
#endif

nswap = 0;
for (idx=0; idx < cnt; idx++) {
        int newval;
        int step,cyc;
        if ( !difs[idx] ) continue;
        newval = arr[idx];
        cyc = 0;
        src = idx;
        do      {
                int oldval;
                step = difs[src];
                difs[src] =0;
                dst = src + step;
                cyc += step ;
                if(dst == idx+1)idx=dst;
                oldval = arr[dst];
#if (DUMP_IT&1)
                fprintf(stderr, "[Nswap=%d] Cyc=%d Step=%2d Idx=%d  Old=%2d New=%2d #### Src=%d Dst=%d[%2d]->%2d <-- %d\n##\n"
                        , nswap, cyc, step, idx, oldval, newval
                        , src, dst, difs[dst], arr[dst]
                        , newval  );
                do_print_a("Array ", arr, cnt);
                do_print_d("Steps ", difs, cnt);
#endif

                arr[dst] = newval;
                newval = oldval;
                nswap++;
                src = dst;
                } while( cyc);
        }

return nswap;
}
/*************/
int wsort6(int *arr)
{
return walksort(arr, 6);
}

wildplasser 01 фев. 2018, в 02:59

0

Жизнь слишком коротка для некомментированного исходного кода.
greybeard 01 фев. 2018, в 06:41
0

выглядит как пузырьковая сортировка. Потенциально хороший претендент на самую медленную реализацию, но все же может быть интересно узнать, если работа над кодом имеет такое большое значение. Пожалуйста, поместите ваш код в тот же формат, что и другие, поэтому мы можем запустить тест на нем.
kriss 01 фев. 2018, в 10:53
0

@kriss en.wikipedia.org/wiki/Permutation_group Это, конечно, не пузырьковая сортировка: код обнаруживает циклы в данной перестановке и обходит эти циклы, помещая каждый элемент на свое конечное место. Последняя wsort6() имеет правильный интерфейс.
joop 01 фев. 2018, в 11:18
0

См. Stackoverflow.com/a/48507371/2235885 для объяснения.
joop 01 фев. 2018, в 11:29
0

@joop: мой плохой, без пузырей на самом деле. При этом в контексте я все еще ожидаю, что код будет намного хуже, чем любая другая текущая реализация. Кстати, решение по ранговому порядку является оптимальным с точки зрения количества свопов, поскольку оно напрямую определяет конечную позицию каждого элемента. Также неясно, работает ли walksort, когда мы снимаем гипотезу, что все отсортированные числа отличаются, как здесь. Для сравнения кода мы должны код трассировки. Также, как я обычно компилирую на компиляторе C ++, код не будет работать, потому что OP вызвал переменную «new» (и это нарушает подсветку синтаксиса).
kriss 01 фев. 2018, в 17:04
0

Метод очень близок к порядку рангов, только окончательные назначения выполняются на месте . Помимо рангов o1..o5 , нет необходимости во втором массиве temp e[6] . И: компилирование кода C на компиляторе C ++ и обвинение кода?
joop 01 фев. 2018, в 17:45
0

@greybeard: спасибо, я добавил пробел перед #include . Исправлена
wildplasser 01 фев. 2018, в 23:56
0

Отступы в вашем коде - это нечто иное (попробуйте, например, получить indent (1) для его создания): откуда вы взяли это?
greybeard 02 фев. 2018, в 06:21

Показать ещё 6 комментариев

0

Сортировка 4 элементов с использованием cmp == 0. Числа cmp ~ 4.34 (FF native имеют ~ 4.52), но занимают 3 раза, чем слияние списков. Но лучше, чем CMP операций, если у вас большие цифры или большой текст. Изменить: исправлена ошибка

Онлайн-тест http://mlich.zam.slu.cz/js-sort/x-sort-x2.htm

function sort4DG(cmp,start,end,n) // sort 4
{
var n     = typeof(n)    !=='undefined' ? n   : 1;
var cmp   = typeof(cmp)  !=='undefined' ? cmp   : sortCompare2;
var start = typeof(start)!=='undefined' ? start : 0;
var end   = typeof(end)  !=='undefined' ? end   : arr[n].length;
var count = end - start;
var pos = -1;
var i = start;
var cc = [];
// stabilni?
cc[01] = cmp(arr[n][i+0],arr[n][i+1]);
cc[23] = cmp(arr[n][i+2],arr[n][i+3]);
if (cc[01]>0) {swap(n,i+0,i+1);}
if (cc[23]>0) {swap(n,i+2,i+3);}
cc[12] = cmp(arr[n][i+1],arr[n][i+2]);
if (!(cc[12]>0)) {return n;}
cc[02] = cc[01]==0 ? cc[12] : cmp(arr[n][i+0],arr[n][i+2]);
if (cc[02]>0)
    {
    swap(n,i+1,i+2); swap(n,i+0,i+1); // bubble last to top
    cc[13] = cc[23]==0 ? cc[12] : cmp(arr[n][i+1],arr[n][i+3]);
    if (cc[13]>0)
        {
        swap(n,i+2,i+3); swap(n,i+1,i+2); // bubble
        return n;
        }
    else    {
    cc[23] = cc[23]==0 ? cc[12] : (cc[01]==0 ? cc[30] : cmp(arr[n][i+2],arr[n][i+3]));  // new cc23 | c03 //repaired
        if (cc[23]>0)
            {
            swap(n,i+2,i+3);
            return n;
            }
        return n;
        }
    }
else    {
    if (cc[12]>0)
        {
        swap(n,i+1,i+2);
        cc[23] = cc[23]==0 ? cc[12] : cmp(arr[n][i+2],arr[n][i+3]); // new cc23
        if (cc[23]>0)
            {
            swap(n,i+2,i+3);
            return n;
            }
        return n;
        }
    else    {
        return n;
        }
    }
return n;
}

peter 13 янв. 2017, в 09:29

1

Вариант использования немного отличается от исходного контекста вопроса. С деталями сортировки фиксированной длины значение и подсчет cmp свопов недостаточны. Я бы даже не удивился, если бы это был не фактический тип сортировки, который бы занимал время, а нечто совершенно иное, вызывающее typeof () в init. Я не знаю, как выполнить фактическое время на часах, используя Javascript. Может с узлом?
kriss 13 янв. 2017, в 13:50

0

Попробуйте сортировать отсортированный список.:) Используйте два массива. Самый быстрый для малого и большого массива.
Если вы соглашаетесь, вы только проверяете, где вставить. Другие большие значения, которые вам не нужно сравнивать (cmp = a-b > 0).
Для 4 чисел вы можете использовать систему 4-5 cmp (~ 4.6) или 3-6 cmp (~ 4.9). Сортировка пузырьков составляет 6 см (6). Много cmp для больших чисел медленнее кода.
Этот код использует 5 cmp (не сортировка MSL):
if (cmp(arr[n][i+0],arr[n][i+1])>0) {swap(n,i+0,i+1);} if (cmp(arr[n][i+2],arr[n][i+3])>0) {swap(n,i+2,i+3);} if (cmp(arr[n][i+0],arr[n][i+2])>0) {swap(n,i+0,i+2);} if (cmp(arr[n][i+1],arr[n][i+3])>0) {swap(n,i+1,i+3);} if (cmp(arr[n][i+1],arr[n][i+2])>0) {swap(n,i+1,i+2);}

Основной MSL 9 8 7 6 5 4 3 2 1 0 89 67 45 23 01 ... concat two sorted lists, list length = 1 6789 2345 01 ... concat two sorted lists, list length = 2 23456789 01 ... concat two sorted lists, list length = 4 0123456789 ... concat two sorted lists, list length = 8

js code

function sortListMerge_2a(cmp)	
{
var step, stepmax, tmp, a,b,c, i,j,k, m,n, cycles;
var start = 0;
var end   = arr_count;
//var str = '';
cycles = 0;
if (end>3)
	{
	stepmax = ((end - start + 1) >> 1) << 1;
	m = 1;
	n = 2;
	for (step=1;step<stepmax;step<<=1)	//bounds 1-1, 2-2, 4-4, 8-8...
		{
		a = start;
		while (a<end)
			{
			b = a + step;
			c = a + step + step;
			b = b<end ? b : end;
			c = c<end ? c : end;
			i = a;
			j = b;
			k = i;
			while (i<b && j<c)
				{
				if (cmp(arr[m][i],arr[m][j])>0)
					{arr[n][k] = arr[m][j]; j++; k++;}
				else	{arr[n][k] = arr[m][i]; i++; k++;}
				}
			while (i<b)
				{arr[n][k] = arr[m][i]; i++; k++;
}
			while (j<c)
				{arr[n][k] = arr[m][j]; j++; k++;
}
			a = c;
			}
		tmp = m; m = n; n = tmp;
		}
	return m;
	}
else
	{
	// sort 3 items
	sort10(cmp);
	return m;
	}
}

peter 12 янв. 2017, в 16:18

-1

Вот три типичных метода сортировки, которые представляют три разных класса алгоритмов сортировки:

Insertion Sort: Θ(n^2)

Heap Sort: Θ(n log n)

Count Sort: Θ(3n)

Но зайдите обсуждение Стефана Нельсона о самом быстром алгоритме сортировки?, где он обсуждает решение, которое переходит на O(n log log n).. проверьте его реализация в C

Этот алгоритм полулинейной сортировки был представлен в 1995 году:

а. Андерссон, Т. Хагеруп, С. Нильссон и Р. Раман. Сортировка по линейному время? В материалах 27-го ежегодного симпозиума ACM по теории Вычисление, страницы 427-436, 1995.

Khaled.K 23 апр. 2013, в 06:57

7

Это интересно, но не в этом дело. Big-intended предназначен для того, чтобы скрыть постоянные факторы и показать тенденцию, когда размер задачи (n) становится большим. Проблема здесь полностью связана с фиксированным размером задачи (n = 6) и с учетом постоянных факторов.
kriss 23 апр. 2013, в 08:20
0

@ kriss ты прав, мое сравнение асимптотическое, поэтому практическое сравнение покажет, быстрее это или нет для этого случая
Khaled.K 23 апр. 2013, в 10:41
4

Вы не можете сделать вывод, потому что каждый отдельный алгоритм скрывает свою K-мультипликативную константу (а также C-аддитивную константу). то есть: k0, c0 для сортировки вставкой, k1, c1 для сортировки кучи и так далее. Все эти константы на самом деле разные (вы можете сказать в физических терминах, что у каждого алгоритма есть свой собственный «коэффициент трения»), вы не можете заключить, что алгоритм на самом деле быстрее в этом случае (или в любом фиксированном n случае).
kriss 23 апр. 2013, в 12:57

Показать ещё 1 комментарий

-1

Ну, если это всего 6 элементов, и вы можете использовать parallelism, хотите минимизировать условное разветвление и т.д. Почему вы не генерируете все комбинации и не проверяете порядок? Я бы рискнул, что в некоторых архитектурах это может быть довольно быстро (до тех пор, пока у вас есть память prealocated)

GClaramunt 24 авг. 2011, в 15:45

8

Есть 720 заказов, а быстрые версии не превышают 100 циклов. Даже если бы можно было использовать массивный параллелизм, при таком небольшом временном масштабе затраты на создание и синхронизацию потоков, вероятно, превысили бы стоимость только сортировки массивов на одном ядре.
Kevin Stock 24 авг. 2011, в 15:19
0

правильно, сбор результатов может быть проблематичным ...
GClaramunt 24 авг. 2011, в 15:27

Ещё вопросы

Это не настоящий гольф, если вы не можете объективно оценить ответы, поэтому вам нужно указать конкретную архитектуру (и будет ли она оценена в среднем или в худшем случае).
Интс на GPU ... вы можете использовать поплавки вместо? Тогда у вас есть функции мин / макс. (По крайней мере, GLSL не поддерживает min / max для целых чисел.) Кроме того, вероятно, быстрее использовать два типа vec3 или аналогичные вместо массива, так что вы можете использовать swizzling для сортировки.
@ Томас: да, вы правы, было бы более логично использовать массив с плавающей точкой. Действительно, тип векторного содержимого не имеет отношения к проблеме, кроме того, что он является своего рода «встроенным» типом удержания в регистре.
@caf: я буду использовать некоторый эталонный таймер, который читает регистр цикла, например, этот fit.vutbr.cz/~peringer/SIMLIB/doc/html/rdtsc_8h-source.html . В контексте GPU я знаю, что это мошенничество, но правила игры очень удобны для игры в гольф.
Есть ли у вас какие-то ограничения на Ints? Например, можем ли мы предположить, что для любых 2 x, y xy и x+y не вызовет переполнение или переполнение?
в контексте у меня нет информации о int (вы можете представить, что они являются произвольными пикселями, кодирующими цвета), так что нет, извините, вы не можете сэкономить немного для трюка подкачки ;-)
Вы должны попробовать объединить мою 12-местную сортировочную сеть с функцией обмена без ответвлений Пола. Его решение передает все параметры в виде отдельных элементов в стеке вместо одного указателя на массив. Это также может иметь значение.
@kriss: Как парень не из C, я очень очарован этим постом. Мне просто интересно, что такое -O1 , -O2 и т. Д. Это уровни оптимизации компилятора?
@Zaid: да, это предопределенные наборы оптимизации gcc (вы также можете определить функции оптимизации индивидуально). Вы можете увидеть здесь gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html Что это за оптимизации? Другие компиляторы имеют похожие флаги оптимизации.
Отличный анализ и хорошая выгода при переупорядочении свопов. На странице, на которую я ссылаюсь, которая генерирует макросы SWAP, похоже, что вы можете получить оптимальный порядок с опцией «Просмотр сети с помощью текстовых символов» вместо опции «Создать набор макросов SWAP». Я пишу автору письмо, чтобы узнать, можно ли получить макросы SWAP для вывода в оптимальном порядке.
Обратите внимание, что правильная реализация rdtsc в 64-битной __asm__ volatile (".byte 0x0f, 0x31; shlq $32, %%rdx; orq %%rdx, %0" : "=a" (x) : : "rdx"); потому что rdtsc помещает ответ в EDX: EAX, а GCC ожидает его в одном 64-битном регистре. Вы можете увидеть ошибку, скомпилировав в -O3. Также см. Ниже мой комментарий Полу Р. о более быстром обмене.
Несколько советов - 6 циклов недостаточно для всех платформ, также вам следует использовать тестовый набор мощностью два, чтобы позволить модулю увеличивать два с и повторять несколько раз, не загрязняя результаты потенциально дорогими операциями с модами. Вот некоторые результаты для платформы, которую я не могу назвать из-за NDA, но которая использует архитектуру PPC:
Прямой вызов к функции библиотеки qsort : 101 Наивная реализация (сортировка вставок) : 299 Сортировка вставок (Даниэль Штутцбах) : Сортировка вставок развернута : 51 Сортировка сетей (Даниэль Штутцбах) : 26 Сортировка сетей (Paul R) : 85 Сортировка сетей 12 с Быстрой Своп : 117 Сортировка сетей 12 переупорядочено Своп : 116 Порядок ранжирования : 56
У меня есть претензии к Сортировке сетей 12 с кодом быстрой замены: посмотрите на функции min & max: есть общий элемент, который содержит ветвь.
Может быть, компилятор достаточно умен, чтобы сделать это за вас, но небольшое ускорение в min / max SWAP, по-видимому, доступно благодаря повторному использованию значения xor'd из min / max, например: int s = (x^y) & -(x<y); int t = y^s; y = x^s; x = t; (Замените {x, y} на d [{x, y}]; я хотел, чтобы фрагмент кода читался.)
@ Лорен, нет никакого ответвления от вычисления x<y , это просто бинарная операция, как + или *. Если бы это было в операторе if , например, тогда это могло бы вызвать ветвление, но это не так, что является прелестью этой реализации подкачки - она дает нам условное поведение с нулевыми скачками.
@Tyler: Как вы реализуете это на уровне сборки без ветки?
@Loren, это просто инструкция cmp, которая устанавливает бит состояния.
Вы делаете сортировку выбора , а не сортировку вставкой. В остальном отличный анализ, с убедительными доказательствами. Оптимизация подкачки наиболее интересна.
@ Лорен, я думаю, что вы говорите: «Процессор должен вести себя по-разному в зависимости от того, является ли x <y или нет», что верно, но процессор все время принимает решения, не изменяя поток управления - например, он должен решить во время добавления, если определенный выходной бит равен 1 или 0 на основе входных битов. Слово «ветвь», в частности, означает переход к другому набору инструкций, так что поток управления изменяется. Разница важна, поскольку меньшее ветвление позволяет процессору предвидеть будущие инструкции и начать работу над ними до завершения последней инструкции, называемой конвейерной обработкой.
Какой смысл в минимизации скорости выполнения?
@Tyler: я думаю, что моя сборка слишком ржавая, так как я не помню, чтобы какой-либо способ получить этот бит состояния в регистр, не перепрыгивая через большое количество обручей (нажмите флаги, нажмите AX, замаскируйте и затем сдвиньте. Минимум 4 цикла { Прошло долгое время с тех пор, как я посмотрел использованные циклы, я думаю, что это все операции с одним циклом в наши дни} и одна остановка памяти.) Единственный момент, который я могу использовать при непосредственном использовании, - это добавление с переносом.
@Loren: CMP EAX, EBX; SBB EAX, EAX установит 0 или 0xFFFFFFFF в EAX зависимости от того, больше или меньше EAX чем EBX , соответственно. SBB - это «вычесть с займом», аналог ADC («добавить с переносом»); бит статуса, на который вы ссылаетесь, является битом переноса. С другой стороны, я помню, что ADC и SBB имели ужасную задержку и пропускную способность на Pentium 4 по сравнению с ADD и SUB , и все еще были в два раза медленнее на процессорах Core. Начиная с 80386 есть также SETcc условного перемещения CMOVcc условного перемещения CMOVcc , но они также медленные.
@ bandi: бессмысленно сводить к минимуму длину источника, как я уже говорил, это игра, своего рода гольф. Но я верю, что у процесса есть свои преимущества. Он узнает нам о том, какой тип кода эффективен или нет на нескольких уровнях: алгоритмическом (обычно с большими преимуществами), а также на уровне компилятора и аппаратного обеспечения. Это также дает некоторую справочную информацию о том, какую производительность можно ожидать от программы на Си (при необходимости).
@Loren: Pentium 2 и новее имеют быстрые условные перемещения, см. Ассемблерный код Steinar Gunderson.
@kriss Я думаю, что то, что вы сказали, верно для случая максимизации скорости, что вполне понятно. Чего я не понимаю, так это почему вы минимизируете это? Почему вы хотите написать медленную программу?
@ bandi: плохое слово, моя вина, я хочу минимизировать время выполнения, а не скорость ;-). Спасибо, что обнаружили опечатку.
«Зенинг», мне это нравится. Не уверен, куда идти с этим словом, но я постараюсь использовать его.
Ссылки на copypastecode.com не работают; сейчас это похоже на хитрый рекламный сайт.
@Olaf: действительно, copypastecode.com прекратил работу два года назад (!). Как только у меня будет свободное время, я верну контент на какой-нибудь рабочий сайт (возможно, на github). Спасибо за предупреждение.
Этот вопрос на самом деле имеет мало общего с C, и больше касается сборки, поскольку вы проверяете машинный код, который создается. Кроме того, вы использовали __asm__ который на самом деле не является простым C.
@seb 11: некоторые постеры использовали asm для ответов, я использовал его для доступа к аппаратным таймерам на x86 для точных измерений, но это незначительно. Здесь нет больше сборки, чем в большинстве типичных реализаций libc. Вы бы поспорили, что использование libc делает это не простым C? Большинство ответов - чистый C. Но я не согласен с вами, потому что знание того, как язык компилируется под капотом (и что может быть эффективно скомпилировано для той или иной цели), является очень важной частью знания C. Конечно, никто не вынужден читать этот вопрос или его ответы. Не волнует, если вы не освоите этот уровень C.
Для C ++ я недавно написал шаблонный класс для генерации сетей Бозе-Нельсона во время компиляции . С оптимизацией производительность находится на одном уровне с самыми быстрыми ручными ответами здесь.
Хм ... вы указываете, что язык должен быть C, но вы говорите, что код будет выполняться на GPU. Как вы запускаете код C на GPU?
@kriss: Кроме того, я вижу, что вы удалили оператор "будет работать на GPU". Тем не gpgpu тег gpgpu остается. Вы больше не намерены задавать вопрос о коде графического процессора?
@ Стефан Монов: все еще заинтересован, но я считаю, что код будет совсем другой на GPU. Отныне это, вероятно, должен быть другой вопрос. Поскольку я ленивый, я не открыл это. Так что, если у вас есть хороший ответ, работающий над GPU, не стесняйтесь дать его.
Для запуска кода C на GPU вы можете использовать CUDA или OpenCL. Это накладывает некоторые ограничения, но это все еще код на C и преимущества от GPU. Кстати, если у вас есть графический процессор, просто сортировка 6 чисел, вероятно, будет пустой тратой энергии.
Для некоторых битовых хаков для мин / макс: graphics.stanford.edu/~seander/bithacks.html#IntegerMinOrMax
@Paul: в реальном контексте использования CUDA, это, безусловно, лучший ответ. Я проверю, есть ли он (и сколько) в контексте гольфа x64, и опубликую результаты.
Sort3 будет быстрее (на большинстве архитектур, во всяком случае), если вы Sort3 что (a+b+c)-(min+max) - это центральное число.
@Rex: интересная идея - для предотвращения переполнения потребуется расширение данных, что в некоторых случаях может повлиять на производительность (особенно SIMD). Хотя было бы интересно подсчитать количество операций: приведенная выше реализация Sort3 - это операции с 3 max И 3 min общей сложности 6 - как вы думаете, сколько будет ваш метод?
@Paul: Переполнение не имеет значения - вы снова возвращаетесь в диапазон (если это не странная архитектура, которая не выполняет целочисленный математический мод 2 ^ 32). Мой метод - 1 мин., 1 макс., 2 сложения, 2 саб - и с добавлением / сабом, как правило, быстрее, чем мин / макс. Если они одинаковы, это должно быть эквивалентно.
@Rex: я вижу - это выглядит хорошо. Для SIMD-архитектур, таких как AltiVec и SSE, это будет одинаковое количество циклов команд (max и min - это инструкции с одним циклом, такие как сложение / вычитание), но для нормального скалярного ЦП ваш метод выглядит лучше.
Если я позволю GCC оптимизировать min с помощью инструкций условного перемещения, я получу ускорение на 33%: #define SWAP(x,y) { int dx = d[x], dy = d[y], tmp; tmp = d[x] = dx < dy ? dx : dy; d[y] ^= dx ^ tmp; } Здесь я не использую?: For d [y], потому что он дает немного худшую производительность, но почти в шуме.
@Rex: с gcc -O1 это меньше 1000 циклов, довольно быстро, но медленнее, чем сортировка сети. Есть идеи по улучшению кода? Может быть, если бы мы могли избежать копирования массива ...
@kriss: Это быстрее, чем сортировочная сеть для меня с -O2. Есть ли какая-то причина, почему -O2 не в порядке, или она медленнее для вас на -O2? Может быть, это разница в архитектуре машины?
@Rex: O2 действительно лучший вариант для меня с вашей программой. Количество циклов составляет около 950 (я запускаю программу несколько раз, потому что результат никогда не бывает абсолютно стабильным). Таким образом, он быстрее, чем первая реализация Network Sort (та, в которой без свопа без ветвления), но медленнее, чем две другие. Но вы правы, целевая архитектура или точная модель процессора могут иметь значение. 400 циклов не большая разница. Моя цель тестирования - Intel Core2 Quad [email protected], шаг 0a (хотя с методом тестирования частота не имеет значения).
@Rex: Мне также интересно, действительно ли ваш метод работает с каждым набором данных. Интересно, нет ли у вас случаев, когда несколько значений отображаются в одно и то же место, когда отсортированные данные повторяются.
@Rex: извините, я пропустил шаблон> vs> = с первого взгляда. Это работает в каждом случае.
@Rex: я попробовал ваш код на другом тестовом компьютере (Intel Core 2 E8400 @ 3GHz с родной 64-битной ОС Linux), и на нем ваша программа самая быстрая (~ 370 циклов против ~ 390). Я должен отредактировать свой вопрос, чтобы получить результаты для обеих архитектур (с вашим ответом).
@kriss: Я думаю, что разность циклов в 2 раза достаточно велика, особенно с учетом того, что я тестировал двухъядерный компьютер того же винтажа, что и Q8300!
@Rex; Я обновил свой ответ. Истинной причиной была версия компилятора (gcc441 против gcc 443), а не целевая архитектура. Я точно не определил, что такое оптимизация. Ваше решение, кажется, сильно толкает GCC. Например, gcc443 дает гораздо лучшие результаты с O1, чем с O2). Думаю, мне придется взглянуть на ассемблер, если я действительно хочу понять, почему.
@kriss: ага В этом нет ничего удивительного - вокруг много плавающих переменных, их нужно аккуратно упорядочивать и кэшировать в регистрах и так далее.
Эффективность этого подхода во многом зависит от того, насколько легко сделать (int) (a> = b) на конкретной машине. Pentiums дал инструкцию 'setcc', позволяющую сделать это двумя инструкциями, но на некоторых процессорах это может потребовать более сложного кода. Хотя почти во всем современном это возможно без ветки, компиляторы не всегда могут это сделать. Если вы можете предположить, что в вычитании нет переполнения, ((ab) >> 31) даст 0 или -1, и это можно использовать вместо этого.
Большой «плюс» здесь заключается в том, что в основной части нет «хранилищ», поэтому оптимизатор сможет легко работать с регистрами и читать только каждый d [i] один раз. Если компилятор может определить, что, например, e [0] уже прочитано как d [0] (и у вас достаточно регистров), это было бы еще лучше. Это можно сделать явным, используя 6 локальных переменных d0..d5 вместо memcpy для e.
@SSpoke 0+1+2+3+4+5=15 Так как один из них отсутствует, 15 минус сумма остальных дает один отсутствующий
+1 нет ничего быстрее, чем использовать регистр
Ваша идея о переменных регистра должна быть применена к решению "порядка ранга" Рекса Керра. Это должно быть быстрее, и, возможно, тогда оптимизация -O3 не будет контрпродуктивной.
@ cdunn2001 Я только что проверил, я не вижу улучшения (за исключением нескольких циклов при -O0 и -Os). Глядя на asm, кажется, что gcc уже удалось выяснить, использовать ли регистры и исключить вызов memcpy.
Не могли бы вы добавить простую версию подкачки в свой набор тестов, я думаю, было бы интересно сравнить ее с быстрой заменой сборки, оптимизированной вручную.
Ваш код по-прежнему использует своп Гандерсона, мой будет #define SWAP(x,y) { int oldx = x; x = x < y ? x : y; y ^= oldx ^ x; }
@Paolo Bonzini: Да, я собираюсь добавить тестовый пример с вашим, но пока не успел. Но я буду избегать встроенной сборки.
@Paolo Bonzini: также кажется, что использование двух временных переменных вместо одной в swap имеет положительный эффект, но я не совсем уверен в этом.
@Paolo Bonzini: я просто забыл обновить код на этой странице (ссылка на вставку содержит правильный код). Результаты используют ваш макрос. Исправлена.
@ BlackBear: я думал, что нет ничего быстрее света. О, я вижу свет. Это регистрируется :-)
Мне кажется, что порядок загрузки может привести к остановке. Поскольку все нагрузки происходят непосредственно перед первым использованием, своп должен ждать загрузки переменных, что приводит к остановке. С чередованными хранилищами все в порядке, надо надеяться, что они будут перекрываться между сохраняемыми данными и следующим обменом. В любом случае, это, вероятно, спорный вопрос для достаточно хорошего компилятора, он будет переупорядочивать вещи, чтобы эта работа происходила, пока он ожидает получения данных из ОЗУ. Вполне возможно, что выполнение всех нагрузок в одном блоке было бы весьма полезно для графического процессора.
@ Axman6 Ты прав. В одном из моих предыдущих вариантов я обнаружил, что чередование нагрузок было немного выгодно, и поэтому оно застряло. Однако компилятор теперь перемещает большинство или все нагрузки в начало.
Есть ровно 720 различных заказов из 6 элементов. В каком-то смысле «лучшим» будет тот, у которого наилучшая производительность в худшем случае среди этих 720 заказов.
@ cdunn2001 решение «Порядок ранга», как правило, будет в основном в regs, поскольку оно откладывает магазины до тех пор, пока не будут выполнены все основные вычисления. Может быть улучшено с помощью чтения в 6 локальных файлов вместо memcpy для 'e'. Я не удивлюсь, если gcc может сделать это сам (он может обрабатывать небольшой локальный массив как отдельные int; здесь также необходимо преобразовать memcpy в 6 отдельных операций e [0] = d [0]; e [ 1] = d [1] .. для того, чтобы сделать эту оптимизацию. Но было бы лучше сделать это явным в коде).
Было бы интересно сравнить ваши предложения с другими предложениями на уровне сборки. Сравненные характеристики реализации не включают их. Использование SSE в любом случае звучит хорошо.
Другой областью будущих исследований будет применение новых инструкций Intel AVX для решения этой проблемы. Большие 256-битные векторы достаточно велики, чтобы вместить 8 DWORD.
Вместо pxor / pinsrd xmm4, mem, 0 , просто используйте movd !
ОК, тестовый код плохой. Не стесняйтесь улучшать это. И да, вы можете использовать ассемблерный код. Почему бы не пройти весь путь и полностью кодировать его с помощью ассемблера x86? Это может быть немного менее портативно, но зачем?
Спасибо за замечание переполнения массива, я исправил это. Другие люди, возможно, не заметили это, потому что нажали на ссылку, чтобы скопировать / вставить код, где нет переполнения.
На самом деле вам даже не нужен ассемблер; если вы просто отбросите все хитрые трюки, GCC распознает последовательность и вставит для вас условные ходы: #define min (a, b) ((a <b)? a: b) #define max (a, b) ( (a <b)? b: a) # определить SWAP (x, y) {int a = min (d [x], d [y]); int b = max (d [x], d [y]); д [х] = а; d [y] = b; } Это может быть на несколько процентов медленнее, чем встроенный вариант asm, но это трудно сказать, учитывая отсутствие надлежащего бенчмаркинга.
... и, наконец, если ваши числа являются числами с плавающей точкой, и вам не нужно беспокоиться о NaN и т. Д., GCC может преобразовать это в инструкции SSE minss / maxss, что еще на ~ 25% быстрее. Мораль: отбросьте хитрые хитрые трюки и дайте компилятору выполнить свою работу. :-)
Это возвращает их назад, обратите внимание, что d [y] получает максимум, который равен x ^ (общее подвыражение).
Я заметил то же самое; Я думаю, что для правильной реализации вы хотите, чтобы d[x] вместо x (то же самое для y ) и d[y] < d[x] для неравенства здесь (да, отличается от кода min / max).
@Tyler: сделал оба исправления, которые вы указали. Благодарю.
Я пробовал с вашим свопом, но локальная оптимизация имеет негативные последствия на более высоком уровне (я предполагаю, что она вводит зависимости). И результат медленнее, чем другой обмен. Но, как вы можете видеть, с новым предложением было действительно много производительности для оптимизации обмена.
Более или менее связанный: я представил отчет в GCC, чтобы он мог реализовать оптимизацию непосредственно в компиляторе. Не уверен, что это будет сделано, но, по крайней мере, вы можете следить за его развитием.
Очень интересно. Похоже, что обмен без ветвей - плохая идея на PPC. Это также может быть эффект, связанный с компилятором. Какой был использован?
Это ветвь компилятора gcc - логика min, max, вероятно, не без ветвей - я проверю разборку и дам вам знать, но если компилятор не достаточно умен, включая что-то вроде x <y без if, все равно становится ветвью - на x86 / x64 инструкция CMOV могла бы этого избежать, но такой инструкции для значений с фиксированной запятой на PPC нет, только плавающие. Я мог бы поиграть с этим завтра и дать вам знать - я помню, что в исходном коде Winamp AVS был намного более простой мин / макс без ветвей, но он был только для поплавков - но мог бы стать хорошим началом к действительно безветренному подходу.
Вот минимальные / максимальные значения без subfc r5,r4,r3; subfe r6,r6,r6; andc r6,r5,r6; add r4,r6,r4; subf r3,r6,r3 для PPC с входами без знака: subfc r5,r4,r3; subfe r6,r6,r6; andc r6,r5,r6; add r4,r6,r4; subf r3,r6,r3 . r3 / r4 - входы, r5 / r6 - регистры нуля, на выходе r3 получает минимум, а r4 - максимум. Это должно быть прилично по расписанию вручную. Я нашел это с помощью супероптимизатора GNU, начиная с 4-минутных и максимальных последовательностей инструкций и просматривая вручную два, которые можно объединить. Для входов со знаком вы, конечно, можете добавить 0x80000000 ко всем элементам в начале и снова вычесть его в конце, а затем работать так, как если бы они были без знака.
xor swap работает и для одинаковых значений ... x ^ = y устанавливает x в 0, y ^ = x оставляет y в качестве y (== x), x ^ = y устанавливает x в y
Когда это не работает, это когда x и y указывают на одно и то же место.
В любом случае, при использовании с сетями сортировки мы никогда не звоним, когда x и y указывают на одно и то же местоположение. Еще предстоит найти способ избежать тестирования, который был бы более эффективным, чтобы получить тот же эффект, что и своп без ветвей. У меня есть идея, чтобы достичь этого.
отлично. Я добавлю это в более длинный тестовый пакет
не стесняйтесь предложить некоторую реализацию :-)
Предложение добавлено. Наслаждайтесь ошибками.
Это хорошо. Поскольку решаемой проблеме уже много десятилетий, вероятно, столько же лет, как и программированию на С, то, что этот вопрос уже почти 5 лет, выглядит не так уж актуально.
Вы должны взглянуть на то, как рассчитаны другие ответы. Дело в том, что при таких небольших сравнениях подсчета наборов данных или даже сравнений и свопов на самом деле не говорится, насколько быстрым является алгоритм (в основном, сортировка 6-ти целых всегда равна O (1), потому что O (6 * 6) - это O (1)). Наиболее быстрым из предложенных ранее решений является немедленное определение позиции каждого значения с использованием большого сравнения (по RexKerr).
@kriss Это самый быстрый сейчас? Из моего прочтения результатов, подход к сортировочным сетям был самым быстрым, а мой - плохим. Также верно, что мое решение исходит из моей универсальной библиотеки и я не всегда сравниваю целые числа и не всегда использую operator< для сравнения. Помимо объективного количества сравнений и свопов, я также правильно рассчитал свои алгоритмы; это решение было самым быстрым, но я действительно пропустил @ RexKerr. Попробую :)
Решение от RexKerr (Order Rank) стало самым быстрым на архитектуре X86 со времен компилятора gcc 4.2.3 (а с gcc 4.9 стало почти в два раза быстрее, чем второй лучший). Но это сильно зависит от оптимизации компилятора и может не соответствовать действительности для других архитектур.
@kriss Это интересно знать. И я действительно мог бы больше различий снова с -O3 . Я предполагаю, что тогда я приму другую стратегию для своей библиотеки сортировки: предоставляя три вида алгоритмов, которые будут иметь либо небольшое количество сравнений, либо небольшое количество перестановок, либо потенциально лучшую производительность. По крайней мере, то, что произойдет, будет прозрачным для читателя. Спасибо за ваши идеи :)
Всегда приятно видеть новые решения. Похоже, возможна некоторая легкая оптимизация. В конце концов, это может не сильно отличаться от сортировки сетей.
Да, количество MIN и MAX может быть уменьшено, например, MIN (AB, CD) повторяется несколько раз, но я думаю, что уменьшить их много будет сложно. Я добавил ваши тесты.
Я не уверен, как понять твой ответ. Во-первых, я вообще не понимаю, какой алгоритм вы предлагаете? И как это может быть оптимальным, если вам нужно пройти через 720 возможных порядков (существующие ответы занимают гораздо меньше, чем 720 циклов). Если у вас есть случайный ввод, я не могу себе представить (даже на теоретическом уровне), как предсказание ветвлений может работать лучше, чем 50-50, если только это не волнует все входные данные. Кроме того, большинство уже предложенных хороших решений уже могут работать как с данными, так и с кодом полностью в кеше. Но, возможно, я совершенно не понял ваш ответ. Не могли бы вы показать какой-нибудь код?
Я имел в виду, что существует только 720 (6!) Различных комбинаций из 6 целых чисел, и, выполняя все из них через алгоритмы-кандидаты, вы можете определить много вещей, как я уже упоминал, - это теоретическая часть. Практическая часть - это точная настройка этого алгоритма, чтобы он выполнялся за минимально возможное количество тактов. Моя отправная точка для сортировки 6 целых чисел - 1, 4 пробела. Разрыв 4 прокладывает путь для хорошего предсказания ветвления в разрыве 1.
1, 4 пробела сортировки на 6! уникальные комбинации (начиная с 012345 и заканчивая 543210) будут иметь лучший случай из 7 сравнений и 0 обменов и худший из 14 сравнений и 10 обменов. Средний случай составляет около 11,14 сравнений и 6 обменов.
Ошибка в среднем роде: это 10,63 сравнения и 6 обменов.
Вы не забыли посчитать сравнения, использованные для завершения цикла?
Количество сравнений - это то, что требуется для сравнения фактических (в данном случае целых) данных. Если доступ к данным более сложный (например, для строки со смещением в строке в таблице), любой другой условный условный тест (например, тот, который вы упомянули) будет тривиальным по сравнению. В этом случае тесты эквивалентны по обработке, но для определения общей эффективности алгоритма сортировки вы учитываете сравнения (и обмены) данных, которые должны быть отсортированы.
Я понимаю, что вы говорите, но вы отвечаете на другой вопрос, который я не задавал. Это о сортировке массива 6 int с использованием обычного оператора сравнения int. Я указал на ваш счет, потому что это означает, что вы принимаете в качестве «бесплатных» операций, которые в этом случае не являются бесплатными. Вы также предполагаете регулярное случайное распределение данных для вычисления количества, которое может иметь место или не иметь место. Возможно, я ошибаюсь, но мое грубое предположение состоит в том, что сортировка с пропуском будет работать примерно так же, как сортировка вставкой. Некоторые решения, предлагаемые здесь, в 3 раза быстрее.
Я не получаю "регулярное случайное распределение" - я проверяю каждую возможную комбинацию и определяю минимальную / среднюю / максимальную статистику. Оболочка сортировки представляет собой серию сортирующих вставок с уменьшающимися приращениями, так что окончательное приращение - 1 - выполняет намного меньше работы, чем если бы оно выполнялось само по себе, как при чисто сортировочной вставке. Что касается подсчета тактов, то мой алгоритм требует в среднем 406 тактов, что включает сбор статистики и выполнение двух вызовов самой процедуры сортировки - по одному на каждый пробел. Это на мобильном телефоне Athlon M300, компилятор OpenWatcom.
«регулярное случайное распределение» означает, что каждая комбинация отсортированных фактических данных может иметь разную вероятность. Если каждая комбинация не имеет одинаковой вероятности, ваша статистика будет нарушена, потому что в среднем необходимо учитывать, сколько раз может произойти данное распределение. Для подсчета времени, если вы попробуете любую другую реализацию такого рода (ссылки предоставлены выше) и запустите ее в своей тестовой системе, у нас будет база для сравнения и посмотрим, насколько хорошо работает выбранная вами.
Жизнь слишком коротка для некомментированного исходного кода.
выглядит как пузырьковая сортировка. Потенциально хороший претендент на самую медленную реализацию, но все же может быть интересно узнать, если работа над кодом имеет такое большое значение. Пожалуйста, поместите ваш код в тот же формат, что и другие, поэтому мы можем запустить тест на нем.
@kriss en.wikipedia.org/wiki/Permutation_group Это, конечно, не пузырьковая сортировка: код обнаруживает циклы в данной перестановке и обходит эти циклы, помещая каждый элемент на свое конечное место. Последняя wsort6() имеет правильный интерфейс.
См. Stackoverflow.com/a/48507371/2235885 для объяснения.
@joop: мой плохой, без пузырей на самом деле. При этом в контексте я все еще ожидаю, что код будет намного хуже, чем любая другая текущая реализация. Кстати, решение по ранговому порядку является оптимальным с точки зрения количества свопов, поскольку оно напрямую определяет конечную позицию каждого элемента. Также неясно, работает ли walksort, когда мы снимаем гипотезу, что все отсортированные числа отличаются, как здесь. Для сравнения кода мы должны код трассировки. Также, как я обычно компилирую на компиляторе C ++, код не будет работать, потому что OP вызвал переменную «new» (и это нарушает подсветку синтаксиса).
Метод очень близок к порядку рангов, только окончательные назначения выполняются на месте . Помимо рангов o1..o5 , нет необходимости во втором массиве temp e[6] . И: компилирование кода C на компиляторе C ++ и обвинение кода?
@greybeard: спасибо, я добавил пробел перед #include . Исправлена
Отступы в вашем коде - это нечто иное (попробуйте, например, получить indent (1) для его создания): откуда вы взяли это?
Вариант использования немного отличается от исходного контекста вопроса. С деталями сортировки фиксированной длины значение и подсчет cmp свопов недостаточны. Я бы даже не удивился, если бы это был не фактический тип сортировки, который бы занимал время, а нечто совершенно иное, вызывающее typeof () в init. Я не знаю, как выполнить фактическое время на часах, используя Javascript. Может с узлом?
Это интересно, но не в этом дело. Big-intended предназначен для того, чтобы скрыть постоянные факторы и показать тенденцию, когда размер задачи (n) становится большим. Проблема здесь полностью связана с фиксированным размером задачи (n = 6) и с учетом постоянных факторов.
@ kriss ты прав, мое сравнение асимптотическое, поэтому практическое сравнение покажет, быстрее это или нет для этого случая
Вы не можете сделать вывод, потому что каждый отдельный алгоритм скрывает свою K-мультипликативную константу (а также C-аддитивную константу). то есть: k0, c0 для сортировки вставкой, k1, c1 для сортировки кучи и так далее. Все эти константы на самом деле разные (вы можете сказать в физических терминах, что у каждого алгоритма есть свой собственный «коэффициент трения»), вы не можете заключить, что алгоритм на самом деле быстрее в этом случае (или в любом фиксированном n случае).
Есть 720 заказов, а быстрые версии не превышают 100 циклов. Даже если бы можно было использовать массивный параллелизм, при таком небольшом временном масштабе затраты на создание и синхронизацию потоков, вероятно, превысили бы стоимость только сортировки массивов на одном ядре.
правильно, сбор результатов может быть проблематичным ...

Daniel Stutzbach · Accepted Answer · 2010-05-07T16-59-00.000Z

Для любой оптимизации всегда лучше тестировать, тестировать, тестировать. Я бы попробовал, по крайней мере, сортировку сетей и сортировку вставки. Если бы я держал пари, я бы поместил свои деньги на сортировку вставки, основываясь на прошлом опыте.

Знаете ли вы что-нибудь о входных данных? Некоторые алгоритмы будут работать лучше с некоторыми видами данных. Например, сортировка вставки лучше выполняется для отсортированных или почти отсортированных данных, поэтому это будет лучший выбор, если есть вероятность превышения по сравнению со средним значением почти отсортированных данных.

Опубликованный вами алгоритм похож на сортировку вставки, но похоже, что вы минимизировали количество свопов за счет большего количества сравнений. Однако сравнение гораздо дороже, чем свопы, поскольку ветки могут привести к остановке конвейера команд.

Здесь выполняется реализация сортировки вставки:

static __inline__ int sort6(int *d){
        int i, j;
        for (i = 1; i < 6; i++) {
                int tmp = d[i];
                for (j = i; j >= 1 && tmp < d[j-1]; j--)
                        d[j] = d[j-1];
                d[j] = tmp;
        }
}

Вот как я построил бы сортирующую сеть. Сначала используйте этот сайт для создания минимального набора макросов SWAP для сети соответствующей длины. Обертывание этого в функции дает мне:

static __inline__ int sort6(int * d){
#define SWAP(x,y) if (d[y] < d[x]) { int tmp = d[x]; d[x] = d[y]; d[y] = tmp; }
    SWAP(1, 2);
    SWAP(0, 2);
    SWAP(0, 1);
    SWAP(4, 5);
    SWAP(3, 5);
    SWAP(3, 4);
    SWAP(0, 3);
    SWAP(1, 4);
    SWAP(2, 5);
    SWAP(2, 4);
    SWAP(1, 3);
    SWAP(2, 3);
#undef SWAP
}

+1: хорошо, вы сделали это с 12 обменами, а не с 13 в моей сети, закодированной вручную и эмпирически полученной выше. Я бы дал вам еще +1, если бы мог, за ссылку на сайт, который генерирует сети для вас - теперь в закладки.
Это фантастическая идея для функции сортировки общего назначения, если вы ожидаете, что большинство запросов будут массивами небольшого размера. Используйте инструкцию switch для случаев, которые вы хотите оптимизировать, используя эту процедуру; пусть в случае по умолчанию используется функция сортировки библиотеки.
@Mark У хорошей функции сортировки библиотеки уже есть быстрый путь для небольших массивов. Многие современные библиотеки будут использовать рекурсивную QuickSort или MergeSort, которая переключается на InsertionSort после возврата к n < SMALL_CONSTANT .
@ Даниэль, хорошая мысль; Я должен был подумать об этом. Разве это не означает, что правильный ответ на вопрос заключается в том, чтобы просто использовать библиотечную сортировку?
@Mark: я считаю, что стоимость, которую вы должны заплатить только за вызов библиотечной функции (вместо статической inline), настолько высока, что это наносит ущерб оптимизации библиотеки. Но вы правы, я должен предоставить цифры для простого библиотечного вызова, чтобы дать ориентир.
@Mark Хорошо, функция сортировки библиотеки C требует, чтобы вы указали операцию сравнения с помощью функции-переносчика. Затраты на вызов функции для каждого сравнения огромны. Обычно это все еще самый чистый путь, потому что это редко критический путь в программе. Однако, если это критический путь, мы действительно можем сортировать намного быстрее, если знаем, что сортируем целые числа и ровно 6 из них. :)
Будет ли полезным перемещение int tmp из области действия макроса в область действия функции?
Вы можете полностью избавиться от tmp , используя своп XOR: d[x]^=d[y]; d[y]^=d[x]; d[x]^=d[y];
@tgwh: обмен XOR почти всегда плохая идея.
@JohnnyW: Есть несколько причин - см., Например, этот вопрос и ответ в качестве отправной точки.
Я обнаружил, что замена оператора if в макросе SWAP на двухэлементную сортировку без ветвей (с использованием min / max) удваивает скорость этого кода.