Почему обработка отсортированного массива медленнее, чем не отсортированного массива?

Question

Почему обработка отсортированного массива медленнее, чем не отсортированного массива?

237

У меня есть список из 500000 случайно сгенерированных объектов Tuple<long,long,string>, на которых я выполняю простой "между" поиск:

var data = new List<Tuple<long,long,string>>(500000);
...
var cnt = data.Count(t => t.Item1 <= x && t.Item2 >= x);

Когда я создаю свой случайный массив и запускаю мой поиск 100 произвольно сгенерированных значений x, поиск завершается примерно через четыре секунды. Зная о великих чудесах, которые сортировка делает для поиска, я решил отсортировать мои данные - сначала Item1, затем Item2 и, наконец, Item3 - перед запуском моих 100 запросов. Я ожидал, что отсортированная версия будет выполняться немного быстрее из-за предсказания ветвления: я думал, что как только мы дойдем до точки, где Item1 == x, все дальнейшие проверки t.Item1 <= x будут правильно предсказать ветвь как "не принимать", ускорить вверх по хвостовой части поиска. К моему большому удивлению, поисковые запросы занимали в два раза больше на отсортированном массиве!

Я попытался переключить порядок, в котором я провел эксперименты, и использовал разные семена для генератора случайных чисел, но эффект был таким же: поиск в несортированном массиве выполнялся почти в два раза быстрее, чем поиски в том же массив, но отсортировано!

Есть ли у кого-нибудь хорошее объяснение этого странного эффекта? Исходный код моих тестов следует; Я использую .NET 4.0.

private const int TotalCount = 500000;
private const int TotalQueries = 100;
private static long NextLong(Random r) {
    var data = new byte[8];
    r.NextBytes(data);
    return BitConverter.ToInt64(data, 0);
}
private class TupleComparer : IComparer<Tuple<long,long,string>> {
    public int Compare(Tuple<long,long,string> x, Tuple<long,long,string> y) {
        var res = x.Item1.CompareTo(y.Item1);
        if (res != 0) return res;
        res = x.Item2.CompareTo(y.Item2);
        return (res != 0) ? res : String.CompareOrdinal(x.Item3, y.Item3);
    }
}
static void Test(bool doSort) {
    var data = new List<Tuple<long,long,string>>(TotalCount);
    var random = new Random(1000000007);
    var sw = new Stopwatch();
    sw.Start();
    for (var i = 0 ; i != TotalCount ; i++) {
        var a = NextLong(random);
        var b = NextLong(random);
        if (a > b) {
            var tmp = a;
            a = b;
            b = tmp;
        }
        var s = string.Format("{0}-{1}", a, b);
        data.Add(Tuple.Create(a, b, s));
    }
    sw.Stop();
    if (doSort) {
        data.Sort(new TupleComparer());
    }
    Console.WriteLine("Populated in {0}", sw.Elapsed);
    sw.Reset();
    var total = 0L;
    sw.Start();
    for (var i = 0 ; i != TotalQueries ; i++) {
        var x = NextLong(random);
        var cnt = data.Count(t => t.Item1 <= x && t.Item2 >= x);
        total += cnt;
    }
    sw.Stop();
    Console.WriteLine("Found {0} matches in {1} ({2})", total, sw.Elapsed, doSort ? "Sorted" : "Unsorted");
}
static void Main() {
    Test(false);
    Test(true);
    Test(false);
    Test(true);
}

Populated in 00:00:01.3176257
Found 15614281 matches in 00:00:04.2463478 (Unsorted)
Populated in 00:00:01.3345087
Found 15614281 matches in 00:00:08.5393730 (Sorted)
Populated in 00:00:01.3665681
Found 15614281 matches in 00:00:04.1796578 (Unsorted)
Populated in 00:00:01.3326378
Found 15614281 matches in 00:00:08.6027886 (Sorted)

dasblinkenlight 24 дек. 2012, в 15:26

Источник

15

Из-за предсказания ветвления: p
Soner Gönül 24 дек. 2012, в 17:12
8

@jalf Я ожидал, что отсортированная версия будет работать немного быстрее из-за предсказания перехода. Я думал, что как только мы доберемся до точки, где Item1 == x , все дальнейшие проверки t.Item1 <= x будут правильно предсказывать t.Item1 <= x как «не брать», ускоряя хвостовую часть поиска. Очевидно, что суровая реальность ошибочна:
dasblinkenlight 24 дек. 2012, в 17:20
0

Интересно, что для TotalCount около 10,000 или меньше, отсортированная версия работает быстрее (конечно, тривиально быстрее при этих небольших числах) (к вашему сведению, ваш код может захотеть иметь начальный размер данных var data List = new List<Tuple<long, long, string>>(500000) привязана к TotalCount вместо жесткого кодирования емкости)
Chris Sinclair 24 дек. 2012, в 17:37
1

@ChrisSinclair хорошее наблюдение! Я добавил объяснение в свой ответ.
usr 24 дек. 2012, в 17:43
0

Хочу добавить, что замедление связано именно с фильтрацией списка. Выполнение data.Where() показывает такое же замедление, как и все, что повторяется в отсортированном списке. Работа с отсортированными и несортированными списками без какого-либо фильтра занимает одно и то же время.
Bobson 24 дек. 2012, в 17:43
0

Хотя это немного выходит за рамки вопроса «почему», возможно, стоит отметить, что наибольшим преимуществом предварительной сортировки списка должно быть то, что вы можете использовать BinarySearch () для него и достичь производительности O (log n). на ваших поисках.
Mark Peters 24 дек. 2012, в 19:37
38

Этот вопрос не является дубликатом существующего вопроса здесь. Не голосуйте, чтобы закрыть его как единое целое.
ThiefMaster 25 дек. 2012, в 20:56
0

противоречие stackoverflow.com/q/11227809/992665
Sar009 27 дек. 2012, в 05:54
2

@ Sar009 Совсем нет! Эти два вопроса рассматривают два совершенно разных сценария, вполне естественно, что они дают разные результаты.
dasblinkenlight 27 дек. 2012, в 10:58
1

Не относится к вашему вопросу, но вы создаете класс TupleComparer но это совершенно не нужно, так как Comparer<Tuple<long, long, string>>.Default такое поведение уже есть (из реализации IComparable Tuple<,,> ). Таким образом, вы можете просто использовать data.Sort() без аргументов.
Jeppe Stig Nielsen 09 авг. 2013, в 20:49
1

stackoverflow.com/questions/11227809/… Я удивлен, что там отсортированный массив быстрее
puretppc 26 янв. 2014, в 16:24

Показать ещё 9 комментариев

Теги:

c#

performance

.net

language-agnostic

2 ответа

3

LINQ не знает, отсортирован ли список, или нет.

Так как Count с предикатным параметром является методом расширения для всех IEnumerables, я думаю, что он даже не знает, работает ли он над коллекцией с эффективным случайным доступом. Таким образом, он просто проверяет каждый элемент, и Usr объясняет, почему производительность снижается.

Чтобы использовать преимущества производительности отсортированного массива (например, двоичный поиск), вам нужно будет немного немного кодировать.

Emperor Orionii 25 дек. 2012, в 15:44

5

Я думаю, вы неправильно поняли вопрос: конечно, я не надеялся, что Count или Where «каким-то образом» подхватят идею о том, что мои данные отсортированы, и запустят бинарный поиск вместо простого поиска «все проверят». Все, на что я надеялся, было некоторое улучшение из-за лучшего предсказания ветвления (см. Ссылку в моем вопросе), но, как оказалось, локальность ссылок превосходит предсказание ветвлений.
dasblinkenlight 25 дек. 2012, в 16:12

Ещё вопросы

@jalf Я ожидал, что отсортированная версия будет работать немного быстрее из-за предсказания перехода. Я думал, что как только мы доберемся до точки, где Item1 == x , все дальнейшие проверки t.Item1 <= x будут правильно предсказывать t.Item1 <= x как «не брать», ускоряя хвостовую часть поиска. Очевидно, что суровая реальность ошибочна:
Интересно, что для TotalCount около 10,000 или меньше, отсортированная версия работает быстрее (конечно, тривиально быстрее при этих небольших числах) (к вашему сведению, ваш код может захотеть иметь начальный размер данных var data List = new List<Tuple<long, long, string>>(500000) привязана к TotalCount вместо жесткого кодирования емкости)
@ChrisSinclair хорошее наблюдение! Я добавил объяснение в свой ответ.
Хочу добавить, что замедление связано именно с фильтрацией списка. Выполнение data.Where() показывает такое же замедление, как и все, что повторяется в отсортированном списке. Работа с отсортированными и несортированными списками без какого-либо фильтра занимает одно и то же время.
Хотя это немного выходит за рамки вопроса «почему», возможно, стоит отметить, что наибольшим преимуществом предварительной сортировки списка должно быть то, что вы можете использовать BinarySearch () для него и достичь производительности O (log n). на ваших поисках.
Этот вопрос не является дубликатом существующего вопроса здесь. Не голосуйте, чтобы закрыть его как единое целое.
противоречие stackoverflow.com/q/11227809/992665
@ Sar009 Совсем нет! Эти два вопроса рассматривают два совершенно разных сценария, вполне естественно, что они дают разные результаты.
Не относится к вашему вопросу, но вы создаете класс TupleComparer но это совершенно не нужно, так как Comparer<Tuple<long, long, string>>.Default такое поведение уже есть (из реализации IComparable Tuple<,,> ). Таким образом, вы можете просто использовать data.Sort() без аргументов.
stackoverflow.com/questions/11227809/… Я удивлен, что там отсортированный массив быстрее
Я думаю, вы неправильно поняли вопрос: конечно, я не надеялся, что Count или Where «каким-то образом» подхватят идею о том, что мои данные отсортированы, и запустят бинарный поиск вместо простого поиска «все проверят». Все, на что я надеялся, было некоторое улучшение из-за лучшего предсказания ветвления (см. Ссылку в моем вопросе), но, как оказалось, локальность ссылок превосходит предсказание ветвлений.

usr · Accepted Answer · 2012-12-24T19-18-00.000Z

При использовании несортированного списка все кортежи доступны в порядке памяти. Они были выделены последовательно в ОЗУ. ЦП любят последовательно получать доступ к памяти, поскольку они могут умозрительно запросить следующую строку кэша, чтобы она всегда присутствовала при необходимости.

Когда вы сортируете список, вы помещаете его в случайный порядок, потому что ваши ключи сортировки генерируются случайным образом. Это означает, что доступ к памяти для членов кортежа непредсказуем. ЦП не может предварительно запрограммировать память, и почти каждый доступ к кортежу является пропуском кеша.

Это хороший пример для конкретного преимущества управления памятью GC: структуры данных, которые были распределены вместе и используются вместе, работают очень хорошо. Они имеют большую локальность ссылки.

В этом случае штраф из пропусков кеша перевешивает сохраненный штраф предсказания ветвления.

Попробуйте переключиться на struct -tuple. Это приведет к восстановлению производительности, поскольку во время выполнения во время выполнения не требуется разыменовать указатель, чтобы получить доступ к элементам кортежа.

Крис Синклер отмечает в комментариях, что "для TotalCount около 10 000 или менее отсортированная версия выполняет быстрее". Это связано с тем, что небольшой список полностью помещается в кеш процессора. Доступ к памяти может быть непредсказуемым, но цель всегда находится в кеше. Я считаю, что по-прежнему существует небольшой штраф, потому что даже загрузка из кеша занимает несколько циклов. Но это, похоже, не проблема, потому что процессор может манипулировать несколькими невыполненными нагрузками, тем самым увеличивая пропускную способность. Всякий раз, когда процессор достигает ожидания в памяти, он все равно ускоряется вперед в потоке команд, чтобы поставить в очередь столько операций памяти, сколько может. Этот метод используется для скрытия латентности.

Такое поведение показывает, насколько сложно прогнозировать производительность на современных процессорах. Тот факт, что мы только в 2 раза медленнее при переходе от последовательного к случайному доступу к памяти, подскажет, сколько времени происходит под обложками, чтобы скрыть латентность памяти. Доступ к памяти может остановить CPU на 50-200 циклов. Учитывая, что номер один может ожидать, что программа станет > 10x медленнее при вводе случайных обращений к памяти.

Хорошая причина, почему все, что вы изучаете в C / C ++, не применяется дословно к языку, подобному C #!
Вы можете подтвердить это, вручную скопировав отсортированные данные в new List<Tuple<long,long,string>>(500000) один за другим, перед тестированием этого нового списка. В этом случае отсортированный тест выполняется так же быстро, как и несортированный, что соответствует обоснованию этого ответа.
Отлично, большое спасибо! Я сделал эквивалентную структуру Tuple , и программа начала вести себя так, как я предсказывал: отсортированная версия была немного быстрее. Более того, несортированная версия стала в два раза быстрее! Таким образом, числа со struct не отсортированы по 2 с, а по 1,9.
@Mehrdad: В зависимости от специфики распределителя, последующие значения памяти в C / C ++ также могут быть друг за другом, так что это применимо к некоторому расширению (и вы все еще можете использовать ту же оптимизацию).
Так можем ли мы из этого сделать вывод, что ошибка кэширования вредит больше, чем ошибка ветвления? Я так думаю и всегда так думал. В C ++ std::vector почти всегда работает лучше, чем std::list .
@ Mehrdad: Нет. Это верно и для C ++. Даже в C ++ компактные структуры данных бывают быстрыми. Предотвращение промахов кэша так же важно в C ++, как и в любом другом языке. std::vector против std::list является хорошим примером.
>> Таким образом, числа со структурой равны 2 с несортированными против 1,9 с отсортированными << И при правильном алгоритме (двоичный поиск) поиск по отсортированному массиву снизится до нескольких миллисекунд. Я вижу это как еще одно доказательство того, что правильный алгоритм гораздо важнее, и нужно подумать больше, прежде чем писать код, который выполняет скрытые циклы, такие как этот запрос LINQ.
@usr, мне всегда было интересно, как / где можно узнать о таких внутренних органах?
@StanR. Я подписываюсь на множество блогов и время от времени появляется статья о таких вещах. Я редко учусь на уроках или в книгах. Со временем можно прочитать почти обо всем.
@usr спасибо за ответ, я обычно читаю только блоги Эрика Липперта и Джона Скита. Есть ли у вас какие-либо рекомендации для блогов типа «внутреннее» или «системное программирование», которым интересно следовать?
@StanR. У меня есть сотни в моем Feedly, и ни один из них не является существенным. Просто добавьте каждый хороший блог, который вы встретите. Следить за «блогом» тоже иногда хорошая идея.
Вы можете добавить еще один пункт. В системах с большой памятью (Free RAM >> List Size) динамическое выделение будет пытаться заполнить одну и ту же страницу, тем самым скрывая эту задержку.