Что быстрее: выделение стека или выделение кучи

Question

Что быстрее: выделение стека или выделение кучи

405

Этот вопрос может звучать довольно элементарно, но это дискуссия, с которой я работал с другим разработчиком, с которым я работаю.

Я старался, чтобы стек выделял вещи, где мог, вместо кучи, выделяя их. Он разговаривал со мной и наблюдал за моим плечом и прокомментировал, что это не обязательно, потому что они одинаковы для исполнения.

У меня всегда создавалось впечатление, что рост стека был постоянным временем, а производительность распределения кучи зависела от текущей сложности кучи как для распределения (нахождения отверстия надлежащего размера), так и для выделения (свертывание отверстий для уменьшения фрагментация, так как многие стандартные реализации библиотеки требуют времени, чтобы сделать это во время удаления, если я не ошибаюсь).

Это поражает меня как нечто, что, вероятно, будет очень зависимым от компилятора. Для этого проекта, в частности, я использую компилятор Metrowerks для PPC. Проницательность в этой комбинации была бы наиболее полезной, но, в общем, для GCC и MSVС++, в чем дело? Является ли распределение кучи не столь высоким, как распределение стека? Разве нет разницы? Или это разница, так что минута становится бессмысленной микрооптимизацией.

Adam 02 окт. 2008, в 05:35

Источник

0

почему бы просто не заменить пустой e; с чем-то вроде int j = i; это обеспечило бы распределение стека.
sactiw 10 авг. 2010, в 16:13
0

распределение стека происходит намного быстрее.
Master Yoda 17 авг. 2010, в 20:56
9

Я знаю, что это довольно древнее, но было бы неплохо увидеть некоторые фрагменты C / C ++, демонстрирующие различные виды распределения.
Joseph Weissman 05 июнь 2011, в 15:48
37

Твоя корова-оркер ужасно невежественна, но, что более важно, он опасен, потому что он делает авторитетные заявления о вещах, о которых он ужасно невежествен Исключите таких людей из вашей команды как можно быстрее.
Jim Balter 19 май 2013, в 00:57
5

Обратите внимание, что куча обычно намного больше стека. Если вам выделены большие объемы данных, вам действительно нужно поместить их в кучу, иначе измените размер стека из ОС.
Paul Draper 04 нояб. 2013, в 06:00
1

Все оптимизации, если у вас нет тестов или аргументов сложности, доказывающих обратное, по умолчанию бессмысленные микрооптимизации.
Björn Lindqvist 03 окт. 2016, в 15:49
1

Интересно, имеет ли ваш коллега опыт работы с Java или C #? В этих языках почти все выделено кучей под капотом, что может привести к таким предположениям.
Cort Ammon 25 сен. 2018, в 18:31
0

Соответствующий (для любого языка): как стек работает на ассемблере? , Когда кто-то знает, что такое стек, становится очевидным, что выделение кучи не может быть быстрее.
Alexander Malakhov 09 окт. 2018, в 17:12

Показать ещё 6 комментариев

Теги:

c++

performance

memory

stack

heap

23 ответа

138

Стек намного быстрее. Он в буквальном смысле использует только одну инструкцию для большинства архитектур, в большинстве случаев, например. на x86:

sub esp, 0x10

(Это перемещает указатель стека вниз на 0x10 байт и тем самым "распределяет" эти байты для использования переменной.)

Конечно, размер стека очень, очень конечный, так как вы быстро узнаете, злоупотребляете ли вы распределением стека или пытаетесь выполнить рекурсию: -)

Кроме того, есть небольшая причина для оптимизации производительности кода, который не нуждается в его проверке, например, с помощью профилирования. "Преждевременная оптимизация" часто вызывает больше проблем, чем стоит.

Мое эмпирическое правило: если я знаю, что мне понадобятся некоторые данные во время компиляции, и он размером несколько сотен байт, я его выложу в стек. В противном случае я куча-выделим его.

Dan Lenski 02 окт. 2008, в 07:48

20

Одна инструкция, которая обычно используется ВСЕМИ объектами в стеке.
MSalters 03 окт. 2008, в 15:32
9

Сделано правильно, особенно то, что оно действительно нужно. Я постоянно удивляюсь тому, как беспокойство людей по поводу производительности неуместно.
Mike Dunlavey 27 янв. 2009, в 20:29
6

«Распределение» также очень просто и выполняется с помощью инструкции по leave .
doc 28 июль 2010, в 21:23
13

Не забывайте о «скрытой» стоимости, особенно когда вы впервые расширяете стек. Это может привести к сбою страницы, переключению контекста на ядро, которое должно выполнить некоторую работу по выделению памяти (или, в худшем случае, загрузить ее из swap).
nos 17 авг. 2010, в 20:41
1

В некоторых случаях вы можете даже выделить его с 0 инструкциями. Если известна некоторая информация о том, сколько байтов должно быть выделено, компилятор может выделить их заранее, одновременно с распределением других переменных стека. В этих случаях вы вообще ничего не платите!
Cort Ammon 25 сен. 2018, в 18:30
0

@cortammon, я думаю, что и этот комментарий имел в виду.
Dan Lenski 25 сен. 2018, в 18:59

Показать ещё 4 комментария

104

Честно говоря, тривиально написать программу для сравнения производительности:

#include <ctime>
#include <iostream>

namespace {
    class empty { }; // even empty classes take up 1 byte of space, minimum
}

int main()
{
    std::clock_t start = std::clock();
    for (int i = 0; i < 100000; ++i)
        empty e;
    std::clock_t duration = std::clock() - start;
    std::cout << "stack allocation took " << duration << " clock ticks\n";
    start = std::clock();
    for (int i = 0; i < 100000; ++i) {
        empty* e = new empty;
        delete e;
    };
    duration = std::clock() - start;
    std::cout << "heap allocation took " << duration << " clock ticks\n";
}

В нем говорилось, что глупая консистенция - это хобгоблин маленьких умов. По-видимому, оптимизация компиляторов - это хоббиглины умов многих программистов. Это обсуждение находилось в основе ответа, но люди, по-видимому, не могут потрудиться, чтобы это прочесть, поэтому я перехожу сюда, чтобы избежать вопросов, на которые я уже ответил.

Оптимизирующий компилятор может заметить, что этот код ничего не делает и может оптимизировать все это. Это работа оптимизатора, чтобы делать такие вещи, и борьба с оптимизатором - это безумное поручение.

Я бы рекомендовал компилировать этот код с отключенной оптимизацией, потому что нет хорошего способа обмануть каждый оптимизатор, который в настоящее время используется или который будет использоваться в будущем.

Любой, кто включит оптимизатор, а затем жалуется на борьбу с ним, должен подвергаться публичным насмешкам.

Если бы я заботился о наносекундной точности, я бы не использовал std::clock(). Если бы я хотел опубликовать результаты в качестве докторской диссертации, я бы сделал большую сделку по этому поводу, и я бы, вероятно, сравнил GCC, Tendra/Ten15, LLVM, Watcom, Borland, Visual С++, Digital Mars, ICC и другие компиляторы. Как бы то ни было, распределение кучи требуется в сотни раз дольше, чем распределение стека, и я не вижу ничего полезного в дальнейшем изучении вопроса.

У оптимизатора есть задача избавиться от кода, который я тестирую. Я не вижу причин, чтобы сказать, что оптимизатор запускается, а затем попытаться обмануть оптимизатора, фактически не оптимизируя. Но если бы я увидел ценность при этом, я бы сделал одно или несколько из следующего:

Добавить элемент данных в empty и получить доступ к этому элементу данных в цикле; но если я только когда-либо прочитал из элемента данных, оптимизатор может делать постоянную фальцовку и удалять петлю; если я только когда-либо напишу члену данных, оптимизатор может пропустить все, кроме самой последней итерации цикла. Кроме того, вопрос заключался не в "распределении стека и доступе к данным против распределения кучи и доступа к данным".
Объявить e volatile, но volatile часто компилируется неправильно (PDF).
Возьмите адрес e внутри цикла (и, возможно, назначьте его переменной, объявленной extern и определенной в другом файле). Но даже в этом случае компилятор может заметить, что - в стеке по крайней мере - e всегда будет выделяться по одному и тому же адресу памяти, а затем делать постоянную фальцовку, как в (1) выше. Я получаю все итерации цикла, но объект никогда не выделяется.

Помимо очевидного, этот тест является ошибочным в том, что он измеряет как распределение, так и освобождение, а исходный вопрос не спрашивает об освобождении. Конечно, переменные, выделенные в стеке, автоматически освобождаются в конце своей области, поэтому не вызывать delete будет (1) перекосить числа (освобождение стека включено в числа о распределении стека, поэтому справедливо оценивать освобождение кучи ) и (2) вызывают довольно плохую утечку памяти, если мы не сохраним ссылку на новый указатель и не позвоним delete после того, как у нас получится измерение времени.

На моей машине, используя g++ 3.4.4 в Windows, я получаю "0 тактов" для распределения стека и кучи для чего-либо менее 100000 распределений, и даже тогда я получаю "0 тактов времени" для распределения стека и "15 тактов" для распределения кучи. Когда я измеряю 10 000 000 распределений, распределение стека занимает 31 такт, а распределение кучи занимает 1562 такта.

Да, оптимизирующий компилятор может ускорить создание пустых объектов. Если я правильно понимаю, он может даже превысить весь первый цикл. Когда я натолкнулся на итерации до 10 000 000 распределений стека, ушло 31 такт, а распределение кучи заняло 1562 такта. Я с уверенностью могу сказать, что, не указав g++ для оптимизации исполняемого файла, g++ не исключил конструкторы.

За годы, прошедшие с того момента, как я написал это, предпочтение от Qaru заключалось в том, чтобы опубликовать производительность из оптимизированных сборок. В общем, я думаю, что это правильно. Тем не менее, я по-прежнему считаю глупым попросить компилятор оптимизировать код, когда вы на самом деле не хотите, чтобы этот код оптимизирован. Мне кажется, что я очень похож на оплату дополнительной парковки автомобилей, но отказываюсь сдавать ключи. В этом конкретном случае я не хочу, чтобы оптимизатор работал.

Использование слегка измененной версии эталона (для того, чтобы адресовать действительную точку, в которой исходная программа не выделяла что-либо в стеке каждый раз через цикл) и компиляции без оптимизации, но связываясь с релизными библиотеками (для обращения к действительной точке что мы не хотим включать замедление, вызванное связыванием с библиотеками отладки):

#include <cstdio>
#include <chrono>

namespace {
    void on_stack()
    {
        int i;
    }

    void on_heap()
    {
        int* i = new int;
        delete i;
    }
}

int main()
{
    auto begin = std::chrono::system_clock::now();
    for (int i = 0; i < 1000000000; ++i)
        on_stack();
    auto end = std::chrono::system_clock::now();

    std::printf("on_stack took %f seconds\n", std::chrono::duration<double>(end - begin).count());

    begin = std::chrono::system_clock::now();
    for (int i = 0; i < 1000000000; ++i)
        on_heap();
    end = std::chrono::system_clock::now();

    std::printf("on_heap took %f seconds\n", std::chrono::duration<double>(end - begin).count());
    return 0;
}

отображается:

on_stack took 2.070003 seconds
on_heap took 57.980081 seconds

в моей системе при компиляции с командной строкой cl foo.cc /Od /MT /EHsc.

Вы можете не согласиться с моим подходом к получению не оптимизированной сборки. Это прекрасно: не стесняйтесь модифицировать бенчмарк столько, сколько хотите. Когда я включаю оптимизацию, я получаю:

on_stack took 0.000000 seconds
on_heap took 51.608723 seconds

Не потому, что распределение стека фактически мгновенно, но потому, что любой полупристойный компилятор может заметить, что on_stack не делает ничего полезного и может быть оптимизирован. GCC на моем ноутбуке Linux также замечает, что on_heap не делает ничего полезного и оптимизирует его:

on_stack took 0.000003 seconds
on_heap took 0.000002 seconds

on_stack took 0.000003 seconds
on_heap took 0.000002 seconds

Max Lybbert 02 окт. 2008, в 19:14

0

Ваш пример ошибочен: любой порядочный компилятор собирается вынести «пустую строку» из 3-й строки (основной подпункт) на этапах устранения общего подвыражения и устранения мертвого кода. Лучше сделать это внутри функции и вызвать ее из цикла. Вероятно, вы должны сделать то же самое для стека.
Joe Pineda 02 окт. 2008, в 19:37
2

Кроме того, вы должны добавить «калибровочный» цикл в самом начале вашей основной функции, что-то, чтобы дать вам представление о том, сколько времени вы получаете на цикл, и настроить другие циклы так, чтобы ваш пример работал для некоторое количество времени, вместо фиксированной константы, которую вы используете.
Joe Pineda 02 окт. 2008, в 19:40
0

Цикл калибровки: если он работает слишком коротко, ваши результаты не будут статистически значимыми. Когда вы перевели его на 10 миллионов, вы получили значительные результаты. Тем не менее, на моем старом 386 оригинальных 100K было бы более чем достаточно для этой задачи, следовательно, необходимость в калибровочном контуре.
Joe Pineda 02 окт. 2008, в 21:30
2

Я также рад, что увеличение количества циклов выполнения каждого опционного цикла (плюс указание g ++ не оптимизировать?) Дало существенные результаты. Так что теперь у нас есть веские факты, чтобы сказать, что стек быстрее. Спасибо за ваши старания!
Joe Pineda 02 окт. 2008, в 21:33
1

То, что вы утверждаете, неправильно . Компилятор не будет выдавать никакого кода для увеличения стека для вашего пустого класса. Я скомпилировал ваш исходный код без оптимизации под VS 2005 и разобрал исполняемый файл с IDA - никакого выделения стека вообще.
newgre 02 март 2009, в 01:10
0

Я утверждаю, что (1) тестовая программа тривиальна, и (2) GCC обладает такими характеристиками производительности. Стандарт C ++ требует, чтобы объекты занимали как минимум один байт пространства; если Microsoft не следует стандарту, я уверен, что вы сможете выяснить, как заставить объект занимать место.
Max Lybbert 02 март 2009, в 08:21
0

В ответе также говорилось: «Чтобы быть в безопасности, можно было бы добавить поле к пустому ... и получить доступ к этому полю. ... Взятие адреса e также сработало бы, и« должно »взять то же количество» времени в обеих петлях. " Я нахожу странным, что вы разобрали exe, но не прочитали весь ответ.
Max Lybbert 02 март 2009, в 08:25
0

Ну, то же самое для GCC, по крайней мере, с включенной оптимизацией - нет выделения стека, даже с дополнительными полями
newgre 03 март 2009, в 23:34
0

Вот почему я выключил оптимизацию. Я не пытаюсь найти лучшие результаты по времени. Я не собираюсь публиковать результаты в рамках докторской диссертации. Я просто хотел продемонстрировать, что malloc в сотни раз медленнее, чем выделение стека.
Max Lybbert 04 март 2009, в 07:08
7

Задача оптимизатора - избавиться от такого кода. Есть ли веская причина, чтобы включить оптимизатор, а затем не допустить его оптимизации? Я отредактировал ответ, чтобы сделать вещи еще яснее: если вам нравится сражаться с оптимизатором, будьте готовы узнать, насколько умны авторы компиляторов.
Max Lybbert 04 март 2009, в 07:50
1

Вы размещаете объект в стеке только один раз. Чтобы выделить 10000 объектов, вам нужно сделать пустой массив [10000];
erikkallen 22 дек. 2009, в 23:56
3

Я опаздываю, но также стоит упомянуть, что выделение кучи запрашивает память через ядро, поэтому снижение производительности также сильно зависит от эффективности ядра. Использование этого кода с Linux (Linux 3.10.7-gentoo # 2 SMP Wed Sep 4 18:58:21 MDT 2013 x86_64), изменение таймера HR и использование 100 миллионов итераций в каждом цикле приводит к такой производительности: stack allocation took 0.15354 seconds, heap allocation took 0.834044 seconds с установленным параметром -O0 , что делало распределение кучи в Linux только медленнее примерно в 5,5 раз на моей конкретной машине.
Taywee 13 окт. 2013, в 12:06
4

В окнах без оптимизации (сборка отладки) он будет использовать кучу отладки, которая намного медленнее, чем куча без отладки. Я не считаю плохой идеей «обмануть» оптимизатор вообще. Авторы компиляторов умны, но компиляторы не ИИ.
paulm 11 май 2014, в 01:06
0

@paulm: Глядя на параметры для cl.exe ( msdn.microsoft.com/en-us/library/19z1t1wy.aspx ), я полагаю, что можно отключить оптимизации ( /Od ) при связывании со временем выполнения выпуска ( /MT ).
Max Lybbert 11 май 2014, в 04:55
1

Если вы измените on_stack () на 100 переменных, его время будет таким же. Но внесение того же изменения в on_heap () сделает его в 100 раз медленнее.
brian beuning 10 июль 2016, в 19:40
0

@brianbeuning: это хороший момент. Возможно, я должен был alloca 100 раз.
Max Lybbert 11 июль 2016, в 19:46
0

Микробенчмаркинг это сложно. Вы не можете просто отключить оптимизацию, потому что это дает вам нереалистичный код генерации: например, сохранение счетчика циклов в памяти, чтобы вы были узким местом на 1 итерации за ~ 6 тактов, с задержкой пересылки из магазина. Вы определенно хотите, чтобы оптимизатор оптимизировал все, что вы не измеряете, и заставлял его выполнять ту работу, которую вы действительно хотите измерить. например, поместите вашу целевую функцию в отдельный файл и отключите оптимизацию во время компоновки или используйте [noinline] для функций. Вам может понадобиться volatile . Обычно вам нужно проверить asm, чтобы убедиться, что вы получили то, что хотели.
Peter Cordes 12 июнь 2018, в 20:36
0

См. gcc -O0 оптимизации цикла C для окончательного назначения, чтобы gcc -O0 больше о том, почему отладочные сборки gcc -O0 нелепы. Это даже не близко к линейному замедлению, которое одинаково влияет на весь код. См. Добавление избыточного назначения, ускоряющего код при компиляции без оптимизации, для случая, когда это приводит к сверхъестественным результатам из-за причуд задержек при пересылке из магазина в семействе Sandybridge.
Peter Cordes 12 июнь 2018, в 20:41

Показать ещё 16 комментариев

25

Интересная вещь, которую я узнал о Stack vs. Heap Allocation на Xbox 360 Xenon-процессоре, который также может применяться к другим многоядерным системам, заключается в том, что выделение в куче вызывает критический раздел для остановки всех остальных ядер, так что это не конфликтует. Таким образом, в замкнутой петле, Stack Allocation был способом пойти для массивов фиксированного размера, поскольку это предотвращало ларьки.

Это может быть еще одно ускорение для рассмотрения, если вы кодируете multicore/multiproc, поскольку выделение стека будет доступно только для ядра, использующего вашу ограниченную функцию, и это не повлияет на другие ядра/процессоры.

Furious Coder 02 март 2009, в 03:05

4

Это верно для большинства многоядерных машин, а не только для ксенона. Даже Cell должен делать это, потому что вы можете запустить два аппаратных потока на этом ядре PPU.
Crashworks 02 март 2009, в 02:21
14

Это эффект (особенно плохой) реализации распределителя кучи. Лучшим распределителям кучи не нужно получать блокировку при каждом выделении.
Chris Dodd 26 окт. 2009, в 17:50

16

Вы можете написать специальный распределитель кучи для конкретных размеров объектов, которые очень эффективны. Однако общий распределитель кучи не особенно эффективен.

Также я согласен с Torbjörn Gyllebring о ожидаемом сроке жизни объектов. Хорошая точка!

Chris Jester-Young 02 окт. 2008, в 07:26

1

Это иногда называют распределением плит.
Benoit 24 июль 2013, в 08:41

6

Помимо преимуществ производительности по порядку величины по сравнению с распределением кучи, распределение стека предпочтительнее для длинных серверных приложений. Даже самые лучшие управляемые кучи в конечном итоге настолько фрагментированы, что производительность приложения ухудшается.

Jay 26 окт. 2009, в 17:45

5

Я не думаю, что распределение стека и распределение кучи обычно взаимозаменяемы. Я также надеюсь, что производительность обоих из них достаточна для общего использования.

Я бы настоятельно рекомендовал для небольших предметов, в зависимости от того, какой из них более подходит для области распределения. Для больших предметов куча, вероятно, необходима.

В 32-разрядных операционных системах, которые имеют несколько потоков, стеки часто довольно ограничены (хотя обычно, по крайней мере, несколько мб), поскольку адресное пространство должно быть вырезано, и рано или поздно один поток стека будет запущен в другой, В однопоточных системах (Linux glibc однопоточно) ограничение намного меньше, потому что стек может просто расти и расти.

В 64-разрядных операционных системах достаточно адресного пространства, чтобы сделать стеки потоков довольно большими.

MarkR 02 окт. 2008, в 07:58

5

Обычно распределение стека состоит только из вычитания из регистра указателя стека. Это намного больше, чем поиск кучи.

Иногда для распределения стека требуется добавить страницы (-и) виртуальной памяти. Добавление новой страницы обнуленной памяти не требует чтения страницы с диска, поэтому обычно это будет на несколько тонн быстрее, чем поиск кучи (особенно если часть кучи выгружалась тоже). В редкой ситуации, и вы могли бы построить такой пример, достаточно места, просто оказывается доступным в части кучи, которая уже находится в ОЗУ, но выделение новой страницы для стека должно ждать, когда какая-нибудь другая страница будет выписана на диск. В этой редкой ситуации куча быстрее.

Windows programmer 02 окт. 2008, в 06:46

0

Я не думаю, что куча "обыскивается", если она не разбита на страницы. Уверен, что твердотельная память использует мультиплексор и может получить прямой доступ к памяти, следовательно, к памяти с произвольным доступом.
Joe Phillips 02 окт. 2008, в 17:01
4

Вот пример. Вызывающая программа просит выделить 37 байтов. Функция библиотеки ищет блок размером не менее 40 байтов. Первый блок в свободном списке имеет 16 байтов. Второй блок в свободном списке имеет 12 байтов. Третий блок имеет 44 байта. Библиотека прекращает поиск в этой точке.
Windows programmer 02 окт. 2008, в 23:34

3

Выделение стека - это пара инструкций, тогда как самый быстрый известный мне распределитель кучи rtos (TLSF) использует в среднем порядка 150 инструкций. Кроме того, для распределения стека не требуется блокировка, потому что они используют локальное хранилище потоков, что является еще одним огромным выигрышем в производительности. Таким образом, распределение стека может быть на 2-3 порядка быстрее в зависимости от того, насколько сильно многопоточная среда.

В общем случае распределение кучи является вашим последним средством, если вы заботитесь о производительности. Жизнеспособный промежуточный вариант может быть фиксированным распределителем пула, который также является лишь инструкциями пары и имеет очень мало ресурсов для распределения, поэтому он отлично подходит для небольших объектов фиксированного размера. С другой стороны, он работает только с объектами фиксированного размера, по своей сути не является потокобезопасным и имеет проблемы фрагментации блоков.

Andrei Pokrovsky 17 авг. 2010, в 21:31

3

Распределение стека почти всегда будет таким же быстрым или быстрым, чем распределение кучи, хотя для кучного распределителя, конечно, возможно просто использовать технику выделения на основе стека.

Тем не менее, существуют большие проблемы при работе с общей производительностью стека и распределения на основе кучи (или в несколько лучших условиях, локальное и внешнее распределение). Обычно распределение кучи (внешнего) происходит медленно, поскольку оно имеет дело со многими различными типами распределения и шаблонами распределения. Уменьшение объема используемого вами распределителя (что делает его локальным для алгоритма/кода) будет способствовать повышению производительности без каких-либо серьезных изменений. Добавление лучшей структуры к вашим шаблонам распределения, например, принудительное упорядочение LIFO по парам распределения и освобождения может также улучшить производительность распределителя, используя распределитель более простым и структурированным способом. Или вы можете использовать или написать распределитель, настроенный для вашего конкретного шаблона распределения; большинство программ часто выделяют несколько дискретных размеров, поэтому куча, основанная на буфере просмотра нескольких фиксированных (предпочтительно известных) размеров, будет работать очень хорошо. По этой причине Windows использует свою низкоразрушающую кучу.

С другой стороны, распределение на основе стека в 32-битном диапазоне памяти также чревато опасностью, если у вас слишком много потоков. Для стеков требуется непрерывный диапазон памяти, поэтому чем больше потоков у вас есть, тем больше виртуального пространства адресов вам потребуется для запуска без. Это не будет проблемой (на данный момент) с 64-разрядной версией, но это может привести к хаосу в длинных программах с большим количеством потоков. Запуск виртуального адресного пространства из-за фрагментации - это всегда боль, с которой приходится иметь дело.

MSN 10 авг. 2010, в 17:07

0

Я не согласен с вашим первым предложением.
brian beuning 10 июль 2016, в 19:52

3

Это не более быстрое распределение стека. Вы также много выиграете от использования переменных стека. У них лучшая локальность ссылок. И, наконец, освобождение намного дешевле.

MSalters 03 окт. 2008, в 16:22

3

Стек имеет ограниченную емкость, а куча - нет. Типичный стек для процесса или потока составляет около 8K. Вы не можете изменить размер после его выделения.

Переменная стека следует правилам охвата, а кучи - нет. Если указатель инструкции выходит за пределы функции, все новые переменные, связанные с этой функцией, уходят.

Самое главное, вы не можете заранее предсказать общую цепочку вызовов функций. Таким образом, выделение всего 200 байтов с вашей стороны может привести к переполнению стека. Это особенно важно, если вы пишете библиотеку, а не приложение.

yogman 02 окт. 2008, в 17:16

0

Объем виртуального адресного пространства, выделенного для стека пользовательского режима в современной ОС, скорее всего, будет по крайней мере 64 КБ или больше (1 МБ в Windows). Вы говорите о размерах стека ядра?
bk1e 03 окт. 2008, в 03:19
0

На моей машине размер стека по умолчанию для процесса составляет 8 МБ, а не КБ. Сколько лет вашему компьютеру?
Greg Rogers 28 янв. 2009, в 14:27
1

Это был мобильный телефон.
yogman 30 янв. 2009, в 06:00

Показать ещё 1 комментарий

3

Вероятно, самая большая проблема распределения кучи по сравнению с распределением стека заключается в том, что распределение кучи в общем случае является неограниченной операцией, и поэтому вы не можете использовать его там, где время является проблемой.

Для других приложений, где время не является проблемой, это может быть не так важно, но если вы куча выделяете много, это повлияет на скорость выполнения. Всегда старайтесь использовать стек для короткой жизни и часто выделяемой памяти (например, в циклах) и, насколько это возможно, - распределять кучи во время запуска приложения.

larsivi 02 окт. 2008, в 08:59

3

Я думаю, что жизненное время имеет решающее значение, и нужно ли строить сложную вещь. Например, при моделировании, основанном на транзакциях, вам обычно необходимо заполнить и передать структуру транзакций с кучей полей для функций работы. Посмотрите на стандарт OSCI SystemC TLM-2.0 для примера.

Выделение их в стеке близко к вызову операции приводит к огромным накладным расходам, поскольку строительство дорого. Хороший способ состоит в том, чтобы выделять кучу и повторно использовать объекты транзакции путем объединения или простой политики, например, "для этого модуля требуется только один объект транзакции".

Это во много раз быстрее, чем выделение объекта при каждом вызове операции.

Причина в том, что объект имеет дорогостоящую конструкцию и довольно долгий полезный срок службы.

Я бы сказал: попробуйте оба и посмотрите, что лучше всего работает в вашем случае, потому что это действительно может зависеть от поведения вашего кода.

jakobengblom2 02 окт. 2008, в 07:38

2

class Foo {
public:
    Foo(int a) {

    }
}
int func() {
    int a1, a2;
    std::cin >> a1;
    std::cin >> a2;

    Foo f1(a1);
    __asm push a1;
    __asm lea ecx, [this];
    __asm call Foo::Foo(int);

    Foo* f2 = new Foo(a2);
    __asm push sizeof(Foo);
    __asm call operator new;//there a lot instruction here(depends on system)
    __asm push a2;
    __asm call Foo::Foo(int);

    delete f2;
}

Это было бы так в asm. Когда вы находитесь в func, f1 и указатель f2 были выделены в стеке (автоматическое хранилище). И, кстати, Foo f1(a1) не имеет эффектов для команд на указателе стека (esp), он был выделен, если func хочет получить член f1, то инструкция выглядит примерно так: lea ecx [ebp+f1], call Foo::SomeFunc(). Другая вещь, которую выделяет стек, может заставить кого-то подумать, что память похожа на FIFO, FIFO только что произошло, когда вы переходите к какой-либо функции, если вы находитесь в функции и выделяете что-то вроде int i = 0, никакого нажатия не произошло.

bitnick 05 май 2015, в 03:26

2

распределение стека выполняется намного быстрее.

Master Yoda 17 авг. 2010, в 22:34

2

Существует общая точка зрения о таких оптимизациях.

Оптимизация, которую вы получаете, пропорциональна количеству времени, в течение которого счетчик программ фактически находится в этом коде.

Если вы попробуете счетчик программ, вы узнаете, где он проводит свое время, и это обычно находится в крошечной части кода, и часто в библиотечных программах вы не контролируете.

Только если вы обнаружите, что он тратит много времени на выделение кучи ваших объектов, будет заметно быстрее их размещение в стеке.

Mike Dunlavey 27 янв. 2009, в 22:07

1

Обратите внимание, что соображения, как правило, не касаются скорости и производительности при выборе стека и распределения кучи. Стек действует как стек, что означает, что он хорошо подходит для нажатия блоков и повторения их снова, последний раз, сначала. Выполнение процедур также похоже на стек, последняя введенная процедура сначала должна быть завершена. В большинстве языков программирования все переменные, необходимые в процедуре, будут видны только во время выполнения процедуры, поэтому их вводят при вводе процедуры и выталкивают стек при выходе или возврате.

Теперь для примера, где стек нельзя использовать:

Proc P
{
  pointer x;
  Proc S
  {
    pointer y;
    y = allocate_some_data();
    x = y;
  }
}

Если вы выберете некоторую память в процедуре S и поместите ее в стек, а затем выйдете из S, выделенные данные будут удалены из стека. Но переменная x в P также указывала на эти данные, поэтому x теперь указывает на какое-то место под указателем стека (предположим, что стек растет вниз) с неизвестным контентом. Содержимое может все еще присутствовать, если указатель стека просто перемещается вверх, не очищая данные под ним, но если вы начнете выделять новые данные в стеке, указатель x может фактически указывать на эти новые данные.

Kent Munthe Caspersen 07 июнь 2013, в 10:08

1

Как говорили другие, распределение стека обычно намного быстрее.

Однако, если ваши объекты дорого копировать, выделение в стеке может привести к огромной производительности, которую вы получите позже, когда используете объекты, если вы не будете осторожны.

Например, если вы выделяете что-то в стеке, а затем помещаете его в контейнер, было бы лучше выделить в куче и сохранить указатель в контейнере (например, с помощью std:: shared_ptr < > ), То же самое верно, если вы передаете или возвращаете объекты по значению и другие подобные сценарии.

Дело в том, что, хотя распределение стеков обычно лучше, чем распределение кучи во многих случаях, иногда, если вы избегаете своего пути к стеку, выделяете, когда он не подходит для модели вычисления, это может вызвать больше проблем, чем это решает.

wjl 05 июнь 2011, в 16:54

1

В общем случае распределение стека выполняется быстрее, чем распределение кучи, как упоминалось почти в каждом ответе выше. Выталкивание или выпадение стека O (1), тогда как выделение или освобождение от кучи может потребовать перехода предыдущих распределений. Однако вы не должны выделяться в жестких, интенсивных циклах, поэтому выбор обычно сводится к другим факторам.

Возможно, было бы хорошо сделать это различие: вы можете использовать "распределитель стека" в куче. Строго говоря, я беру выделение стека для обозначения фактического метода распределения, а не местоположения выделения. Если вы выделяете много материала в стеке фактических программ, это может быть плохо по целому ряду причин. С другой стороны, использование метода стека для выделения в куче, когда это возможно, является лучшим выбором, который вы можете сделать для метода распределения.

Поскольку вы упомянули Metrowerks и PPC, я предполагаю, что вы имеете в виду Wii. В этом случае память имеет премиум-память и, используя метод распределения стека, гарантирует, что вы не тратите память на фрагменты. Конечно, для этого требуется гораздо больше внимания, чем "обычные" методы распределения кучи. Разумно оценить компромиссы для каждой ситуации.

Dan Olson 02 март 2009, в 03:33

1

Ранее упоминалось, что распределение стека просто перемещает указатель стека, то есть одну инструкцию на большинстве архитектур. Сравните это с тем, что обычно происходит в случае выделения кучи.

Операционная система поддерживает части свободной памяти как связанный список с данными полезной нагрузки, состоящими из указателя на начальный адрес свободной части и размера свободной части. Чтобы выделить X-байты памяти, список ссылок перемещается, и каждая заметка посещается в последовательности, проверяя, является ли ее размер как минимум X. Когда найдена часть с размером P >= X, P разбивается на две части с размеры X и PX. Связанный список обновляется, и возвращается указатель на первую часть.

Как вы можете видеть, распределение кучи зависит от возможных факторов, таких как объем памяти, который вы запрашиваете, как фрагментирована память и т.д.

Nikhil 02 март 2009, в 02:17

0

Никогда не делайте преждевременных предположений, поскольку другой код приложения и использование могут повлиять на вашу функцию. Таким образом, просмотр функции - изоляция бесполезна.

Если вы серьезно относитесь к приложению, тогда VTune его или используйте любой аналогичный инструмент для профилирования и посмотрите на горячие точки.

Кетан

Ketan 04 фев. 2009, в 17:42

-1

Я бы хотел сказать, что на самом деле генерируется код GCC (я также помню VS). не имеет накладных расходов для размещения стека.

Произнесите следующую функцию:

  int f(int i)
  {
      if (i > 0)
      {   
          int array[1000];
      }   
  }

Ниже приводится генерация кода:

  __Z1fi:
  Leh_func_begin1:
      pushq   %rbp
  Ltmp0:
      movq    %rsp, %rbp
  Ltmp1:
      subq    $**3880**, %rsp <--- here we have the array allocated, even the if doesn't excited.
  Ltmp2:
      movl    %edi, -4(%rbp)
      movl    -8(%rbp), %eax
      addq    $3880, %rsp
      popq    %rbp
      ret 
  Leh_func_end1:

Итак, сколько у вас локальной переменной (даже внутри if или switch), только 3880 изменится на другое значение. Если у вас не было локальной переменной, эту инструкцию просто нужно выполнить. Поэтому выделение локальной переменной не имеет накладных расходов.

ZijingWu 24 июль 2013, в 08:44

Ещё вопросы

почему бы просто не заменить пустой e; с чем-то вроде int j = i; это обеспечило бы распределение стека.
распределение стека происходит намного быстрее.
Я знаю, что это довольно древнее, но было бы неплохо увидеть некоторые фрагменты C / C ++, демонстрирующие различные виды распределения.
Твоя корова-оркер ужасно невежественна, но, что более важно, он опасен, потому что он делает авторитетные заявления о вещах, о которых он ужасно невежествен Исключите таких людей из вашей команды как можно быстрее.
Обратите внимание, что куча обычно намного больше стека. Если вам выделены большие объемы данных, вам действительно нужно поместить их в кучу, иначе измените размер стека из ОС.
Все оптимизации, если у вас нет тестов или аргументов сложности, доказывающих обратное, по умолчанию бессмысленные микрооптимизации.
Интересно, имеет ли ваш коллега опыт работы с Java или C #? В этих языках почти все выделено кучей под капотом, что может привести к таким предположениям.
Соответствующий (для любого языка): как стек работает на ассемблере? , Когда кто-то знает, что такое стек, становится очевидным, что выделение кучи не может быть быстрее.
Одна инструкция, которая обычно используется ВСЕМИ объектами в стеке.
Сделано правильно, особенно то, что оно действительно нужно. Я постоянно удивляюсь тому, как беспокойство людей по поводу производительности неуместно.
«Распределение» также очень просто и выполняется с помощью инструкции по leave .
Не забывайте о «скрытой» стоимости, особенно когда вы впервые расширяете стек. Это может привести к сбою страницы, переключению контекста на ядро, которое должно выполнить некоторую работу по выделению памяти (или, в худшем случае, загрузить ее из swap).
В некоторых случаях вы можете даже выделить его с 0 инструкциями. Если известна некоторая информация о том, сколько байтов должно быть выделено, компилятор может выделить их заранее, одновременно с распределением других переменных стека. В этих случаях вы вообще ничего не платите!
@cortammon, я думаю, что и этот комментарий имел в виду.
Ваш пример ошибочен: любой порядочный компилятор собирается вынести «пустую строку» из 3-й строки (основной подпункт) на этапах устранения общего подвыражения и устранения мертвого кода. Лучше сделать это внутри функции и вызвать ее из цикла. Вероятно, вы должны сделать то же самое для стека.
Кроме того, вы должны добавить «калибровочный» цикл в самом начале вашей основной функции, что-то, чтобы дать вам представление о том, сколько времени вы получаете на цикл, и настроить другие циклы так, чтобы ваш пример работал для некоторое количество времени, вместо фиксированной константы, которую вы используете.
Цикл калибровки: если он работает слишком коротко, ваши результаты не будут статистически значимыми. Когда вы перевели его на 10 миллионов, вы получили значительные результаты. Тем не менее, на моем старом 386 оригинальных 100K было бы более чем достаточно для этой задачи, следовательно, необходимость в калибровочном контуре.
Я также рад, что увеличение количества циклов выполнения каждого опционного цикла (плюс указание g ++ не оптимизировать?) Дало существенные результаты. Так что теперь у нас есть веские факты, чтобы сказать, что стек быстрее. Спасибо за ваши старания!
То, что вы утверждаете, неправильно . Компилятор не будет выдавать никакого кода для увеличения стека для вашего пустого класса. Я скомпилировал ваш исходный код без оптимизации под VS 2005 и разобрал исполняемый файл с IDA - никакого выделения стека вообще.
Я утверждаю, что (1) тестовая программа тривиальна, и (2) GCC обладает такими характеристиками производительности. Стандарт C ++ требует, чтобы объекты занимали как минимум один байт пространства; если Microsoft не следует стандарту, я уверен, что вы сможете выяснить, как заставить объект занимать место.
В ответе также говорилось: «Чтобы быть в безопасности, можно было бы добавить поле к пустому ... и получить доступ к этому полю. ... Взятие адреса e также сработало бы, и« должно »взять то же количество» времени в обеих петлях. " Я нахожу странным, что вы разобрали exe, но не прочитали весь ответ.
Ну, то же самое для GCC, по крайней мере, с включенной оптимизацией - нет выделения стека, даже с дополнительными полями
Вот почему я выключил оптимизацию. Я не пытаюсь найти лучшие результаты по времени. Я не собираюсь публиковать результаты в рамках докторской диссертации. Я просто хотел продемонстрировать, что malloc в сотни раз медленнее, чем выделение стека.
Задача оптимизатора - избавиться от такого кода. Есть ли веская причина, чтобы включить оптимизатор, а затем не допустить его оптимизации? Я отредактировал ответ, чтобы сделать вещи еще яснее: если вам нравится сражаться с оптимизатором, будьте готовы узнать, насколько умны авторы компиляторов.
Вы размещаете объект в стеке только один раз. Чтобы выделить 10000 объектов, вам нужно сделать пустой массив [10000];
Я опаздываю, но также стоит упомянуть, что выделение кучи запрашивает память через ядро, поэтому снижение производительности также сильно зависит от эффективности ядра. Использование этого кода с Linux (Linux 3.10.7-gentoo # 2 SMP Wed Sep 4 18:58:21 MDT 2013 x86_64), изменение таймера HR и использование 100 миллионов итераций в каждом цикле приводит к такой производительности: stack allocation took 0.15354 seconds, heap allocation took 0.834044 seconds с установленным параметром -O0 , что делало распределение кучи в Linux только медленнее примерно в 5,5 раз на моей конкретной машине.
В окнах без оптимизации (сборка отладки) он будет использовать кучу отладки, которая намного медленнее, чем куча без отладки. Я не считаю плохой идеей «обмануть» оптимизатор вообще. Авторы компиляторов умны, но компиляторы не ИИ.
@paulm: Глядя на параметры для cl.exe ( msdn.microsoft.com/en-us/library/19z1t1wy.aspx ), я полагаю, что можно отключить оптимизации ( /Od ) при связывании со временем выполнения выпуска ( /MT ).
Если вы измените on_stack () на 100 переменных, его время будет таким же. Но внесение того же изменения в on_heap () сделает его в 100 раз медленнее.
@brianbeuning: это хороший момент. Возможно, я должен был alloca 100 раз.
Микробенчмаркинг это сложно. Вы не можете просто отключить оптимизацию, потому что это дает вам нереалистичный код генерации: например, сохранение счетчика циклов в памяти, чтобы вы были узким местом на 1 итерации за ~ 6 тактов, с задержкой пересылки из магазина. Вы определенно хотите, чтобы оптимизатор оптимизировал все, что вы не измеряете, и заставлял его выполнять ту работу, которую вы действительно хотите измерить. например, поместите вашу целевую функцию в отдельный файл и отключите оптимизацию во время компоновки или используйте [noinline] для функций. Вам может понадобиться volatile . Обычно вам нужно проверить asm, чтобы убедиться, что вы получили то, что хотели.
См. gcc -O0 оптимизации цикла C для окончательного назначения, чтобы gcc -O0 больше о том, почему отладочные сборки gcc -O0 нелепы. Это даже не близко к линейному замедлению, которое одинаково влияет на весь код. См. Добавление избыточного назначения, ускоряющего код при компиляции без оптимизации, для случая, когда это приводит к сверхъестественным результатам из-за причуд задержек при пересылке из магазина в семействе Sandybridge.
Это верно для большинства многоядерных машин, а не только для ксенона. Даже Cell должен делать это, потому что вы можете запустить два аппаратных потока на этом ядре PPU.
Это эффект (особенно плохой) реализации распределителя кучи. Лучшим распределителям кучи не нужно получать блокировку при каждом выделении.
Это иногда называют распределением плит.
Я не думаю, что куча "обыскивается", если она не разбита на страницы. Уверен, что твердотельная память использует мультиплексор и может получить прямой доступ к памяти, следовательно, к памяти с произвольным доступом.
Вот пример. Вызывающая программа просит выделить 37 байтов. Функция библиотеки ищет блок размером не менее 40 байтов. Первый блок в свободном списке имеет 16 байтов. Второй блок в свободном списке имеет 12 байтов. Третий блок имеет 44 байта. Библиотека прекращает поиск в этой точке.
Я не согласен с вашим первым предложением.
Объем виртуального адресного пространства, выделенного для стека пользовательского режима в современной ОС, скорее всего, будет по крайней мере 64 КБ или больше (1 МБ в Windows). Вы говорите о размерах стека ядра?
На моей машине размер стека по умолчанию для процесса составляет 8 МБ, а не КБ. Сколько лет вашему компьютеру?

Torbjörn Gyllebring · Accepted Answer · 2008-10-02T07-24-00.000Z

426

Лучший ответ

Распределение стека намного быстрее, поскольку все, что он действительно делает, - это перемещение указателя стека. Используя пулы памяти, вы можете получить сопоставимую производительность из распределения кучи, но это связано с небольшой сложностью и своими головными болями.

Кроме того, стек против кучи не только учитывает производительность; он также много говорит о ожидаемом сроке жизни объектов.

Torbjörn Gyllebring 02 окт. 2008, в 07:24

197

И что еще более важно, стек всегда горячий, получаемая вами память с большей вероятностью будет находиться в кеше, чем любая выделенная память в дальней куче
Benoît 10 апр. 2009, в 10:29
44

На некоторых (в основном встроенных, насколько мне известно) архитектурах стек может храниться в быстрой встроенной памяти (например, SRAM). Это может иметь огромное значение!
leander 15 июль 2009, в 01:16
2

@ Benoît Не могли бы вы объяснить, почему бы просто не хранить все в стеке? Какой смысл в куче?
Pacerier 29 янв. 2012, в 00:51
34

Потому что стек на самом деле, стек. Вы не можете освободить кусок памяти, используемый стеком, если он не находится поверх него. Там нет управления, вы толкаете или всплываете на нем. С другой стороны, память кучи управляется: она запрашивает у ядра фрагменты памяти, возможно, разделяет их, объединяет их, повторно использует и освобождает их. Стек действительно предназначен для быстрого и короткого распределения.
Benoît 02 фев. 2012, в 09:57
24

@Pacerier, потому что стек намного меньше, чем куча. Если вы хотите выделить большие массивы, лучше расположить их в куче. Если вы попытаетесь выделить большой массив в стеке, это приведет к переполнению стека. Попробуйте, например, в C ++ это: int t [100000000]; Попробуйте, например, t [10000000] = 10; а затем cout << t [10000000]; Он должен дать вам переполнение стека или просто не будет работать и ничего вам не покажет. Но если вы разместите массив в куче: int * t = new int [100000000]; и сделайте те же операции после этого, это будет работать, потому что куча имеет необходимый размер для такого большого массива.
Lilian A. Moraru 04 нояб. 2012, в 20:33
7

@Pacerier Наиболее очевидная причина в том, что объекты в стеке выходят из области видимости после выхода из блока, в котором они размещены.
Jim Balter 19 май 2013, в 00:52
1

@ Benoît - Ваш комментарий помог мне соединить множество идей. Стек - это память, выделенная из скомпилированного кода; вычисления производятся один раз и кэшируются во время компиляции. Куча - это память, выделенная во время выполнения; вычисления выполняются во время работы программы - вычисления не кэшируются до запуска сценария. Языки сценариев (например, Javascript) не компилируются, и вся память выделяется для кучи, когда код выполняется в браузере. В таких языках, как C ++, массивы выделяют память для стека из скомпилированного кода, а векторы (массивы времени выполнения) выделяют память для кучи.
tfmontague 16 дек. 2015, в 23:24
0

этот последний комментарий действительно смущает меня! : /
hochl 09 дек. 2016, в 11:23
0

@hochl Языки сценариев, такие как Javascript или Python, обычно интерпретируются, что означает, что они обычно превращаются в машинный код построчно. JS и Python по-прежнему используют модель памяти стека кучи, поэтому эти интерпретаторы должны выяснить во время выполнения (во время выполнения), как хранить объекты (часто с динамическим размером) с ограниченным размером стека. Напротив, скомпилированные языки способны выполнять всю программу и сохранять много информации о функциях и локальных переменных, а также (в зависимости от языка) иметь определенные гарантии того, является ли объект динамическим или нет.
John Cramerus 18 июль 2017, в 18:43

Показать ещё 7 комментариев