Как мне написать правильный микро-тест в Java?

Question

Как мне написать правильный микро-тест в Java?

728

Как вы пишете (и запускаете) правильный микро-тест в Java?

Я ищу здесь примеры кода и комментарии, иллюстрирующие различные вещи, о которых нужно подумать.

Пример. Если контрольная точка измеряет время/итерацию или итерации/время и почему?

Связано: Допустимо ли использование бенчмаркинга секундомера?

John Nilsson 02 фев. 2009, в 17:35

Источник

0

Смотрите [этот вопрос] [1] несколько минут назад для получения дополнительной информации. редактировать: извините, это не должно быть ответом. Я должен был оставить комментарий. [1]: stackoverflow.com/questions/503877/…
Tiago 01 фев. 2011, в 14:07
0

После того, как я планировал отнести автора этого вопроса к такому вопросу, я заметил, что этого вопроса не существует. Так что вот, надеюсь, со временем он соберет несколько полезных советов.
John Nilsson 01 фев. 2011, в 14:07
4

Java 9 может предоставлять некоторые функции для микробанчмаркинга : openjdk.java.net/jeps/230
Raedwald 13 май 2015, в 09:33
1

@Raedwald Я думаю, что этот JEP направлен на то, чтобы добавить некоторый микро-эталон в код JDK, но я не думаю, что JMH будет включен в JDK ...
assylias 01 дек. 2015, в 16:11
0

Вероятно, дубликат: как мне рассчитать время выполнения метода в Java?
Basil Bourque 01 июль 2016, в 22:48
0

@Raedwald Привет из будущего. Это не сделало сокращение .
Michael 13 сен. 2017, в 16:03
0

См. JMH, Java-жгут для построения, запуска и анализа нано / микро / милли / макро тестов и JEP 230: Microbenchmark Suite и дубликат Вопрос Вопрос Лучший подход для работы с временными показателями? ,
Basil Bourque 09 янв. 2018, в 05:43

Показать ещё 5 комментариев

Теги:

java

jvm

benchmarking

microbenchmark

jvm-hotspot

11 ответов

226

Я знаю, что этот вопрос был отмечен как ответ, но я хотел упомянуть две библиотеки, которые позволяют нам писать микро-тесты

Суппорт с Google

Начальные учебные пособия

JMH из OpenJDK

Начальные учебные пособия

Aravind R. Yarram 18 дек. 2010, в 23:45

34

+1 это можно было бы добавить как правило 8 принятого ответа: правило 8: поскольку многие вещи могут пойти не так, вам, вероятно, следует использовать существующую библиотеку, а не пытаться делать это самостоятельно!
assylias 06 дек. 2012, в 23:58
8

@Pangea jmh, вероятно, в настоящее время превосходит Caliper, см. Также: groups.google.com/forum/#!msg/mechanical-sympathy/m4opvy4xq3U/…
assylias 03 дек. 2015, в 09:49

77

Важными вещами для тестов Java являются:

Сначала разогрейте JIT, запустив код несколько раз, прежде чем синхронизировать его.
Убедитесь, что вы запустили его достаточно долго, чтобы иметь возможность измерять результаты в секундах или (лучше) десятки секунд.
Пока вы не можете вызвать System.gc() между итерациями, неплохо запустить его между тестами, чтобы каждый тест, надеюсь, получил "чистую" память для работы. (Да, gc() - скорее намек, чем гарантия, но очень вероятно, что он действительно будет собирать мусор в моем опыте.)
Мне нравится показывать итерации и время, а также счет времени/итерации, который можно масштабировать таким образом, чтобы "лучший" алгоритм получал оценку 1.0, а другие оценивались относительным образом. Это означает, что вы можете запускать все алгоритмы в течение длительного времени, изменяя как количество итераций, так и время, но все же получая сопоставимые результаты.

Я как раз в процессе ведения блога о дизайне платформы сравнения в .NET. У меня есть пара более ранние сообщения, которые могут быть способный дать вам некоторые идеи - не все будет уместно, конечно, но некоторые из них могут быть.

Jon Skeet 02 фев. 2009, в 19:11

3

Незначительная мелочь: IMO «чтобы каждый тест получал» должен быть «так, чтобы каждый тест мог получить», так как первый создает впечатление, что вызов gc всегда освобождает неиспользуемую память.
Sanjay T. Sharma 20 апр. 2013, в 06:52
0

@ SanjayT.Sharma: Ну, намерение состоит в том, что это действительно так. Хотя это не строго гарантировано, на самом деле это довольно сильный намек. Будет редактировать, чтобы быть более понятным.
Jon Skeet 20 апр. 2013, в 08:02
1

Я не согласен с вызовом System.gc (). Это подсказка, вот и все. Даже «мы надеемся что-то сделать». Вы никогда не должны называть это. Это программирование, а не искусство.
gyorgyabraham 14 июнь 2013, в 10:38
13

@gyabraham: Да, это подсказка, но я заметил, что ее обычно используют. Так что, если вам не нравится использование System.gc() , как вы предлагаете минимизировать сборку мусора в одном тесте из-за объектов, созданных в предыдущих тестах? Я прагматичный, а не догматичный.
Jon Skeet 14 июнь 2013, в 10:58
0

Детерминированное свойство вашего эталонного теста имеет большой запасной вариант. Это все.
gyorgyabraham 14 июнь 2013, в 17:42
9

@gyabraham: я не знаю, что вы подразумеваете под "большим отступлением". Можете ли вы уточнить, и еще раз - у вас есть предложение, чтобы дать лучшие результаты? Я прямо сказал, что это не гарантия ...
Jon Skeet 14 июнь 2013, в 17:44
0

Я очень заинтересован в вашем «блоге о дизайне фреймворка для тестирования в .NET». Где я могу найти его? Также хочу узнать, является ли класс секундомера лучшим встроенным способом в C #, который должен работать монотонно и быстро.
Jenix 10 май 2018, в 11:48
0

@Jenix: Я не помню, написал ли я это сообщение в блоге или нет, но github.com/dotnet/BenchmarkDotNet - это инструмент для использования.
Jon Skeet 10 май 2018, в 14:38
0

@JonSkeet Ах, спасибо!
Jenix 10 май 2018, в 17:29

Показать ещё 7 комментариев

39

jmh является недавним дополнением к OpenJDK и был написан некоторыми инженерами-производителями из Oracle. Конечно, стоит посмотреть.

jmh - это жгутик Java для построения, запуска и анализа тестов nano/micro/macro, написанных на Java и других языках, предназначенных для JVM.

Очень интересные фрагменты информации, похороненные в примеры ответов на тесты.

См. также:

assylias 03 апр. 2013, в 12:55

1

См. Также этот пост в блоге: psy-lob-saw.blogspot.com/2013/04/… для получения подробной информации о начале работы с JMH.
Nitsan Wakart 02 май 2013, в 15:41
0

К сведению, JEP 230: Microbenchmark Suite - это предложение OpenJDK, основанное на этом проекте Java Microbenchmark Harness (JMH) . Не сделал сокращение для Java 9, но может быть добавлено позже.
Basil Bourque 01 июль 2016, в 23:03

17

Если контрольная точка измеряет время/итерацию или итерации/время и почему?

Это зависит от того, что вы пытаетесь проверить. Если вы заинтересованы в задержке, используйте время/итерацию, и если вы заинтересованы в пропускной способности, используйте итерации/время.

Peter Lawrey 02 фев. 2009, в 20:59

14

Убедитесь, что вы каким-то образом используете результаты, которые вычисляются в контрольном коде. В противном случае ваш код можно будет оптимизировать.

Peter Štibraný 02 фев. 2009, в 19:13

12

Есть много возможных ошибок для написания микро-тестов в Java.

Во-первых: вам нужно рассчитать всевозможные события, которые занимают время более или менее случайным образом: сбор мусора, эффекты кеширования (ОС для файлов и процессора для памяти), IO и т.д.

Второе: вы не можете доверять точности измеренных времен для очень коротких интервалов.

В-третьих: JVM оптимизирует ваш код во время выполнения. Таким образом, разные прогоны в одном JVM-экземпляре будут быстрее и быстрее.

Мои рекомендации. Сделайте контрольный тест за несколько секунд, что более надежно, чем время выполнения за миллисекунды. Разогрейте JVM (это означает, что хотя бы один раз тестируйте бенчмарк без измерения, JVM может запускать оптимизацию). И запустите свой тест несколько раз (может быть, 5 раз) и возьмите медианную ценность. Запуск каждого микро-теста в новом JVM-экземпляре (вызов для каждого теста новой Java), в противном случае эффекты оптимизации JVM могут повлиять на последующие тесты. Не выполняйте действия, которые не выполняются в фазе прогрева (поскольку это может вызвать загрузку классов и перекомпиляцию).

Mnementh 02 фев. 2009, в 19:29

12

Если вы пытаетесь сравнить два алгоритма, сделайте по крайней мере два теста на каждом, чередуя порядок. то есть:.

for(i=1..n)
  alg1();
for(i=1..n)
  alg2();
for(i=1..n)
  alg2();
for(i=1..n)
  alg1();

Я обнаружил некоторые заметные различия (иногда 5-10%) во время выполнения одного и того же алгоритма в разных проходах.

Кроме того, убедитесь, что n очень велико, так что время выполнения каждого цикла составляет как минимум 10 секунд или около того. Чем больше итераций, тем более значимые цифры в вашем контрольном времени и более надежные данные.

Kip 02 фев. 2009, в 18:01

5

Естественно, изменение порядка влияет на время выполнения. JVM-оптимизация и кеширование будут работать здесь. Лучше «прогреть» JVM-оптимизацию, сделать несколько прогонов и сравнить каждый тест в другой JVM.
Mnementh 02 фев. 2009, в 18:04

7

Следует также отметить, что также может быть важно проанализировать результаты микро-теста при сравнении различных реализаций. Поэтому следует сделать <значимый тест .

Это связано с тем, что реализация A может быть быстрее во время большинства этапов теста, чем реализация B. Но A может также иметь более высокий разброс, поэтому измеренное преимущество производительности A не будет иметь никакого значения по сравнению с B.

Таким образом, также важно правильно записать и запустить микро-тест, а также правильно проанализировать его.

SpaceTrucker 21 янв. 2013, в 14:26

6

http://opt.sourceforge.net/ Java Micro Benchmark - контроль задач, необходимых для определения сравнительных характеристик производительности компьютерной системы на разных платформах. Может использоваться для управления решениями по оптимизации и для сравнения различных реализаций Java.

Yuriy 18 дек. 2010, в 23:51

1

Кажется, просто для сравнения оборудования JVM +, а не произвольный кусок кода Java.
Stefan L 29 фев. 2012, в 22:05

5

Чтобы добавить к другому отличному совету, я также помню следующее:

Для некоторых процессоров (например, Intel Core i5 с TurboBoost) температура (и количество используемых в настоящее время сердечников, а также процент использования) влияет на тактовую частоту. Поскольку процессоры динамически синхронизируются, это может повлиять на ваши результаты. Например, если у вас однопоточное приложение, максимальная тактовая частота (с TurboBoost) выше, чем для приложения, использующего все ядра. Таким образом, это может помешать сравнению одно- и многопоточной производительности на некоторых системах. Имейте в виду, что температура и колебания также влияют на продолжительность поддерживаемой частоты Turbo.

Возможно, более принципиально важный аспект, который у вас есть прямой контроль: убедитесь, что вы правильно оцениваете! Например, если вы используете System.nanoTime() для тестирования определенного бита кода, поместите вызовы в задание в местах, которые имеют смысл избегать измерения того, что вас не интересует. Например, не делайте:

long startTime = System.nanoTime();
//code here...
System.out.println("Code took "+(System.nanoTime()-startTime)+"nano seconds");

Проблема заключается в том, что вы не получаете окончательное время окончания кода. Вместо этого попробуйте следующее:

final long endTime, startTime = System.nanoTime();
//code here...
endTime = System.nanoTime();
System.out.println("Code took "+(endTime-startTime)+"nano seconds");

Sina Madani 19 март 2017, в 19:59

0

Да, важно не выполнять несвязанную работу внутри временной области, но ваш первый пример все еще в порядке. Существует только один вызов println , а не отдельная строка заголовка или что-то еще, и System.nanoTime() должен быть оценен как первый шаг в построении строкового аргумента для этого вызова. С первым компилятор не может ничего поделать со вторым, и никто даже не побуждает их делать дополнительную работу перед записью времени остановки.
Peter Cordes 23 март 2019, в 08:44

Ещё вопросы

Смотрите [этот вопрос] [1] несколько минут назад для получения дополнительной информации. редактировать: извините, это не должно быть ответом. Я должен был оставить комментарий. [1]: stackoverflow.com/questions/503877/…
После того, как я планировал отнести автора этого вопроса к такому вопросу, я заметил, что этого вопроса не существует. Так что вот, надеюсь, со временем он соберет несколько полезных советов.
Java 9 может предоставлять некоторые функции для микробанчмаркинга : openjdk.java.net/jeps/230
@Raedwald Я думаю, что этот JEP направлен на то, чтобы добавить некоторый микро-эталон в код JDK, но я не думаю, что JMH будет включен в JDK ...
Вероятно, дубликат: как мне рассчитать время выполнения метода в Java?
@Raedwald Привет из будущего. Это не сделало сокращение .
См. JMH, Java-жгут для построения, запуска и анализа нано / микро / милли / макро тестов и JEP 230: Microbenchmark Suite и дубликат Вопрос Вопрос Лучший подход для работы с временными показателями? ,
+1 это можно было бы добавить как правило 8 принятого ответа: правило 8: поскольку многие вещи могут пойти не так, вам, вероятно, следует использовать существующую библиотеку, а не пытаться делать это самостоятельно!
@Pangea jmh, вероятно, в настоящее время превосходит Caliper, см. Также: groups.google.com/forum/#!msg/mechanical-sympathy/m4opvy4xq3U/…
Незначительная мелочь: IMO «чтобы каждый тест получал» должен быть «так, чтобы каждый тест мог получить», так как первый создает впечатление, что вызов gc всегда освобождает неиспользуемую память.
@ SanjayT.Sharma: Ну, намерение состоит в том, что это действительно так. Хотя это не строго гарантировано, на самом деле это довольно сильный намек. Будет редактировать, чтобы быть более понятным.
Я не согласен с вызовом System.gc (). Это подсказка, вот и все. Даже «мы надеемся что-то сделать». Вы никогда не должны называть это. Это программирование, а не искусство.
@gyabraham: Да, это подсказка, но я заметил, что ее обычно используют. Так что, если вам не нравится использование System.gc() , как вы предлагаете минимизировать сборку мусора в одном тесте из-за объектов, созданных в предыдущих тестах? Я прагматичный, а не догматичный.
Детерминированное свойство вашего эталонного теста имеет большой запасной вариант. Это все.
@gyabraham: я не знаю, что вы подразумеваете под "большим отступлением". Можете ли вы уточнить, и еще раз - у вас есть предложение, чтобы дать лучшие результаты? Я прямо сказал, что это не гарантия ...
Я очень заинтересован в вашем «блоге о дизайне фреймворка для тестирования в .NET». Где я могу найти его? Также хочу узнать, является ли класс секундомера лучшим встроенным способом в C #, который должен работать монотонно и быстро.
@Jenix: Я не помню, написал ли я это сообщение в блоге или нет, но github.com/dotnet/BenchmarkDotNet - это инструмент для использования.
См. Также этот пост в блоге: psy-lob-saw.blogspot.com/2013/04/… для получения подробной информации о начале работы с JMH.
К сведению, JEP 230: Microbenchmark Suite - это предложение OpenJDK, основанное на этом проекте Java Microbenchmark Harness (JMH) . Не сделал сокращение для Java 9, но может быть добавлено позже.
Естественно, изменение порядка влияет на время выполнения. JVM-оптимизация и кеширование будут работать здесь. Лучше «прогреть» JVM-оптимизацию, сделать несколько прогонов и сравнить каждый тест в другой JVM.
Кажется, просто для сравнения оборудования JVM +, а не произвольный кусок кода Java.
Да, важно не выполнять несвязанную работу внутри временной области, но ваш первый пример все еще в порядке. Существует только один вызов println , а не отдельная строка заголовка или что-то еще, и System.nanoTime() должен быть оценен как первый шаг в построении строкового аргумента для этого вызова. С первым компилятор не может ничего поделать со вторым, и никто даже не побуждает их делать дополнительную работу перед записью времени остановки.

Eugene Kuleshov · Accepted Answer · 2009-02-04T21-47-00.000Z

Советы по написанию микро-тестов от создателей Java HotSpot:

Правило 0: Прочитайте авторитетную статью о JVM и микро-бенчмаркинге. Хорошим является Брайан Гетц, 2005 год. Не ожидайте слишком многого из микро-тестов; они измеряют только ограниченный диапазон рабочих характеристик JVM.

Правило 1: Всегда включайте фазу прогрева, которая полностью запускает тестовое ядро, достаточное для запуска всех инициализаций и компиляций перед фазой (фазами) синхронизации. (Меньшее число итераций в порядке на этапе прогрева. Эмпирическое правило - несколько десятков тысяч итераций внутреннего цикла.)

Правило 2: Всегда запускайте с помощью -XX:+PrintCompilation, -verbose:gc и т.д., Чтобы вы могли убедиться, что компилятор и другие части JVM не делают неожиданной работы во время фазы синхронизации.

Правило 2.1: печатать сообщения в начале и конце фаз и фаз прогрева, поэтому вы можете убедиться, что на выходе из правила 2 в фазе синхронизации нет выхода.

Правило 3: Имейте в виду разницу между -client и -server, и OSR и регулярными компиляциями. -XX:+PrintCompilation сообщает компиляции OSR с знаком at, чтобы обозначить не начальную точку входа, например: Trouble$1::run @2 (41 bytes). Предпочитайте сервер для клиента и регулярно подключайтесь к OSR, если вы добились наилучшей производительности.

Правило 4: Помните об эффектах инициализации. Не печатайте в первый раз во время фазы синхронизации, так как печать загружает и инициализирует классы. Не загружайте новые классы за пределы фазы прогрева (или фазы окончательной отчетности), если вы специально не тестируете загрузку классов (и в этом случае загружаете только классы тестов). Правило 2 - это ваша первая линия защиты от таких эффектов.

Правило 5: Помните об эффектах деоптимизации и перекомпиляции. Не принимайте какой-либо кодовый путь в первый раз на фазе синхронизации, потому что компилятор может мусор и перекомпилировать код на основе более раннего оптимистического предположения о том, что путь не будет использоваться вообще. Правило 2 - это ваша первая линия защиты от таких эффектов.

Правило 6: Используйте соответствующие инструменты для чтения мысли компилятора и ожидайте удивления от кода, который он производит. Осмотрите код самостоятельно, прежде чем создавать теории о том, что делает что-то быстрее или медленнее.

Правило 7: Уменьшите шум при измерениях. Запустите свой тест на тихой машине и запустите его несколько раз, отбросив выбросы. Используйте -Xbatch для сериализации компилятора с приложением и рассмотрите возможность установки -XX:CICompilerCount=1 для предотвращения параллельной работы компилятора с самим собой. Постарайтесь, чтобы уменьшить накладные расходы GC, установить Xmx (достаточно большой) равным Xms и использовать UseEpsilonGC если он доступен.

Правило 8: Используйте библиотеку для своего теста, поскольку она, вероятно, более эффективна и уже была отлажена для этой единственной цели. Такие, как JMH, Caliper или Bill and Paul Excellent UCSD Benchmarks для Java.

Это была также интересная статья: ibm.com/developerworks/java/library/j-jtp12214
Кроме того, никогда не используйте System.currentTimeMillis (), если у вас нет проблем с точностью + или - 15 мс, что типично для большинства комбинаций OS + JVM. Вместо этого используйте System.nanoTime ().
Некоторая статья из javaOne: azulsystems.com/events/javaone_2009/session/…
Следует отметить, что System.nanoTime() не гарантированно будет более точным, чем System.currentTimeMillis() . Это гарантированно будет, по крайней мере, так же точно. Однако обычно это значительно точнее.
Основная причина, по которой нужно использовать System.nanoTime() вместо System.currentTimeMillis() заключается в том, что первый гарантированно будет монотонно увеличиваться. Вычитание значений, возвращаемых двумя currentTimeMillis может фактически дать отрицательные результаты, возможно, потому что системное время было отрегулировано каким-то демоном NTP.
Имейте в виду, что ваши результаты оценки будут вводить в заблуждение, если только вы не будете учитывать «согласованные упущения». groups.google.com/forum/#!msg/mechanical-sympathy/icNZJejUHfE/...