Как эффективно запустить много подпроцессов в Python?

Question

Как эффективно запустить много подпроцессов в Python?

1

Основные настройки:
Я использую python script для автоматического тестирования проекта программирования, над которым я работаю. В тесте я запускаю свой исполняемый файл с множеством различных опций и сравниваю результат с предыдущими запусками. Тестирование занимает довольно много времени, так как у меня есть примерно 600 тыс. Различных тестов для запуска.

В настоящий момент я разделил свой script на две части - тестовый модуль, который захватывает тесты из очереди заданий и помещает результаты в очередь результатов и основной модуль, который создает очередь заданий а затем проверяет результаты. Это позволяет мне работать с несколькими тестовыми процессами/потоками, которые до сих пор не улучшали скорость тестирования (я запускаю это на двухъядерном компьютере, я ожидал бы, что больше тестовых процессов будет работать лучше на квадранте -core).

В тестовом модуле я создаю командную строку, которую затем выполняю с помощью

subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)

Затем я прочитал результаты из трубы и поместил ее в очередь результатов.

Вопрос:

Является ли это наиболее эффективным способом запуска большого количества командных строк в многоядерной системе? Каждый Popen, который я создаю, создает новый процесс, который, похоже, может создать довольно много накладных расходов, но я не могу думать о более эффективном способе этого делать. (В настоящее время я использую python 2.7, если это имеет значение.)

EDIT:
ОС - Linux
Подпроцессы, которые я запускаю, являются C-исполняемыми файлами командной строки с аргументами.

Leo 18 май 2011, в 16:36

Источник

0

Команды других программ Python? программы командной строки? Смешанная сумка?
Andrew 18 май 2011, в 14:23
0

Что это за ОС?
Macke 18 май 2011, в 14:24

Теги:

python

performance

multithreading

multicore

3 ответа

3

Вы можете взглянуть на модуль mulitprocessing, особенно часть пула.

Это позволит вам запускать как процессы, как вы хотите (по умолчанию столько же, сколько ядра процессора).

Cédric Julien 18 май 2011, в 11:28

1

Уже пробовал без какого-либо увеличения производительности, к сожалению. Именно из-за функциональности рабочего пула я конвертировал свой тестовый скрипт из AWK в python.
Leo 18 май 2011, в 14:45
1

Если у вас нет никакого выигрыша в производительности с пулом процессов, возможно, это из-за вашего алгоритма, если задания должны выполняться сериализованным способом, независимо от того, как вы выполняете параллелизм, он ничего не получит.
Cédric Julien 18 май 2011, в 14:53
1

Задания полностью независимы и могут выполняться параллельно, проблема в том, что для каждого задания требуется запуск подпроцесса, который, вероятно, и сводит на нет производительность.
Leo 18 май 2011, в 20:53

Показать ещё 1 комментарий

1

Сначала попробуйте измерить схему тестирования script/с нулевым исполняемым файлом. Таким образом, вы можете увидеть, сколько накладных расходов у процесса нерест w.r.t. фактическое время тестирования. Затем мы имеем некоторые реальные данные, чтобы действовать.

Добавление пакетного режима к вашему exe (который читает командные строки из файла и делает это работает), вероятно, является хорошей идеей, если объем работы мал по сравнению с временем, требуемым для загрузки и закрытия вашего процесса. Кроме того, это поможет вам найти утечки памяти.:)

Перемещая материал из main(), это не так сложно сделать.

Macke 18 май 2011, в 13:14

0

Как создать утечки памяти в Python?
tMC 18 май 2011, в 14:55
0

@tMC: Каждый использует нативные библиотеки, которые просачиваются, или хранит ссылки дольше, чем предполагалось, или определяет del , которая отключает циклический сборщик мусора CPython. Средняя проблема может быть довольно распространенной, особенно если ваша программа похожа на макароны. ;)
Macke 18 май 2011, в 15:02
0

Хорошая идея. Выполнение сценария с исполняемым файлом «hello world» заняло примерно то же время, что и мой тест. Однако, когда я удалил вызовы подпроцесса, сценарий завершается менее чем за 2 минуты, так что именно подпроцесс снижает производительность.
Leo 18 май 2011, в 20:58
0

+1 за хороший, методичный подход к проблеме
ealfonso 24 окт. 2013, в 06:13

Показать ещё 2 комментария

Ещё вопросы

Команды других программ Python? программы командной строки? Смешанная сумка?
Уже пробовал без какого-либо увеличения производительности, к сожалению. Именно из-за функциональности рабочего пула я конвертировал свой тестовый скрипт из AWK в python.
Если у вас нет никакого выигрыша в производительности с пулом процессов, возможно, это из-за вашего алгоритма, если задания должны выполняться сериализованным способом, независимо от того, как вы выполняете параллелизм, он ничего не получит.
Задания полностью независимы и могут выполняться параллельно, проблема в том, что для каждого задания требуется запуск подпроцесса, который, вероятно, и сводит на нет производительность.
@tMC: Каждый использует нативные библиотеки, которые просачиваются, или хранит ссылки дольше, чем предполагалось, или определяет del , которая отключает циклический сборщик мусора CPython. Средняя проблема может быть довольно распространенной, особенно если ваша программа похожа на макароны. ;)
Хорошая идея. Выполнение сценария с исполняемым файлом «hello world» заняло примерно то же время, что и мой тест. Однако, когда я удалил вызовы подпроцесса, сценарий завершается менее чем за 2 минуты, так что именно подпроцесс снижает производительность.
+1 за хороший, методичный подход к проблеме

Leo · Accepted Answer · 2011-10-21T08-37-00.000Z

В конце концов я создал C-привязки python (с SWIG) непосредственно к коду, который я хотел протестировать. Это оказалось в несколько сотен раз быстрее, чем запуск подпроцессов.

+1. Избегать пусковых процессов, конечно же, быстрее. Это зависит от того, насколько вы контролируете свое окружение.