Лучший способ управлять долгосрочным PHP-скриптом?

Question

Лучший способ управлять долгосрочным PHP-скриптом?

66

У меня есть PHP script, который занимает много времени (5-30 минут). На всякий случай это важно, script использует завиток для очистки данных с другого сервера. Именно по этой причине он занимает так много времени; он должен дождаться загрузки каждой страницы до ее обработки и перехода к следующему.

Я хочу, чтобы иметь возможность инициировать script, и пусть это будет, пока не будет сделано, что установит флаг в таблице базы данных.

Мне нужно знать, как можно завершить HTTP-запрос до завершения работы script. Кроме того, это лучший способ сделать это PHP скрипт?

kbanman 06 фев. 2010, в 07:48

Источник

1

Хотя вы не упоминали об этом на языках, поддерживаемых вашим сервером, я думаю, если у вас есть возможность запускать Ruby и Perl, вы, вероятно, могли бы добавить Node.js, и это звучит для меня как идеальный вариант использования для Javascript : ваш сценарий будет тратить большую часть своего времени на ожидание выполнения запросов, что является областью, в которой превосходит парадигма асинхронности. Никакие потоки не означают простую синхронизацию, параллелизм означает ускорение.
djfm 24 янв. 2015, в 10:26
0

Вы можете сделать это с помощью PHP. Я бы использовал Goutte и Guzzle для реализации потоков параллелизма. Вы также можете взглянуть на Gearman для запуска параллельных запросов в виде рабочих.
Andre Garcia 17 янв. 2017, в 20:22

Теги:

php

curl

apache

httprequest

15 ответов

11

Быстрый и грязный способ заключается в использовании функции ignore_user_abort в php. В основном это говорит: "Не важно, что делает пользователь, запустите этот script, пока он не будет завершен. Это несколько опасно, если это публичный сайт (потому что возможно, что вы закончите с 20 ++ версиями script, запущенных одновременно, если он инициирован 20 раз).

"Чистый" способ (по крайней мере, IMHO) заключается в установке флага (например, в db), когда вы хотите инициировать процесс и запускать cronjob каждый час (или так), чтобы проверить, установлен ли этот флаг. Если он установлен, запускается длительный script, если он НЕ установлен, ничего не происходит.

FlorianH 06 фев. 2010, в 10:39

0

Таким образом, метод ignore_user_abort позволит пользователю закрыть окно браузера, но можно ли что-то сделать, чтобы он возвращал HTTP-ответ клиенту до его завершения?
kbanman 06 фев. 2010, в 16:07
1

@kbanman Да. Вам необходимо закрыть соединение: header("Connection: close", true); , И не забудьте промыть ()
Benubird 10 июль 2013, в 14:57

8

Вы можете использовать exec или system, чтобы начать фоновое задание, а затем выполните эту работу.

Кроме того, есть более эффективные подходы к очистке сети, которую вы используете. Вы можете использовать поточный подход (несколько потоков, выполняющих одну страницу за раз), или один с помощью eventloop (один поток делает несколько страниц за раз). Мой личный подход с использованием Perl будет использовать AnyEvent:: HTTP.

ETA: symcbean объяснил, как правильно отделить фоновый процесс здесь.

Leon Timmermans 06 фев. 2010, в 11:20

5

Почти верно. Просто с помощью exec или система вернется, чтобы укусить вас за задницу. Смотрите мой ответ для деталей.
symcbean 06 фев. 2010, в 23:33
1

Полный пример: exec ("[your-command]> / dev / null &");
ecairol 10 март 2014, в 20:31

5

Нет, PHP не лучшее решение.

Я не уверен в Ruby или Perl, но с Python вы можете переписать свой скребок страницы на многопоточность, и он, вероятно, будет работать как минимум на 20 раз быстрее. Написание многопоточных приложений может быть чем-то сложным, но самое первое приложение Python, которое я написал, было скремблером страницы muttti. И вы можете просто вызвать Python script из вашей PHP-страницы, используя одну из функций выполнения оболочки.

jamieb 06 фев. 2010, в 11:22

0

Фактическая обработка моего соскоба очень эффективна. Как я упоминал выше, загрузка каждой страницы убивает меня. Что мне было интересно, так это то, что PHP должен работать так долго.
kbanman 06 фев. 2010, в 16:05
0

Я немного предвзят, потому что после изучения Python я просто ненавижу PHP. Однако, если вы копируете более одной страницы (последовательно), вы почти наверняка получите лучшую производительность, выполнив ее параллельно с многопоточным приложением.
jamieb 06 фев. 2010, в 21:34
1

Есть ли шанс, что вы могли бы прислать мне пример такого скребка страницы? Это помогло бы мне увидеть все, потому что я еще не прикасался к Python.
kbanman 09 фев. 2010, в 08:52
0

jo_dadday на горячей почте точка ком
kbanman 09 фев. 2010, в 08:56
0

Если бы мне пришлось переписать его, я бы просто использовал eventlet. Это делает мой код примерно в 10 раз проще: eventlet.net/doc
jamieb 12 фев. 2010, в 08:40

Показать ещё 3 комментария

4

Да, вы можете сделать это на PHP. Но в дополнение к PHP было бы разумно использовать диспетчер очереди. Здесь стратегия:

Разделите свою большую задачу на более мелкие задачи. В вашем случае каждая задача может загружать одну страницу.
Отправьте каждую маленькую задачу в очередь.
Запустите ваши рабочие места в очереди.

Использование этой стратегии имеет следующие преимущества:

Для длительных задач у него есть возможность восстановления в случае возникновения фатальной проблемы в середине прогона - нет необходимости начинать с самого начала.
Если ваши задачи не должны запускаться последовательно, вы можете запускать нескольких рабочих одновременно для запуска задач.

У вас есть множество вариантов (это всего лишь несколько):

RabbitMQ (https://www.rabbitmq.com/tutorials/tutorial-one-php.html)
ZeroMQ (http://zeromq.org/bindings:php)
Если вы используете структуру Laravel, очереди встроены (https://laravel.com/docs/5.4/queues), с драйверами для AWS SES, Redis, Beanstalkd

aljo f 23 май 2017, в 05:18

3

PHP может быть или не быть лучшим инструментом, но вы знаете, как его использовать, а остальная часть вашего приложения написана с его использованием. Эти два качества, в сочетании с тем, что PHP "достаточно хороши", делают довольно убедительный аргумент в пользу его использования вместо Perl, Ruby или Python.

Если ваша цель - изучить другой язык, выберите его и используйте. Любой язык, который вы упомянули, будет выполнять эту работу, без проблем. Мне нравится Perl, но то, что вам нравится, может быть другим.

Symcbean имеет несколько хороших советов о том, как управлять фоновыми процессами по его ссылке.

Короче говоря, напишите CLI PHP script для обработки длинных битов. Убедитесь, что он каким-то образом сообщает статус. Сделайте php-страницу для обработки обновлений состояния, используя AJAX или традиционные методы. Ваш запуск script запустит процесс, запущенный в его собственном сеансе, и вернет подтверждение, что процесс идет.

Удачи.

daotoad 08 фев. 2010, в 08:22

1

Я хотел бы предложить решение, немного отличающееся от symcbean, главным образом потому, что у меня есть дополнительное требование, чтобы длительный процесс нужно запускать как другой пользователь, а не как пользователь apache/www-data.

Первое решение с использованием cron для опроса таблицы фоновых задач:

Веб-страница PHP вставляется в таблицу фоновых задач, укажите "SUBMITTED"
cron запускается один раз каждые 3 минуты, используя другого пользователя, запуская PHP CLI script, который проверяет таблицу фоновых задач для строк "SUBMITTED"
PHP CLI обновит столбец состояния в строке в "ОБРАБОТКА" и начнет обработку, после завершения он будет обновлен до "COMPLETED"

Второе решение с использованием средства инициализации Linux:

Веб-страница PHP обновляет управляющий файл с параметрами, заданными пользователем, а также предоставляет идентификатор задачи
shell script (как пользователь, не являющийся пользователем), запущенный inotifywait, будет ждать записи файла управления
после того, как файл управления записан, событие close_write будет поднято, оболочка script продолжит
shell script выполняет PHP CLI для выполнения долгого процесса
PHP CLI записывает вывод в файл журнала, идентифицированный идентификатором задачи, или, как альтернатива, обновляет прогресс в таблице состояний
Веб-страница PHP могла опросить файл журнала (на основе идентификатора задачи), чтобы показать ход выполнения долгого процесса, или он также может запрашивать таблицу состояния

В моем посте можно найти дополнительную информацию: http://inventorsparadox.blogspot.co.id/2016/01/long-running-process-in-linux-using-php.html

YudhiWidyatama 31 янв. 2016, в 14:04

1

Я понимаю, что это довольно старый вопрос, но хотел бы дать ему шанс. Этот script пытается обратиться к начальному стартовому звонку, чтобы закончить быстро и отрубить большую нагрузку на более мелкие куски. Я не тестировал это решение.

<?php
/**
 * crawler.php located at http://mysite.com/crawler.php
 */

// Make sure this script will keep on runing after we close the connection with
// it.
ignore_user_abort(TRUE);


function get_remote_sources_to_crawl() {
  // Do a database or a log file query here.

  $query_result = array (
    1 => 'http://exemple.com',
    2 => 'http://exemple1.com',
    3 => 'http://exemple2.com',
    4 => 'http://exemple3.com',
    // ... and so on.
  );

  // Returns the first one on the list.
  foreach ($query_result as $id => $url) {
    return $url;
  }
  return FALSE;
}

function update_remote_sources_to_crawl($id) {
  // Update my database or log file list so the $id record wont show up
  // on my next call to get_remote_sources_to_crawl()
}

$crawling_source = get_remote_sources_to_crawl();

if ($crawling_source) {


  // Run your scraping code on $crawling_source here.


  if ($your_scraping_has_finished) {
    // Update you database or log file.
    update_remote_sources_to_crawl($id);

    $ctx = stream_context_create(array(
      'http' => array(
        // I am not quite sure but I reckon the timeout set here actually
        // starts rolling after the connection to the remote server is made
        // limiting only how long the downloading of the remote content should take.
        // So as we are only interested to trigger this script again, 5 seconds 
        // should be plenty of time.
        'timeout' => 5,
      )
    ));

    // Open a new connection to this script and close it after 5 seconds in.
    file_get_contents('http://' . $_SERVER['HTTP_HOST'] . '/crawler.php', FALSE, $ctx);

    print 'The cronjob kick off has been initiated.';
  }
}
else {
  print 'Yay! The whole thing is done.';
}

Francisco Luz 27 июнь 2013, в 02:00

0

@symcbean Я прочитал предложенный вами пост и хотел бы услышать ваши мысли об этом альтернативном решении.
Francisco Luz 27 июнь 2013, в 01:51
0

Во-первых, вы дали мне стартовую идею для моего первого бота (teehee). Во-вторых, как вы узнали о производительности вашего решения? Вы работали с этим дальше и узнали что-нибудь еще? Я заинтересован в реализации чего-то похожего на драгирование через 26 000 изображений (1,3 ГБ), выполнение различных операций и т. Д. Это займет некоторое время. Твое единственное решение , которое не кажется Hacky, использование Exec () содрогнуться или требуют Linux (некоторые из нас проигравших все равно придется использовать Windows). Я предпочитаю учиться на твоих головах, а не на своих: P
Just Plain High 22 нояб. 2013, в 09:45
0

@HighPriestessofTheTech Привет, приятель, я не пошел дальше. В то время, когда я писал это, я просто проводил мысленный эксперимент.
Francisco Luz 23 нояб. 2013, в 14:13
1

О, дорогой ... Так что я буду учиться на собственных головных уборах ... Я дам вам знать, как это происходит;)
Just Plain High 23 нояб. 2013, в 16:07
1

Я попробовал это, и я нахожу это весьма полезным.
Alex 20 фев. 2014, в 13:29

Показать ещё 3 комментария

1

Вы можете отправить его как запрос XHR (Ajax). Клиенты обычно не имеют тайм-аута для XHR, в отличие от обычных HTTP-запросов.

JAL 07 фев. 2010, в 01:33

1

Я согласен с ответами, которые говорят, что это должно выполняться в фоновом режиме. Но также важно, чтобы вы сообщали о статусе, чтобы пользователь знал, что работа выполняется.

При получении запроса PHP для запуска процесса вы можете сохранить в базе данных представление задачи с уникальным идентификатором. Затем запустите процесс очистки экрана, передав ему уникальный идентификатор. Сообщайте iPhone-приложение, что задача была запущена, и что он должен проверить указанный URL-адрес, содержащий новый идентификатор задачи, чтобы получить последний статус. Приложение iPhone теперь может опросить (или даже "длинный опрос" ) этот URL. Тем временем фоновый процесс будет обновлять представление базы данных задачи, поскольку он работал с процентом завершения, текущим шагом или любыми другими индикаторами состояния. И когда он закончится, он установит завершенный флаг.

Jacob 06 фев. 2010, в 20:39

0

Не лучший подход, как многие здесь заявили, но это может помочь:

ignore_user_abort(1); // run script in background even if user closes browser
set_time_limit(1800); // run it for 30 minutes

// Long running script here

Lucas Bustamante 29 янв. 2019, в 20:34

0

если у вас длинный script, затем разделите работу страницы с помощью параметра ввода для каждой задачи. (тогда каждая страница действует как поток) если страница имеет 1 lac product_keywords длинный цикл процесса, то вместо цикла сделать логику для одного ключевого слова и передать это ключевое слово из магии или cornjobpage.php(в следующем примере)

и для фонового работника я думаю, что вы должны попробовать эту технику, это поможет назвать столько страниц, сколько вам понравится, все страницы будут запускаться сразу независимо, не ожидая, что каждый ответ на страницу будет асинхронным.

cornjobpage.php//mainpage

    <?php

post_async("http://localhost/projectname/testpage.php", "Keywordname=testValue");
//post_async("http://localhost/projectname/testpage.php", "Keywordname=testValue2");
//post_async("http://localhost/projectname/otherpage.php", "Keywordname=anyValue");
//call as many as pages you like all pages will run at once independently without waiting for each page response as asynchronous.
            ?>
            <?php

            /*
             * Executes a PHP page asynchronously so the current page does not have to wait for it to     finish running.
             *  
             */
            function post_async($url,$params)
            {

                $post_string = $params;

                $parts=parse_url($url);

                $fp = fsockopen($parts['host'],
                    isset($parts['port'])?$parts['port']:80,
                    $errno, $errstr, 30);

                $out = "GET ".$parts['path']."?$post_string"." HTTP/1.1\r\n";//you can use POST instead of GET if you like
                $out.= "Host: ".$parts['host']."\r\n";
                $out.= "Content-Type: application/x-www-form-urlencoded\r\n";
                $out.= "Content-Length: ".strlen($post_string)."\r\n";
                $out.= "Connection: Close\r\n\r\n";
                fwrite($fp, $out);
                fclose($fp);
            }
            ?>

testpage.php

    <?
    echo $_REQUEST["Keywordname"];//case1 Output > testValue
    ?>

PS: если вы хотите отправить параметры URL-адреса в виде цикла, выполните следующий ответ: https://stackoverflow.com/questions/5905877/how-to-run-the-php-code-asynchronous

Hassan Saeed 19 дек. 2016, в 16:00

0

то, что я ВСЕГДА использую, является одним из этих вариантов (поскольку разные варианты Linux имеют разные правила обработки выходных данных/некоторые программы выводятся по-разному):

Вариант I @exec ('./myscript.php\1 > /dev/null\2 > /dev/null &');

Вариант II @exec ('php -f myscript.php\1 > /dev/null\2 > /dev/null &');

Вариант III @exec ('nohup myscript.php\1 > /dev/null\2 > /dev/null &');

У вас может быть установка "nohup". Но, например, когда я автоматизировал конвертации видео FFMPEG, интерфейс вывода каким-то образом не обрабатывался на 100% путем перенаправления выходных потоков 1 и 2, поэтому я использовал nohup AND перенаправил вывод.

dr burns 07 сен. 2011, в 12:23

0

Используйте прокси для делегирования запроса.

zerodin 29 окт. 2010, в 23:35

0

Я сделал аналогичные вещи с Perl, double fork() и отсоединением от родительского процесса. Вся работа по настройке HTTP должна выполняться в разветвленном процессе.

Alexandr Ciornii 06 фев. 2010, в 19:56

Ещё вопросы

Хотя вы не упоминали об этом на языках, поддерживаемых вашим сервером, я думаю, если у вас есть возможность запускать Ruby и Perl, вы, вероятно, могли бы добавить Node.js, и это звучит для меня как идеальный вариант использования для Javascript : ваш сценарий будет тратить большую часть своего времени на ожидание выполнения запросов, что является областью, в которой превосходит парадигма асинхронности. Никакие потоки не означают простую синхронизацию, параллелизм означает ускорение.
Вы можете сделать это с помощью PHP. Я бы использовал Goutte и Guzzle для реализации потоков параллелизма. Вы также можете взглянуть на Gearman для запуска параллельных запросов в виде рабочих.
Таким образом, метод ignore_user_abort позволит пользователю закрыть окно браузера, но можно ли что-то сделать, чтобы он возвращал HTTP-ответ клиенту до его завершения?
@kbanman Да. Вам необходимо закрыть соединение: header("Connection: close", true); , И не забудьте промыть ()
Почти верно. Просто с помощью exec или система вернется, чтобы укусить вас за задницу. Смотрите мой ответ для деталей.
Полный пример: exec ("[your-command]> / dev / null &");
Фактическая обработка моего соскоба очень эффективна. Как я упоминал выше, загрузка каждой страницы убивает меня. Что мне было интересно, так это то, что PHP должен работать так долго.
Я немного предвзят, потому что после изучения Python я просто ненавижу PHP. Однако, если вы копируете более одной страницы (последовательно), вы почти наверняка получите лучшую производительность, выполнив ее параллельно с многопоточным приложением.
Есть ли шанс, что вы могли бы прислать мне пример такого скребка страницы? Это помогло бы мне увидеть все, потому что я еще не прикасался к Python.
Если бы мне пришлось переписать его, я бы просто использовал eventlet. Это делает мой код примерно в 10 раз проще: eventlet.net/doc
@symcbean Я прочитал предложенный вами пост и хотел бы услышать ваши мысли об этом альтернативном решении.
Во-первых, вы дали мне стартовую идею для моего первого бота (teehee). Во-вторых, как вы узнали о производительности вашего решения? Вы работали с этим дальше и узнали что-нибудь еще? Я заинтересован в реализации чего-то похожего на драгирование через 26 000 изображений (1,3 ГБ), выполнение различных операций и т. Д. Это займет некоторое время. Твое единственное решение , которое не кажется Hacky, использование Exec () содрогнуться или требуют Linux (некоторые из нас проигравших все равно придется использовать Windows). Я предпочитаю учиться на твоих головах, а не на своих: P
@HighPriestessofTheTech Привет, приятель, я не пошел дальше. В то время, когда я писал это, я просто проводил мысленный эксперимент.
О, дорогой ... Так что я буду учиться на собственных головных уборах ... Я дам вам знать, как это происходит;)
Я попробовал это, и я нахожу это весьма полезным.

symcbean · Accepted Answer · 2010-02-07T00-58-00.000Z

102

Лучший ответ

Конечно, это можно сделать с помощью PHP, однако вы НЕ должны делать это как фоновая задача - новый процесс должен быть удален из группы процессов, в которой он запущен.

Поскольку люди продолжают давать тот же неверный ответ на этот FAQ, я написал более полный ответ здесь:

http://symcbean.blogspot.com/2010/02/php-and-long-running-processes.html

Из комментариев:

Короткий вариант shell_exec('echo /usr/bin/php -q longThing.php | at now');, но причины, по которым здесь немного времени для включения.

symcbean 07 фев. 2010, в 00:58

4

+1 Твердый и подробный ответ на этот пост.
wimvds 29 апр. 2010, в 12:16
0

Этот пост является реальным ответом. В exec & system PHP слишком много потенциальных ловушек.
incredimike 13 март 2013, в 17:45
0

@symcbean Я прочитал предложенный вами пост и хотел бы услышать ваши мысли о моем альтернативном решении ниже (ctrl + f для Francisco Luz). ура
Francisco Luz 27 июнь 2013, в 01:54
0

К вашему сведению, я столкнулся с ситуациями, когда | at now (и | batch ) организация очередей отбрасывается, и задачи никогда не выполняются. Обычно это происходит под нагрузкой, но я так и не смог полностью разобраться в проблеме.
DOOManiac 05 март 2014, в 21:10
0

Да, atd обычно не запускает задания, если нагрузка выше определенного порога. Но в большинстве дистрибутивов это настраиваемый параметр (обычно в / etc / sysconfig / atd)
symcbean 05 март 2014, в 23:28
2

есть ли шанс скопировать соответствующие детали в ответ? слишком много старых ответов, которые ссылаются на мертвые блоги. Этот блог не умер (пока), но будет однажды.
Murphy 02 июнь 2015, в 14:22
5

Краткая версия - shell_exec('echo /usr/bin/php -q longThing.php | at now'); но причины, по которым здесь много времени для включения
symcbean 02 июнь 2015, в 14:44
1

Ответ с большим количеством голосов на вопрос с большим количеством голосов, но ответ не содержит намного больше, чем ссылка на пост в блоге. Пожалуйста, добавьте фактический ответ согласно meta.stackexchange.com/questions/8231/… и / или в справочный центр.
Nanne 20 апр. 2017, в 08:35
0

Это не работает для меня ... страница PHP по-прежнему зависает, пока внешний скрипт не завершит обработку.
BSUK 22 апр. 2017, в 02:45
0

Работает с этим в конце, хотя:> / dev / null 2> & 1 &
BSUK 22 апр. 2017, в 02:50
0

.... и именно поэтому я поставил правильное обсуждение проблемы в другом месте.
symcbean 22 апр. 2017, в 08:02
1

могу я узнать, что делает эта опция -q?
Kiren Siva 14 фев. 2019, в 07:08
0

Это не работает для меня, я протестировал следующее: exec ('print `echo / usr / bin / php --version | сейчас> / home / petar / Downloads / test.txt`;'); и test.txt создается, но он пуст, понимаете, что я делаю не так?
Petar Vasilev 17 фев. 2019, в 11:08
0

Дополнительное обсуждение в связанной статье - пользователь должен быть включен в /etc/at.allow, selinux / apparmor требует особых соображений, не будет работать, если PHP выполняет chroot, разрешения должны позволять запускать at и целевой процесс, синтаксис реализации зависит от того, какой путь задан правильно.
symcbean 17 фев. 2019, в 22:23

Показать ещё 12 комментариев