Python: загрузка нескольких файлов по очереди

1

В цикле script выполняется загрузка и сохранение файлов (завиток). Но циклические итерации слишком быстрые, поэтому для загрузки и сохранения действий нет времени для завершения операций. Приведенные файлы результатов ломаются

def get_images_thread(table):
    class LoopThread ( threading.Thread ):
        def run ( self ):
            global db
            c=db.cursor()
            c.execute(""" SELECT * FROM js_stones ORDER BY stone_id LIMIT 1
                            """)           
            ec = EasyCurl(table)

            while(1):
                stone = c.fetchone()
                if stone == None:
                    break
                img_fname = stone[2]
                print img_fname
                url = "http://www.jstone.it/"+img_fname
                fname = url.strip("/").split("/")[-1].strip()
                ec.perform(url, filename="D:\\Var\\Python\\Jstone\\downloadeble_pictures\\"+fname, 
                                    progress=ec.textprogress)
  • 0
    Что вы подразумеваете под «(завиток)»? Используете ли вы привязки Python - PyCURL или утилиту командной строки? Было бы полезно, если бы вы опубликовали часть своего кода.
  • 0
    здесь проблемный раздел моего кода
Показать ещё 2 комментария
Теги:

2 ответа

4
Лучший ответ

Это выдержка из примеров для библиотеки PycURL,

# Make a queue with (url, filename) tuples
queue = Queue.Queue()
for url in urls:
    url = url.strip()
    if not url or url[0] == "#":
        continue
    filename = "doc_%03d.dat" % (len(queue.queue) + 1)
    queue.put((url, filename))


# Check args
assert queue.queue, "no URLs given"
num_urls = len(queue.queue)
num_conn = min(num_conn, num_urls)
assert 1 <= num_conn <= 10000, "invalid number of concurrent connections"
print "PycURL %s (compiled against 0x%x)" % (pycurl.version, pycurl.COMPILE_LIBCURL_VERSION_NUM)
print "----- Getting", num_urls, "URLs using", num_conn, "connections -----"


class WorkerThread(threading.Thread):
    def __init__(self, queue):
        threading.Thread.__init__(self)
        self.queue = queue

    def run(self):
        while 1:
            try:
                url, filename = self.queue.get_nowait()
            except Queue.Empty:
                raise SystemExit
            fp = open(filename, "wb")
            curl = pycurl.Curl()
            curl.setopt(pycurl.URL, url)
            curl.setopt(pycurl.FOLLOWLOCATION, 1)
            curl.setopt(pycurl.MAXREDIRS, 5)
            curl.setopt(pycurl.CONNECTTIMEOUT, 30)
            curl.setopt(pycurl.TIMEOUT, 300)
            curl.setopt(pycurl.NOSIGNAL, 1)
            curl.setopt(pycurl.WRITEDATA, fp)
            try:
                curl.perform()
            except:
                import traceback
                traceback.print_exc(file=sys.stderr)
                sys.stderr.flush()
            curl.close()
            fp.close()
            sys.stdout.write(".")
            sys.stdout.flush()


# Start a bunch of threads
threads = []
for dummy in range(num_conn):
    t = WorkerThread(queue)
    t.start()
    threads.append(t)


# Wait for all threads to finish
for thread in threads:
    thread.join()
  • 0
    Очередь, да. Это то, что мне нужно, Thnx
  • 0
    Это здорово, Джесси, спасибо.
-2

Если вы спрашиваете, что я думаю, вы спрашиваете,

from time import sleep
sleep(1)

должен "решить" (он взламывает максимальную!) вашу проблему. Docs здесь. Я бы проверял, что это действительно ваша проблема. Кажется катастрофически маловероятным, что пауза в течение нескольких секунд перестанет скачивать файлы. Еще одна деталь будет приятной.

os.waitpid()

также может помочь.

  • 0
    да, sleep (1) или sleep (20) или sleep (60) - это решение, но я хочу больше оптимизировать способ начать следующую итерацию именно тогда, когда система будет готова обработать следующий файл
  • 0
    Это не правильный ответ вообще. Вы должны использовать методы параллелизма, чтобы сделать это правильно.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню