Скачайте и распакуйте tar-файл в Python кусками

Question

Скачайте и распакуйте tar-файл в Python кусками

1

Я пытаюсь использовать pycurl чтобы загрузить файл tgz и извлечь его с помощью tarfile, но не сохраняя файл tgz на диске и не имея всего tgz файла в памяти. Я хотел бы загрузить его и извлечь его в куски, потоковые.

Я знаю, как получить обратный вызов pycurl, который дает мне данные каждый раз, когда загружается новый кусок данных:

def write(data):
    # Give data to tarfile to extract.
    ...

with contextlib.closing(pycurl.Curl()) as curl:
    curl.setopt(curl.URL, tar_uri)
    curl.setopt(curl.WRITEFUNCTION, write)
    curl.setopt(curl.FOLLOWLOCATION, True)
    curl.perform()

Я также знаю, как открыть tarfile в потоковом режиме:

output_tar = tarfile.open(mode='r|gz', fileobj=fileobj)

Но я не знаю, как соединить эти две вещи вместе, так что каждый раз, когда я получаю кусок по проводу, извлекается следующий фрагмент файла tar.

Mitar 09 июль 2018, в 12:24

Источник

0

msgstr "скачать файл tgz и распаковать его (...), но не сохраняя ничего на диске и не имея всего файла tgz в памяти" => Err, я не уверен, что это вообще возможно.
bruno desthuilliers 09 июль 2018, в 10:01
0

Я обновил язык. Но да, это возможно. curl tar_uri | tar -xz делает это вне Python. Как я могу сделать это в Python?
Mitar 09 июль 2018, в 10:02
0

Где вы видели этот curl tar_uri | tar -xz ничего не хранит на диске или в памяти?
bruno desthuilliers 09 июль 2018, в 10:04
0

Он не хранит на диске файл tar (он переходит по каналу к программе tar ). И да, он сохраняет немного в памяти при загрузке, но не весь tar-файл.
Mitar 09 июль 2018, в 10:05
1

@brunodesthuilliers Это определенно возможно. Файлы tar не имеют центрального каталога (в основном это просто записи файлов один за другим), и gzip может быть распакован как поток.
AKX 09 июль 2018, в 10:22
0

Хорошо, тогда это действительно возможно ;-)
bruno desthuilliers 09 июль 2018, в 10:23

Показать ещё 4 комментария

Теги:

python

1 ответ

Ещё вопросы

msgstr "скачать файл tgz и распаковать его (...), но не сохраняя ничего на диске и не имея всего файла tgz в памяти" => Err, я не уверен, что это вообще возможно.
Я обновил язык. Но да, это возможно. curl tar_uri | tar -xz делает это вне Python. Как я могу сделать это в Python?
Где вы видели этот curl tar_uri | tar -xz ничего не хранит на диске или в памяти?
Он не хранит на диске файл tar (он переходит по каналу к программе tar ). И да, он сохраняет немного в памяти при загрузке, но не весь tar-файл.
@brunodesthuilliers Это определенно возможно. Файлы tar не имеют центрального каталога (в основном это просто записи файлов один за другим), и gzip может быть распакован как поток.
Хорошо, тогда это действительно возможно ;-)

AKX · Answer 1 · 2018-07-09T07-42-00.000Z

Если честно, если вы действительно ищете решение с чистым Python (это возможно, довольно утомительно), я бы предложил просто выложить в /usr/bin/tar и передать данные в куски.

Что-то вроде

import subprocess
p = subprocess.Popen(['/usr/bin/tar', 'xz', '-C', '/my/output/directory'], stdin=subprocess.PIPE)

def write(data):
    p.stdin.write(data)

with ...:
    curl.perform()

p.close()

Да, это также то, что я думал как обходной путь. Это бы сработало, но мне было интересно, как это сделать на чистом Python. В ноде я просто собрал бы все вместе, но в Python это кажется намного сложнее.