Как вы читаете отдельные куски cUrl?

Question

Как вы читаете отдельные куски cUrl?

1

Есть ли способ загрузить с URL-адреса и сохранить каждый отдельный фрагмент, когда он возвращается с сервера, чтобы разделить файл на анализ?

У меня проблема, когда я думаю, что сервер рубит конец выхода json, но компания, с которой мы получаем ответы, говорит "нет, это не так",

когда мы скручиваемся на терминале, он останавливается на том, что, по моему мнению, является куском, и нажатие вводит больше данных, это определенно кусок?

В противном случае я бы хотел найти скрипт, который сохранит каждый фрагмент в файл.

Joseph Le Brech 18 янв. 2012, в 13:26

Источник

Теги:

python

bash

curl

ruby

2 ответа

2

Я не знаю, как сделать curl делать то, что вы хотите (я даже не думаю, что это возможно с использованием API сокетов BSD), но я думаю, что могу помочь вам отладить вашу проблему.

Я думаю, что вам нужен пакетный сниффер, такой как Wireshark, который позволит вам проверять содержимое пакета и точно видеть, что происходит "на проводе".

cha0site 18 янв. 2012, в 09:13

0

как curl возвращает отдельные куски? он посылает escape-символ между кусками? это объяснило бы, почему это останавливается на том, что я думаю - кусок.
Joseph Le Brech 18 янв. 2012, в 12:39
0

+1 для wireshark, отлично подходит для диагностики подобных проблем
muffinista 18 янв. 2012, в 12:45
0

Я не думаю, что curl возвращает отдельные куски вообще. TCP-соединения не имеют понятия чанков, только потоки и окна.
cha0site 18 янв. 2012, в 12:47

Показать ещё 1 комментарий

Ещё вопросы

как curl возвращает отдельные куски? он посылает escape-символ между кусками? это объяснило бы, почему это останавливается на том, что я думаю - кусок.
+1 для wireshark, отлично подходит для диагностики подобных проблем
Я не думаю, что curl возвращает отдельные куски вообще. TCP-соединения не имеют понятия чанков, только потоки и окна.

jfs · Accepted Answer · 2012-01-18T09-53-00.000Z

На основе примеров из документов для объекта pycurl.Curl():

#!/usr/bin/env python
import sys
from contextlib import closing as C

import pycurl

class Writer:
   def __init__(self, file):
       self.file = file

   def write(self, data):
       sys.stderr.write(data)
       self.file.write(data)

   def close(self):
       self.file.close()

url = 'http://stackoverflow.com/questions/8909710/'
with C(pycurl.Curl()) as c, C(Writer(open('output','wb'))) as w:
    c.setopt(c.URL, url)
    c.setopt(c.WRITEFUNCTION, w.write)
    c.setopt(c.FOLLOWLOCATION, True)
    c.perform()
    print >>sys.stderr, c.getinfo(c.HTTP_CODE), c.getinfo(c.EFFECTIVE_URL)

@Joseph Le Brech: w.write() libcurl, как только получаются данные, которые необходимо сохранить. Это может быть 1 байт, это может быть 100 КБ. Внутри этой функции вы можете объединить / нарезать ее, чтобы получить свои чанки (что бы ни значил чанк). Я добавил sys.stderr.write(data) чтобы вы могли видеть данные по мере их поступления.
под кусками я подразумеваю буферизацию со стороны сервера.
@Joseph Le Brech: Вы можете использовать chunked-server.py, чтобы проверить, что вышеприведенный код pycurl действительно получает данные в виде «кусков».