Сброс данных в панду df

Question

Сброс данных в панду df

1

Я пытаюсь получить более 10 000 наблюдений от эластичного поиска и сбросить их в рамки данных панд:

es_index = "logstash-2018.08.26"
documento = "your_doc_type"


body = {"from": 0, "size": 100,
    "query": {
        "constant_score" : {
            "filter" : {
                 "bool" : {
                    "must" : [{
              "range": {"@timestamp" : {
                "gte": "2018-08-26T14:00:08.000Z", 
                "lte": "2018-08-26T16:00:00.000Z"

            }}
          }],
                   "filter": [
                        {"term"  :{"type" :"vx_apache_json"}},
                        {"term"  :{"api" :"viv_signin.php"}},
                        {"term"  :{"domain":"fnwp"}}




                   ]
                 }}}}}

res = helpers.scan(
                client = es,
                scroll = '2s',
                query = body, 
                index = es_index)

и когда я пытаюсь получить значение res, я получаю

<generator object scan at 0x10c89a938>

Когда я использовал приведенный ниже код.

for i in res:
 print(i)

Я получаю данные в следующем формате

Я хочу преобразовать это в кадр данных pandas, как показано ниже: -

ak333 29 авг. 2018, в 16:24

Источник

1

опубликовать пример вывода. Как вы хотите, чтобы ваш df выглядел как
Rahul Agarwal 29 авг. 2018, в 13:29
1

Есть ли причина не использовать pd.read_json ()? pandas.pydata.org/pandas-docs/stable/generated/...
erratic_strategist 29 авг. 2018, в 13:36
0

pd.read_json(res)
jalazbe 29 авг. 2018, в 13:48
0

@jalazbe я попытался и получил эту ошибку "ValueError: Неверный путь к файлу или тип объекта буфера: <class 'generator'>"
user10177566 29 авг. 2018, в 14:13
0

@RahulAgarwal нормальный датафрейм панд .. я редактировал пост
user10177566 29 авг. 2018, в 14:14
0

попробуйте это: pd.read_json (res, orient = 'split')
Rahul Agarwal 29 авг. 2018, в 14:24
0

@RahulAgarwal по-прежнему та же проблема "Неверный путь к файлу или тип объекта буфера: <class 'generator'>"
user10177566 29 авг. 2018, в 14:44

Показать ещё 5 комментариев

Теги:

python

pandas

python-3.x

elasticsearch

2 ответа

0

Храните все данные в переменной и затем конвертируйте эту переменную в фрейм данных, используя pd.DataFrame(YourVariable).

Kshitij Yadav 29 авг. 2018, в 13:26

0

Можете ли вы привести это в пример, как теоретически я знаю, но не в состоянии выполнить
user10177566 29 авг. 2018, в 14:43

Ещё вопросы

опубликовать пример вывода. Как вы хотите, чтобы ваш df выглядел как
Есть ли причина не использовать pd.read_json ()? pandas.pydata.org/pandas-docs/stable/generated/...
@jalazbe я попытался и получил эту ошибку "ValueError: Неверный путь к файлу или тип объекта буфера: <class 'generator'>"
@RahulAgarwal нормальный датафрейм панд .. я редактировал пост
попробуйте это: pd.read_json (res, orient = 'split')
@RahulAgarwal по-прежнему та же проблема "Неверный путь к файлу или тип объекта буфера: <class 'generator'>"
Можете ли вы привести это в пример, как теоретически я знаю, но не в состоянии выполнить

ak3191 · Accepted Answer · 2018-08-29T15-40-00.000Z

Я могу предложить вам лучший способ сделать это. Думаю, вы пытаетесь получить более 10 000 записей. Попробуйте сделать это ниже, и вы также получите миллионы записей :: -

сначала установить

from elasticsearch_dsl import Search

1.) Определите своего клиента

client = Elasticsearch(['http://localhost:9200'])

2.) search = Search(using=client)

3.) Проверить общее количество обращений

results = search.execute()
results.hits.total

4.) s = Search(using=client)

5.) запишите свой запрос

s = s.query(..write your query here...)

6.) сбрасывает данные в кадр данных с проверкой... Сканирование будет сбрасывать все данные в ваш кадр данных, даже если его в миллиардах так быть осторожным.

results_df = pd.DataFrame((d.to_dict() for d in s.scan()))

7.) Посмотрите на свой фрейм данных и улыбнитесь :)

results_df