Python - преобразование JSON с Pandas в CSV

Question

Python - преобразование JSON с Pandas в CSV

1

Я работаю с файлом JSON, у которого есть вложенные объекты. Данные разделяются на столбцы и строки.

Данные столбцов должны быть в отдельных столбцах и в объекте rows, номера внутри него должны быть связаны с соответствующими столбцами, например:

Глубина: 1, 2, 3, 4, 5
Page_Count: 1, 661, 16773 и т.д.

До сих пор мне не удалось преобразовать файл в этот формат, как я могу это сделать?

 {
      "aggs": [
        {
          "cols": [
            "depth",
            "page_count"
          ],
          "rows": [
            [
              1,
              1
            ],
            [
              2,
              661
            ],
            [
              3,
              16773
            ],
            [
              4,
              7078
            ],
            [
              5,
              221
            ]
          ]
        }
      ]
    }

Конечный продукт должен выглядеть примерно так:

    depth | page_count
    -----:|----------:
        1 |          1
        2 |        661
        3 |      16773
        4 |       7078
        5 |        221

Johnny Guitar 10 окт. 2018, в 23:44

Источник

1

Что вы пробовали и что случилось? Также, пожалуйста, попробуйте уточнить ваше описание того, как расположены данные и как вы хотите, чтобы они были расположены.
Stuart 10 окт. 2018, в 21:11
0

Данные внутри столбцов - это отдельные столбцы в файле CSV. Данные внутри «строк» присваиваются столбцам. Это конфигурация: Глубина 1 2 3 4 5 Page_Count 1, 661, 16773
Johnny Guitar 10 окт. 2018, в 21:18
0

@Stuart Я обновил последнюю строку поста с изображением того, что я пытаюсь достичь
Johnny Guitar 10 окт. 2018, в 21:20

Показать ещё 1 комментарий

Теги:

python

pandas

csv

json

3 ответа

1

Насколько я вижу, pandas.read_json не может обрабатывать данные в этом формате, поэтому json.loads вы должны прочитать его с помощью json.loads (или json.load из файла).

import pandas as pd
import json
data = """{"aggs": [{"rows": [[1, 1], [2, 661], [3, 16773], [4, 7078], 
        [5, 221]], "cols": ["depth", "page_count"]}]}"""

main_data = json.loads(data)["aggs"][0]
df = pd.DataFrame(columns=main_data['cols'], data=main_data['rows'])
df.to_csv("my_file.csv")

Stuart 10 окт. 2018, в 19:46

0

Ваше решение работает отлично, но я получаю эту ошибку с моей File TypeError: объект JSON должен быть str, байтами или bytearray, а не dict
Johnny Guitar 10 окт. 2018, в 21:43
0

Тогда ваши данные, вероятно, диктовать для начала? Так что нет необходимости в json.loads
Stuart 10 окт. 2018, в 23:38

0

Этот пример принимает первое значение aggs и преобразует его в csv

import pandas as pd
import json
data = json.loads(json_text)['aggs'][0]
pd.DataFrame(data['rows'], columns = data['cols']).to_csv('output.csv')

Просто переверните aggs если вы ожидаете более одной таблицы за json_text

Uri Goren 10 окт. 2018, в 19:11

0

Ваше решение работает отлично, но я получаю эту ошибку с моей File TypeError: объект JSON должен быть str, байтами или bytearray, а не dict
Johnny Guitar 10 окт. 2018, в 21:44
0

Вы использовали dict для json_text а не строку, как предполагает ваш вопрос. просто замените json.loads(json_text) только на json_text
Uri Goren 11 окт. 2018, в 09:22

Ещё вопросы

Что вы пробовали и что случилось? Также, пожалуйста, попробуйте уточнить ваше описание того, как расположены данные и как вы хотите, чтобы они были расположены.
Данные внутри столбцов - это отдельные столбцы в файле CSV. Данные внутри «строк» присваиваются столбцам. Это конфигурация: Глубина 1 2 3 4 5 Page_Count 1, 661, 16773
@Stuart Я обновил последнюю строку поста с изображением того, что я пытаюсь достичь
Ваше решение работает отлично, но я получаю эту ошибку с моей File TypeError: объект JSON должен быть str, байтами или bytearray, а не dict
Тогда ваши данные, вероятно, диктовать для начала? Так что нет необходимости в json.loads
Ваше решение работает отлично, но я получаю эту ошибку с моей File TypeError: объект JSON должен быть str, байтами или bytearray, а не dict
Вы использовали dict для json_text а не строку, как предполагает ваш вопрос. просто замените json.loads(json_text) только на json_text

d_kennetz · Accepted Answer · 2018-10-10T19-52-00.000Z

Эти json-форматы в конечном итоге являются вложенными dicts, поэтому я обработал его следующим образом:

import pandas as pd
import os

x =  {
  "aggs": [
    {
      "cols": [
        "depth",
        "page_count"
      ],
      "rows": [
        [
          1,
          1
        ],
        [
          2,
          661
        ],
        [
          3,
          16773
        ],
        [
          4,
          7078
        ],
        [
          5,
          221
        ]
      ]
    }
  ]
}

dfrows = []
dfcolumns = []
for y,z in x.items(): # x.items() is a nested dict with aggs is outer key x and z is list as the value of aggs:
    for a in z: # a accesses the inner dict in the list
        for j,k in a.items(): # key, value of rows and cols in inner dict
            if j == 'rows':
                dfrows.append(k) # make list of list of row values
            if j == 'cols':
                dfcolumns.append(k) # make list of list of column names

rows_flat_list = [item for x in dfrows for item in x] # flatten out list
columns_flat_list = [item for x in dfcolumns for item in x] # flatten out list

dfJson = pd.DataFrame(data = rows_flat_list, columns= columns_flat_list) # create df

dfJson.to_csv('./dfJson.csv', index=False) # write to csv

вывод csv файла выглядит (или если вы открываете с excel, это формат excelfile):

depth,page_count
1,1
2,661
3,16773
4,7078
5,221

Я не знаю почему, но я получаю dfJson не определить, когда я пытаюсь это решение!
Если вы скопировали его напрямую, возможно, попробуйте снова. Внутри цикла for была проблема с отступами, которую я только что исправил (один отступ имел на один пробел меньше, чем должен). Я просто снова запустил код, и он работает нормально для меня!
Я сделал, получил ту же ошибку еще!
Я хотел бы выяснить это и пометить его как правильный ответ, потому что у меня так много вопросов с этим, и ваш ответ пока самый лучший!
Кажется, ошибка здесь: если j == 'cols': dfJson.columns = k # сделать имена столбцов cols dfJson.to_csv ('./ Desktop / dfJson.csv', index = False)
Что произойдет, если вы print(dfJson) внутри последнего оператора if, например, if j == 'cols': dfJson.columns = k print(dfJson)
попробуйте напечатать dfJson в последнем операторе if, чтобы увидеть, заполняет ли он df, если это так, мы можем записать df в csv в этом операторе if, и я думаю, что все будет в порядке.
если j == 'cols': dfJson.columns = k print (dfJson), это также дает неверный синтаксис: if j == 'cols': print (dfJson), но это дает dfJson не определено
Я не знаю, почему это не является определяющим для вас. это странно!
Я имею в виду поставить print(dfJson) на отдельной строке под оператором dfJson.columns = k. Это не будет недействительным синтаксисом
Могу ли я связаться с вами через чат? или по электронной почте? мой это: [email protected]
Я отредактировал свой ответ, попробуйте его, и если он не работает, мы можем использовать чат здесь.
Да, я попытался напечатать, например, так: если j == 'строки': dfJson = pd.DataFrame (k) # сделать строки значения строк, если j == 'cols': dfJson.columns = k print (dfJson)
Все еще не определено с новым отредактированным кодом, я не могу перейти в чат, кажется, у меня недостаточно репутации