Как исправить json_normalize, когда он не может перебрать столбец для выравнивания?

Question

Как исправить json_normalize, когда он не может перебрать столбец для выравнивания?

2

У меня есть датафрейм, который выглядит так:

ID       phone_numbers
1        [{u'updated_at': u'2017-12-02 15:29:54', u'created_at': u'2017-12-0 
          2 15:29:54', u'sms': 0, u'number': u'1112223333', u'consumer_id': 
          12345, u'organization_id': 1, u'active': 1, u'deleted_at': 
           None, u'type': u'default', u'id': 1234}]

Я хочу взять столбец phone_numbers и сгладить информацию внутри него, чтобы я мог запросить, скажем, поле 'id'.

Когда я пытаюсь;

json_normalize(df.phone_numbers)

Я получаю ошибку:

AttributeError: у объекта 'str' нет атрибута 'itervalues'

Я не уверен, почему эта ошибка возникает и почему я не могу сгладить этот столбец.

РЕДАКТИРОВАТЬ:

Первоначально строка JSON читается из объекта ответа (r.text):

https://docs.google.com/document/d/1Iq4PMcGXWx6O48sWqqYnZjG6UMSZoXfmN1WadQLkWYM/edit?usp=sharing

РЕДАКТИРОВАТЬ:

С помощью этой команды преобразовал столбец, который мне нужно выровнять в JSON

a = df.phone_numbers.to_json()

{"0":[{"updated_at":"2018-04-12 12:24:04","created_at":"2018-04-12 12:24:04","sms":0,"number":"","consumer_id":123,"org_id":123,"active":1,"deleted_at":null,"type":"default","id":123}]}

RustyShackleford 03 июль 2018, в 14:24

Источник

0

Одна идея, DataFrame создан из json ? Может быть, лучше использовать df = json_normalize(json)
jezrael 03 июль 2018, в 11:50
0

Я попробовал это, так как я получаю ответ json через API. но я получаю ту же ошибку, что и выше
RustyShackleford 03 июль 2018, в 12:17
0

ОК, можно добавить образец JSON?
jezrael 03 июль 2018, в 12:18
0

@jezrael Jezrael, в ответе JSON есть информация о пациенте, я никак не могу опубликовать это, даже если я вычистил, мне страшно что-то пропустить. Однако ошибка, которую я получаю при передаче объекта json в json_normalize, это ошибка атрибута '' объект unicode 'не имеет атрибута' itervalues '
RustyShackleford 03 июль 2018, в 12:21
0

Похоже, что каждая запись в столбце phone_numbers представляет собой список длиной 1 строки JSON. Вместо просто строки JSON. Проверьте точное содержание, чтобы быть уверенным.
smci 24 май 2019, в 23:14

Показать ещё 3 комментария

Теги:

python

pandas

json

2 ответа

2

Я не уверен, но я думаю, что json normalize ожидает в качестве первого аргумента json, а не pd.series, pd.series преобразует серию в dict или список dict. Вы можете использовать to_dict()

json_normalize(df.phone_numbers.to_dict())

alvaro nortes 03 июль 2018, в 09:15

1

Когда я попробовал это, он преобразовал весь столбец в один ряд.
RustyShackleford 03 июль 2018, в 12:18

Ещё вопросы

Одна идея, DataFrame создан из json ? Может быть, лучше использовать df = json_normalize(json)
Я попробовал это, так как я получаю ответ json через API. но я получаю ту же ошибку, что и выше
@jezrael Jezrael, в ответе JSON есть информация о пациенте, я никак не могу опубликовать это, даже если я вычистил, мне страшно что-то пропустить. Однако ошибка, которую я получаю при передаче объекта json в json_normalize, это ошибка атрибута '' объект unicode 'не имеет атрибута' itervalues '
Похоже, что каждая запись в столбце phone_numbers представляет собой список длиной 1 строки JSON. Вместо просто строки JSON. Проверьте точное содержание, чтобы быть уверенным.
Когда я попробовал это, он преобразовал весь столбец в один ряд.

jezrael · Accepted Answer · 2018-07-03T10-35-00.000Z

3

Лучший ответ

Используйте понимание списка с выравниванием и добавлением нового ID элемента в словарь:

df = pd.DataFrame({'ID': [1, 2], 'phone_numbers': [[{'a': '2017', 'b': '2017', 'sms': 1}, 
                                                    {'a': '2018', 'b': '2017', 'sms': 2}], 
                                                  [{'a': '2017', 'b': '2017', 'sms': 3}]]})
print (df)
   ID                                      phone_numbers
0   1  [{'a': '2017', 'b': '2017', 'sms': 1}, {'a': '...
1   2             [{'a': '2017', 'b': '2017', 'sms': 3}]

df = pd.DataFrame([dict(y, ID=i) for i, x in df.values.tolist() for y in x])
print (df)  

   ID     a     b  sms
0   1  2017  2017    1
1   1  2018  2017    2
2   2  2017  2017    3

РЕДАКТИРОВАТЬ:

df = pd.DataFrame({'phone_numbers':{"0":[{"type":"default","id":123}]}})

df = pd.DataFrame([y for x in df['phone_numbers'].values.tolist() for y in x])
print (df) 
    id     type
0  123  default

jezrael 03 июль 2018, в 10:35

0

извините за задержку с ответом. Когда я запустил указанную выше строку, я получил ошибку «слишком много значений для распаковки». Я думаю, что проблема, возможно, в том, что поле идентификатора встроено во вложенный json, а не как отдельный столбец. Как вы думаете, поэтому ваш код не работает для меня?
RustyShackleford 04 июль 2018, в 14:59
0

После ввода столбца идентификатора я все еще получаю сообщение об ошибке «слишком много значений для распаковки»
RustyShackleford 04 июль 2018, в 15:07
0

@RustyShackleford - возможно ли изменение входных данных? Лучший образец json с анонимными данными.
jezrael 04 июль 2018, в 15:08
1

уверен, что я буду анонимизировать входные данные, дайте мне время, чтобы тщательно их очистить
RustyShackleford 04 июль 2018, в 15:13
0

Я загрузил документ на диск. Я записал строку JSON из вызова API в слово doc, заменил все поля словом «FIELD». Пожалуйста, дайте мне знать, если это поможет. Также я не смог найти окончание одной записи и начало следующей, поэтому это вся строка.
RustyShackleford 04 июль 2018, в 16:41
0

@RustyShackleford - немного сумасшедший пример, спасибо. Я редактирую ваш json, потому что он недействителен - некоторые "" отсутствовали, а первый и последний символ были " . Также для меньшего размера данных была заменена FIELD на i - выборочные данные
jezrael 05 июль 2018, в 05:54
0

@RustyShackleford - Затем было применено это решение , но выходной DataFrame действительно вложенный. Я использую with open('A.txt') as data_file: data = json.load(data_file) а затем df1= json_normalize(data) или df2 = json_normalize(data, 'iii', ['ii','iii_iiiiii'], meta_prefix='_') или df3 = json_normalize(data, 'iiiiiiiiii', ['ii','iii_iiiiii'], meta_prefix='_') . Можете ли вы указать, какие данные нужно анализировать, какой столбец образует этот пример данных? Спасибо.
jezrael 05 июль 2018, в 05:57
0

И никаких проблем с задержкой :)
jezrael 05 июль 2018, в 06:00
0

Я думаю, что сделал открытие. Фрейм данных, в котором я читал, взят из CSV. Вложенный столбец JSON содержит двойные кавычки, добавляя его к следующему: «[{}]». Однако в производстве это не будет иметь место, и когда я запускаю фрейм данных, который я хочу развернуть через json_normalize, например, так (без кавычек), 'json_normalize (df.phone_numbers [0])', строка снимается. Однако я не могу запустить это на каждой строке в столбце
RustyShackleford 05 июль 2018, в 11:51
0

@RustyShackleford - Возможно ли преобразовать данные в JSON? Потому что не уверен, что понимаю :(
jezrael 05 июль 2018, в 11:59
0

я добавил данные JSON.
RustyShackleford 05 июль 2018, в 12:08
0

Так id колонки не нужен? Нужен только Dataframe из столбца df.phone_numbers ?
jezrael 05 июль 2018, в 12:12
0

это верно.
RustyShackleford 05 июль 2018, в 12:12
0

Я попытался перенести столбец phone_numbers в список, но все равно получаю ту же ошибку, когда json_normalize не может перебрать список.
RustyShackleford 05 июль 2018, в 12:13
0

@RustyShackleford - Можете ли вы проверить решение?
jezrael 05 июль 2018, в 12:25
0

это сработало! большое спасибо
RustyShackleford 05 июль 2018, в 12:38
0

@RustyShackleford - Supeeeeeeeeeeeer :)
jezrael 05 июль 2018, в 12:39

Показать ещё 15 комментариев