Самый быстрый питонический способ парсинга словаря, где значения - байты строкового объекта json

Question

Самый быстрый питонический способ парсинга словаря, где значения - байты строкового объекта json

1

Поэтому у меня есть словарь, который является хеш-объектом, который я получаю от Redis, подобно следующему словарю:

source_data = {
   b'key-1': b'{"age":33,"gender":"Male"}', 
   b'key-2': b'{"age":20,"gender":"Female"}'
}

Моя цель - извлечь все значения из этого словаря и сделать их в виде списка словарей Python следующим образом:

final_data = [
   {
      'age': 33,
      'gender': 'Male'
   },

   {
      'age': 20,
      'gender': 'Female'
   }
]

Я попытался понять список с помощью json parsing:

import json
final_data = [json.loads(a) for a in source_data.values()]

Он работает, но для большого набора данных требуется слишком много времени.

Я переключился на использование этого стороннего json-модуля ujson, который быстрее соответствует этому эталону, но я не заметил никаких улучшений.

Я попытался использовать многопоточность:

pool = Pool()
final_data = pool.map(ujson.loads, source_data.values(), chunksize=500)

pool.close()
pool.join()

Я немного chunksize с chunksize но результат тот же, все еще занимает слишком много времени.

Было бы очень полезно, если кто-то может предложить другое решение или улучшить предыдущие попытки, было бы идеально, если бы я мог избежать использования цикла.

El Sam 03 июль 2018, в 16:36

Источник

0

Может стоит попробовать pypy?
Tom Dalton 03 июль 2018, в 13:44
0

сколько времени это займет и как велик ваш источник данных?
acushner 03 июль 2018, в 13:55
0

@TomDalton TomDalton пробовать pypy в данный момент для меня не представляется возможным.
El Sam 03 июль 2018, в 13:56
0

@acushner это занимает +35 секунд с источником данных, который содержит ~ 2000 ключей.
El Sam 03 июль 2018, в 13:57
2

Многопроцессорность здесь скорее мешает, чем помогает. Вы хотите десериализовать строку, но после того, как дочерние процессы должны сериализовать объект в строку, отправьте строку в родительский процесс, который затем снова десериализует строки в объекты ... Единственное отличие состоит в том, что мультипроцессорная обработка не использует JSON в качестве формата обмена данными.
Dunes 03 июль 2018, в 14:10
0

@Dunes спасибо за объяснение, я действительно попробовал это и не увидел никакого улучшения по сравнению с решением, которое использует понимание списка.
El Sam 03 июль 2018, в 14:13
2

Если это займет 35 секунд, я очень подозреваю, что здесь есть еще одно узкое место, которое мы пропускаем. json.loads должен уметь обрабатывать такие мелкие данные, как микросекунды. Получаете ли вы все данные из Redis в одной партии? Или вы последовательно запрашиваете записи с удаленного сервера Redis? (просто предположение, но такая задержка более типична для сетевого ввода-вывода)
Håken Lid 03 июль 2018, в 14:15
0

@HåkenLid HåkenLid Я получаю все данные из Redis в виде одного пакета в виде словаря.
El Sam 03 июль 2018, в 14:21
0

Насколько велики объединенные данные JSON? Если вы следите за ответом @chepner's chepner, что такое len(new_json) ? Можете ли вы включить пример данных (или код, который генерирует фиктивные данные), которые мы можем использовать для воспроизведения этой проблемы? минимальный воспроизводимый пример
Håken Lid 03 июль 2018, в 14:27
0

@HåkenLid HåkenLid набор данных, который я использую, содержит почти 4000 записей, я просто протестировал снова, используя решение, предоставленное chepner, и я получаю 0,12 секунды.
El Sam 03 июль 2018, в 14:37
0

Я только что понял, что +30 секунд были вызваны чтением данных из Redis.
El Sam 03 июль 2018, в 14:46

Показать ещё 9 комментариев

Теги:

python

json

python-3.x

dictionary

ujson

2 ответа

1

Для справки я попытался воспроизвести ситуацию:

import json, timeit, random
source_data = { 'key-{}'.format(n).encode('ascii'): 
                '{{"age":{},"gender":"{}"}}'.format(
                    random.randint(18,75), 
                    random.choice(("Male", "Female"))
                 ).encode('ascii') 
               for n in range(45000) }
timeit.timeit("{ k: json.loads(v) for (k,v) in source_data.items() }", 
    number=1, globals={'json': json, 'source_data': source_data})

Это завершено намного меньше секунды. Те, кто старше 30 секунд, должны быть от чего-то, чего я не вижу.

Моя ближайшая догадка заключается в том, что у вас были данные в каком-то прокси-контейнере, где каждая выборка ключа превратилась в удаленный вызов, например, с использованием hscan а не hgetall. Компромисс между ними должен быть возможен с помощью подсказки count hscan.

Правильное профилирование должно выявить, откуда происходят задержки.

Yann Vernier 03 июль 2018, в 11:45

Ещё вопросы

сколько времени это займет и как велик ваш источник данных?
@TomDalton TomDalton пробовать pypy в данный момент для меня не представляется возможным.
@acushner это занимает +35 секунд с источником данных, который содержит ~ 2000 ключей.
Многопроцессорность здесь скорее мешает, чем помогает. Вы хотите десериализовать строку, но после того, как дочерние процессы должны сериализовать объект в строку, отправьте строку в родительский процесс, который затем снова десериализует строки в объекты ... Единственное отличие состоит в том, что мультипроцессорная обработка не использует JSON в качестве формата обмена данными.
@Dunes спасибо за объяснение, я действительно попробовал это и не увидел никакого улучшения по сравнению с решением, которое использует понимание списка.
Если это займет 35 секунд, я очень подозреваю, что здесь есть еще одно узкое место, которое мы пропускаем. json.loads должен уметь обрабатывать такие мелкие данные, как микросекунды. Получаете ли вы все данные из Redis в одной партии? Или вы последовательно запрашиваете записи с удаленного сервера Redis? (просто предположение, но такая задержка более типична для сетевого ввода-вывода)
@HåkenLid HåkenLid Я получаю все данные из Redis в виде одного пакета в виде словаря.
Насколько велики объединенные данные JSON? Если вы следите за ответом @chepner's chepner, что такое len(new_json) ? Можете ли вы включить пример данных (или код, который генерирует фиктивные данные), которые мы можем использовать для воспроизведения этой проблемы? минимальный воспроизводимый пример
@HåkenLid HåkenLid набор данных, который я использую, содержит почти 4000 записей, я просто протестировал снова, используя решение, предоставленное chepner, и я получаю 0,12 секунды.
Я только что понял, что +30 секунд были вызваны чтением данных из Redis.

chepner · Accepted Answer · 2018-07-03T11-14-00.000Z

Предполагая, что значения действительно являются допустимыми JSON, может быть быстрее построить один объект JSON для декодирования. Я думаю, что безопасно просто вставлять значения в одну строку.

>>> new_json = b'[%s]' % (b','.join(source_data.values(),)
>>> new_json
b'[{"age":33,"gender":"Male"},{"age":20,"gender":"Female"}]'
>>> json.loads(new_json)
[{'age': 33, 'gender': 'Male'}, {'age': 20, 'gender': 'Female'}]

Это заменяет накладные расходы на вызов json.loads 2000+ раз с меньшими накладными расходами на один вызов для b','.join Join и операции с одним строковым форматированием.

Я уже пробовал это, но, как вы видите, значения являются байтовыми строками.
Извините, ленивый и протестированный в Python 2. Обновление должно работать в Python 3.
Спасибо за попытку, она работает, но все еще занимает 34+ секунды для анализа 2000+ записей.
Здесь должно быть что-то еще, если для декодирования нескольких тысяч записей требуется несколько секунд. Можете ли вы опубликовать ссылку на образец данных, чтобы мы могли воспроизвести это сами? минимальный воспроизводимый пример
Это внезапно кажется очень быстрым с ~ 4000 записями, анализирующими их за 0,12 сек.