Python: хранение больших структур данных

Question

Python: хранение больших структур данных

1

В настоящее время я делаю проект на питоне, который использует словари, которые относительно большие (около 800 МБ). Я попытался сохранить один из этих словарей, используя pickle, но получил MemoryError.

Каков правильный способ сохранения таких файлов в python? Должен ли я использовать базу данных?

Blanky 24 авг. 2014, в 13:23

Источник

0

Это зависит от того, что вы храните в этих словарях. Возможно, модуль json - это альтернатива, которую вы можете легко попробовать ( import json; json.dumps(mydict) и посмотрите, не появляется ли такая же ошибка).
Tim Pietzcker 24 авг. 2014, в 11:05
0

Просто сбросьте данные в файл CSV. Я успешно сделал это для файлов размером до 3 ГБ
user2963623 24 авг. 2014, в 11:13
0

Вы говорите, что у вас есть поля значений словаря, которые по отдельности 800-МБ, или что сумма всех значений составляет 800-МБ?
user590028 24 авг. 2014, в 11:14
0

user590028 - я имею в виду всю структуру, сумма всех значений составляет 800 МБ.
Blanky 24 авг. 2014, в 11:34
0

Тим Пицкер - мне нравится эта идея, но я думаю, что она не будет работать, так как значения содержат список frozensets.
Blanky 24 авг. 2014, в 11:37

Показать ещё 3 комментария

Теги:

python

data-structures

pickle

5 ответов

0

В отличие от shelf, klepto не нужно хранить весь dict в одном файле (использование одного файла очень медленное для чтения-записи, когда вам нужна только одна запись). Кроме того, в отличие от shelf, klepto может хранить почти любой тип объекта python, который вы можете поместить в словарь (вы можете хранить функции, lambdas, экземпляры классов, сокеты, очереди многопроцессорности, что угодно).

klepto предоставляет абстракцию словаря для записи в базу данных, включая обработку вашей файловой системы как базы данных (т.е. запись всего словаря в один файл или запись каждой записи в его собственный файл). Для больших данных я часто предпочитаю представлять словарь как каталог в моей файловой системе и каждый из них должен быть файлом. klepto также предлагает множество алгоритмов кэширования (например, mru, lru, lfu и т.д.), чтобы помочь вам управлять кешем в памяти и будет использовать алгоритм для создания дампа и загрузки в архивную базу для вас.

>>> from klepto.archives import dir_archive
>>> d = {'a':1, 'b':2, 'c':map, 'd':None}
>>> # map a dict to a filesystem directory
>>> demo = dir_archive('demo', d, serialized=True) 
>>> demo['a']
1
>>> demo['c']
<built-in function map>
>>> demo          
dir_archive('demo', {'a': 1, 'c': <built-in function map>, 'b': 2, 'd': None}, cached=True)
>>> # is set to cache to memory, so use 'dump' to dump to the filesystem 
>>> demo.dump()
>>> del demo
>>> 
>>> demo = dir_archive('demo', {}, serialized=True)
>>> demo
dir_archive('demo', {}, cached=True)
>>> # demo is empty, load from disk
>>> demo.load()
>>> demo
dir_archive('demo', {'a': 1, 'c': <built-in function map>, 'b': 2, 'd': None}, cached=True)
>>> demo['c']
<built-in function map>
>>>

klepto также обеспечивает использование обращенных к памяти файлов, для быстрого чтения-записи. Существуют и другие флаги, такие как compression, которые можно использовать для дальнейшей настройки того, как хранятся ваши данные. Не менее просто (тот же самый точный интерфейс) использовать базу данных (MySQL и т.д.) В качестве бэкэнд вместо вашей файловой системы. Вы можете использовать флаг cached=False, чтобы полностью отключить кеширование памяти, а также напрямую читать и записывать на диск и из базы данных и обратно.

>>> from klepto.archives import dir_archive
>>> # does not hold entries in memory, each entry will be stored on disk
>>> demo = dir_archive('demo', {}, serialized=True, cached=False)
>>> demo['a'] = 10
>>> demo['b'] = 20
>>> demo['c'] = min
>>> demo['d'] = [1,2,3]

Получить klepto здесь: https://github.com/uqfoundation

Mike McKerns 24 авг. 2014, в 14:53

0

Возможно, вы могли бы использовать sqlite3? Если у вас нет реальной старой версии Python, она должна быть доступна: https://docs.python.org/2/library/sqlite3.html

Я не проверял ограничения sqlite3, и я не знаю его полезности в вашей ситуации, но было бы полезно проверить.

user3785350 24 авг. 2014, в 10:21

0

Я думал об этом, но нужно будет немного изменить код. Спасибо за предложение, хотя.
Blanky 24 авг. 2014, в 14:00

0

Когда вы распиливаете всю структуру данных, вы ограничены системной памятью. Вы можете, однако, сделать это в кусках.

streaming-pickle выглядит как решение для травления файловых объектов, больших, чем память на борту.

https://gist.github.com/hardbyte/5955010

Corey Goldberg 24 авг. 2014, в 10:06

-1

Так как это словарь, вы можете преобразовать его в список пар значений ключа ([(k, v)]). Затем вы можете сериализовать каждый кортеж в строку с помощью любой технологии, которая вам нужна (например, pickle), и хранить их в файле по строкам. Таким образом, процесс распараллеливания, проверка содержимого файла и т.д. Также проще.

Есть библиотеки, которые позволяют вам передавать отдельные объекты, но IMO это просто усложняет. Простое хранение строки за строкой удаляет столько головной боли.

Enno Shioji 24 авг. 2014, в 10:28

0

да, даунвот? Почему?
Enno Shioji 24 авг. 2014, в 12:44
0

Я думаю, что это усложняется, когда Shelve делает это уже.
simonzack 24 авг. 2014, в 12:46
0

Хранение вещей построчно не кажется мне слишком сложным. Если вы используете полку, вы привязаны к полке. Если вы, например, построчно храните JSON, его можно прочитать практически любой технологией, такой как Pig, Hive. Кроме того, файлы DBM не являются лучшими, когда данные становятся действительно большими, и вам не нужен произвольный доступ. Строковые файлы легко проверить с помощью таких инструментов, как head , они занимают меньше места и их сложнее испортить.
Enno Shioji 24 авг. 2014, в 12:59

Показать ещё 1 комментарий

Ещё вопросы

Это зависит от того, что вы храните в этих словарях. Возможно, модуль json - это альтернатива, которую вы можете легко попробовать ( import json; json.dumps(mydict) и посмотрите, не появляется ли такая же ошибка).
Просто сбросьте данные в файл CSV. Я успешно сделал это для файлов размером до 3 ГБ
Вы говорите, что у вас есть поля значений словаря, которые по отдельности 800-МБ, или что сумма всех значений составляет 800-МБ?
user590028 - я имею в виду всю структуру, сумма всех значений составляет 800 МБ.
Тим Пицкер - мне нравится эта идея, но я думаю, что она не будет работать, так как значения содержат список frozensets.
Я думал об этом, но нужно будет немного изменить код. Спасибо за предложение, хотя.
Я думаю, что это усложняется, когда Shelve делает это уже.
Хранение вещей построчно не кажется мне слишком сложным. Если вы используете полку, вы привязаны к полке. Если вы, например, построчно храните JSON, его можно прочитать практически любой технологией, такой как Pig, Hive. Кроме того, файлы DBM не являются лучшими, когда данные становятся действительно большими, и вам не нужен произвольный доступ. Строковые файлы легко проверить с помощью таких инструментов, как head , они занимают меньше места и их сложнее испортить.

Boris Gorelik · Accepted Answer · 2014-08-24T08-12-00.000Z

Python-standard shelve модуль предоставляет диктофонный интерфейс для постоянных объектов. Он работает со многими базами данных и не ограничен оперативной памятью. Преимущество использования shelve над прямой работой с базами данных заключается в том, что большая часть вашего существующего кода остается такой, какая была. Это происходит за счет скорости (по сравнению с операционными операциями) и за счет гибкости (по сравнению с работой непосредственно с базами данных).

Я использовал полку, так как это потребовало минимального изменения кода. Спасибо.