Ошибка памяти панд при сохранении DataFrame в файл

Question

Ошибка памяти панд при сохранении DataFrame в файл

1

Мне в конечном итоге удалось объединить два больших DataFrames на большой машине моей школы (память 512 ГБ). На данный момент мы возвращаемся к двум людям, использующим одну и ту же машину, а другая использует около 120 Гб памяти, после того как я позвонил сборщику мусора, мы доберемся до 420G.

Я хочу сохранить DataFrame в память, поэтому я могу легко использовать его и перенести на другой компьютер, я попытался экспортировать его в файл паркета, но я получаю ошибку памяти...

Итак, как я могу Dataframe этот Dataframe на жестком диске для повторного использования его, не запускаясь в память, когда память уже почти полностью заполнена?

Спасибо

Nicolas Scotto Di Perto 30 нояб. 2018, в 21:56

Источник

0

Вы можете играть с chunksize параметром to_csv или аналогичными методами. Установка меньшего chunksize может использовать меньше памяти.
hilberts_drinking_problem 30 нояб. 2018, в 20:51

Теги:

python

pandas

2 ответа

Ещё вопросы

Вы можете играть с chunksize параметром to_csv или аналогичными методами. Установка меньшего chunksize может использовать меньше памяти.

Vikika · Answer 1 · 2018-11-30T18-51-00.000Z

0

Существует несколько вариантов. Вы можете рассортировать блок данных или использовать формат hdf5. Они будут занимать меньше памяти. Также когда вы загружаете его в следующий раз, это будет быстрее, чем другие форматы.

Vikika 30 нояб. 2018, в 18:51

0

Паркет использует больше памяти для создания, чем hdf5? Также паркет довольно быстро загружается! Я пытаюсь hdf5 и посмотреть, решит ли это проблему ...
Nicolas Scotto Di Perto 30 нояб. 2018, в 20:21
0

Вы также можете использовать gzip, чтобы уменьшить размер. Но это может снизить эффективность загрузки в следующий раз.
Vikika 30 нояб. 2018, в 20:25
0

Использование gzip будет стоить мне больше памяти нет? Я говорю об оперативной памяти здесь. Я просто не хочу выгружать DataFrame на жесткий диск.
Nicolas Scotto Di Perto 30 нояб. 2018, в 20:27
0

использование gzip приведет к уменьшению памяти на диске. Вы можете попробовать это. Я пытался один раз при сбросе файла пикеля. Это сэкономило мне много памяти и времени на сохранение
Vikika 30 нояб. 2018, в 20:29
0

Вопрос о to_hdf (я новичок в такого рода форматах), путь к файлу? Что я должен указать в качестве ключа?
Nicolas Scotto Di Perto 30 нояб. 2018, в 20:29
0

Да, конечно, но если я получаю ошибку памяти ОЗУ, просто пытаясь записать файл, я думаю, что это не поможет добавить сжатие, потому что для этого потребуется больше памяти.
Nicolas Scotto Di Perto 30 нояб. 2018, в 20:31
0

stackoverflow.com/questions/20928136/… . Вы можете увидеть эту ссылку, чтобы сохранить файл hdf и загрузить также
Vikika 30 нояб. 2018, в 20:31
0

почему бы не использовать pd.to_hdf ?
Nicolas Scotto Di Perto 30 нояб. 2018, в 20:34
0

Используете ли вы 32-битный или 64-битный дистрибутив Python?
jeschwar 30 нояб. 2018, в 20:38
0

Я использую 64-битный дистрибутив, Anaconda.
Nicolas Scotto Di Perto 30 нояб. 2018, в 20:45
0

Рассматривали ли вы преобразование любых столбцов float64 в float32 для уменьшения памяти?
jeschwar 30 нояб. 2018, в 20:59
0

dataquest.io/blog/pandas-big-data Вы можете перейти по этой ссылке, чтобы уменьшить размер фрейма данных
Vikika 30 нояб. 2018, в 21:02

Показать ещё 10 комментариев

UBears · Answer 2 · 2018-11-30T18-41-00.000Z

Я не уверен, как это будет выполняться с большим набором данных, но вы можете использовать функцию pandas to_csv для сохранения файла на жесткий диск.

df.to_csv("filename.csv")

Если вы собираетесь работать с такими большими данными в будущем, я бы предложил такой подход, как упомянутый здесь: qaru.site/questions/115144/...