Ошибка памяти панд при сохранении DataFrame в файл

1

Мне в конечном итоге удалось объединить два больших DataFrames на большой машине моей школы (память 512 ГБ). На данный момент мы возвращаемся к двум людям, использующим одну и ту же машину, а другая использует около 120 Гб памяти, после того как я позвонил сборщику мусора, мы доберемся до 420G.

Я хочу сохранить DataFrame в память, поэтому я могу легко использовать его и перенести на другой компьютер, я попытался экспортировать его в файл паркета, но я получаю ошибку памяти...

Итак, как я могу Dataframe этот Dataframe на жестком диске для повторного использования его, не запускаясь в память, когда память уже почти полностью заполнена?

Спасибо

  • 0
    Вы можете играть с chunksize параметром to_csv или аналогичными методами. Установка меньшего chunksize может использовать меньше памяти.
Теги:
pandas

2 ответа

0

Существует несколько вариантов. Вы можете рассортировать блок данных или использовать формат hdf5. Они будут занимать меньше памяти. Также когда вы загружаете его в следующий раз, это будет быстрее, чем другие форматы.

  • 0
    Паркет использует больше памяти для создания, чем hdf5? Также паркет довольно быстро загружается! Я пытаюсь hdf5 и посмотреть, решит ли это проблему ...
  • 0
    Вы также можете использовать gzip, чтобы уменьшить размер. Но это может снизить эффективность загрузки в следующий раз.
Показать ещё 10 комментариев
0

Я не уверен, как это будет выполняться с большим набором данных, но вы можете использовать функцию pandas to_csv для сохранения файла на жесткий диск.

df.to_csv("filename.csv")

Если вы собираетесь работать с такими большими данными в будущем, я бы предложил такой подход, как упомянутый здесь: qaru.site/questions/115144/...

Ещё вопросы

Сообщество Overcoder
Наверх
Меню