Мне в конечном итоге удалось объединить два больших DataFrames на большой машине моей школы (память 512 ГБ). На данный момент мы возвращаемся к двум людям, использующим одну и ту же машину, а другая использует около 120 Гб памяти, после того как я позвонил сборщику мусора, мы доберемся до 420G.
Я хочу сохранить DataFrame в память, поэтому я могу легко использовать его и перенести на другой компьютер, я попытался экспортировать его в файл паркета, но я получаю ошибку памяти...
Итак, как я могу Dataframe
этот Dataframe
на жестком диске для повторного использования его, не запускаясь в память, когда память уже почти полностью заполнена?
Спасибо
Существует несколько вариантов. Вы можете рассортировать блок данных или использовать формат hdf5. Они будут занимать меньше памяти. Также когда вы загружаете его в следующий раз, это будет быстрее, чем другие форматы.
Я не уверен, как это будет выполняться с большим набором данных, но вы можете использовать функцию pandas to_csv
для сохранения файла на жесткий диск.
df.to_csv("filename.csv")
Если вы собираетесь работать с такими большими данными в будущем, я бы предложил такой подход, как упомянутый здесь: qaru.site/questions/115144/...
chunksize
параметромto_csv
или аналогичными методами. Установка меньшегоchunksize
может использовать меньше памяти.