Как правильно сохранить каждый большой кусок данных в виде фрейма панды и объединить их друг с другом

Question

Как правильно сохранить каждый большой кусок данных в виде фрейма панды и объединить их друг с другом

1

У меня есть dataframe, который имеет более 400K строк и несколько сотен столбцов, которые я решил прочитать с кусками, потому что он не вписывается в Memory и дает мне MemoryError.

Мне удалось прочитать его в кусках так:

x = pd.read_csv('Training.csv', chunksize=10000)

и после этого я могу получить каждый из кусков, сделав это:

a = x.get_chunk()
b = x.get_chunk()

и т.д. и т.д., делают это более 40 раз, что, очевидно, является медленной и плохой практикой программирования.

Когда я пытаюсь сделать следующее в попытке создать цикл, который может сохранить каждый кусок в dataframe и как-то объединить их:

for x in pd.read_csv('Training.csv', chunksize=500):
    x.get_chunk()

Я получил:

AttributeError: 'DataFrame' object has no attribute 'get_chunk'

Какой самый простой способ я могу прочитать в своем файле и объединить все мои куски во время импорта?

Кроме того, как мне сделать дальнейшие манипуляции с моим набором данных, чтобы избежать проблем с ошибками памяти (в частности, вменять нулевые значения, стандартизировать/нормализовать фрейм данных, а затем запустить модели обучения на компьютере с помощью scikit learn?

mkheifetz 02 авг. 2018, в 17:09

Источник

1

pd.read_csv не возвращает итерацию, поэтому циклическое повторение не имеет смысла. Я достаточно о не знаю pandas или методы чтения куска, но в зависимости от того, что get_chunk делает , когда вы запрашиваете следующий фрагмент после последнего вы нужен , if или try / за except заявления , чтобы проверить , следует ли итерация остановить. Очевидно, вы получите те же проблемы с памятью, если просто объедините все фрагменты в один большой DataFrame. Метод чанков предназначен для случаев, когда вы выполняете обработку на своих меньших чанках, то есть чанки не имеют взаимозависимостей.
Jan Christoph Terasa 02 авг. 2018, в 14:59
1

x уже является DataFrame , так что вы можете просто добавить его в список, а затем объединить их в конце. Но если вы можете поместить весь файл в память для начала, так как вы собираетесь объединить в конце, не читайте его порциями. Это действительно для случаев, когда вы не можете поместить все это в память и вам нужно обрабатывать отдельные части по одной.
ALollz 02 авг. 2018, в 15:08
0

Не по теме, это удивительно, доктор философии по физике из Йельского университета :)) Я не могу вписать это в память, поэтому я делаю это. И как бы я сделал то, что вы предложили?
mathlover 02 авг. 2018, в 15:09
0

Просто удалите .get_chunk . В вашем цикле x находится DataFrame из 5000 строк, так что просто обработайте его, как если бы это был файл большего размера.
ALollz 02 авг. 2018, в 15:12
0

Попробуйте это: pandas.pydata.org/pandas-docs/stable/io.html#io-chunking .
Melvin 02 авг. 2018, в 15:13
0

@ChristophTerasa с chunksize параметром chunksize , pandas возвращает итеративный объект pandas.io.parsers.TextFileReader
ALollz 02 авг. 2018, в 15:17
0

вопрос, когда я пытаюсь сделать то, что, как я думаю, вы предложили выше, например: data = [] для x в pd.read_csv ('Training.csv', chunksize = 500): data.append (x)
mathlover 02 авг. 2018, в 15:22
0

а затем я просто делаю pd.DataFrame (data), чтобы преобразовать его в фрейм данных, он выводит мне 16 строк (сгенерированных 16 кусками, которые у меня есть), которые состоят из 1 строки и 1 столбца каждая из них: Unamed: 0 владелец аккаунта
mathlover 02 авг. 2018, в 15:24
1

В этом случае data - это список DataFrames , поэтому вы хотите выполнить df = pd.concat(data) чтобы объединить список в один DataFrame .
ALollz 02 авг. 2018, в 15:29
0

Ого, не знал, что существует такая вещь, как список данных. Ладно, пока я достиг этого, я не знал, как он будет работать с другими процессами, включая построение модели с использованием scikit-learn. Я никогда не делал этого с тем, что раньше не помещалось в память. Я могу высказать ваш ответ, если вы хотите, чтобы ответить.
mathlover 02 авг. 2018, в 15:55

Показать ещё 8 комментариев

Теги:

python

pandas

python-3.x

bigdata

large-data

1 ответ

Ещё вопросы

pd.read_csv не возвращает итерацию, поэтому циклическое повторение не имеет смысла. Я достаточно о не знаю pandas или методы чтения куска, но в зависимости от того, что get_chunk делает , когда вы запрашиваете следующий фрагмент после последнего вы нужен , if или try / за except заявления , чтобы проверить , следует ли итерация остановить. Очевидно, вы получите те же проблемы с памятью, если просто объедините все фрагменты в один большой DataFrame. Метод чанков предназначен для случаев, когда вы выполняете обработку на своих меньших чанках, то есть чанки не имеют взаимозависимостей.
x уже является DataFrame , так что вы можете просто добавить его в список, а затем объединить их в конце. Но если вы можете поместить весь файл в память для начала, так как вы собираетесь объединить в конце, не читайте его порциями. Это действительно для случаев, когда вы не можете поместить все это в память и вам нужно обрабатывать отдельные части по одной.
Не по теме, это удивительно, доктор философии по физике из Йельского университета :)) Я не могу вписать это в память, поэтому я делаю это. И как бы я сделал то, что вы предложили?
Просто удалите .get_chunk . В вашем цикле x находится DataFrame из 5000 строк, так что просто обработайте его, как если бы это был файл большего размера.
Попробуйте это: pandas.pydata.org/pandas-docs/stable/io.html#io-chunking .
@ChristophTerasa с chunksize параметром chunksize , pandas возвращает итеративный объект pandas.io.parsers.TextFileReader
вопрос, когда я пытаюсь сделать то, что, как я думаю, вы предложили выше, например: data = [] для x в pd.read_csv ('Training.csv', chunksize = 500): data.append (x)
а затем я просто делаю pd.DataFrame (data), чтобы преобразовать его в фрейм данных, он выводит мне 16 строк (сгенерированных 16 кусками, которые у меня есть), которые состоят из 1 строки и 1 столбца каждая из них: Unamed: 0 владелец аккаунта
В этом случае data - это список DataFrames , поэтому вы хотите выполнить df = pd.concat(data) чтобы объединить список в один DataFrame .
Ого, не знал, что существует такая вещь, как список данных. Ладно, пока я достиг этого, я не знал, как он будет работать с другими процессами, включая построение модели с использованием scikit-learn. Я никогда не делал этого с тем, что раньше не помещалось в память. Я могу высказать ваш ответ, если вы хотите, чтобы ответить.

T Burgis · Answer 1 · 2018-08-02T13-21-00.000Z

Когда вы указываете chunksize в вызове pandas.read_csv, вы возвращаете объект pandas.io.parsers.TextFileReader, а не DataFrame. Попробуйте это, чтобы пройти через куски:

reader = pd.read_csv('Training.csv',chunksize=500)
for chunk in reader:
    print(type(chunk)) # chunk is a dataframe

Или возьмите все куски (что, вероятно, не решит вашу проблему!):

reader = pd.read_csv('Training.csv',chunksize=500)
chunks = [chunk for chunk in reader] # list of DataFrames

В зависимости от того, что находится в вашем наборе данных, отличный способ уменьшить использование памяти - это определить столбцы, которые можно преобразовать в категориальные данные. Любой столбец, где число различных значений намного меньше, чем число строк, является кандидатом для этого. Предположим, что столбец содержит некоторый статус с ограниченными значениями (например, "Открыть", "Закрыто", "В режиме ожидания"):

chunk['Status'] = chunk.assign(Status=lambda x: pd.Categorical(x['Status']))

Теперь будет сохранено целое число для каждой строки, а DataFrame будет содержать сопоставление (например, 0 = "Открыть", 1 = "Закрыто и т.д.")

Вы также должны посмотреть, являются ли какие-либо из ваших столбцов данных избыточными (они фактически содержат одну и ту же информацию), если они удалены. Я видел электронные таблицы, содержащие даты, где люди генерировали столбцы в течение года, недели, дня, когда им было легче работать. Избавься от них!

Благодарю за ваш ответ. Я полагаю, я не совсем понимаю, что вы хотите, чтобы я выбрался из этого. Какова цель проверки типа? Я написал ваш код, и он показывается в виде фрейма данных pandas (я имею в виду использование вашего первого раздела кода). Как именно я использовал бы это, чтобы вернуть это в 1 кусок хотя? Большинство моих столбцов, почти все на самом деле, на самом деле являются категориальными переменными, которые я получаю ранее из 1 столбца, который называется «горячим» кодированием.
Я поместил туда только оператор type, чтобы продемонстрировать, как вы получаете объект DataFrame. Делайте что угодно с DataFrame с помощью chunk, например chunk.head () ...