Обработка данных с динамическим добавлением столбцов в Python Dataframe Pandas

1

У меня есть следующая проблема. Допустим, это мой CSV

id f1 f2 f3
1  4  5  5
1  3  1  0
1  7  4  4
1  4  3  1
1  1  4  6
2  2  6  0
..........

Итак, у меня есть строки, которые можно сгруппировать по id. Я хочу создать csv, как показано ниже.

f1 f2 f3 f1_n f2_n f3_n f1_n_n f2_n_n f3_n_n f1_t f2_t f3_t
4  5  5   3   1    0    7      4      4      1   4     6  

Итак, я хочу иметь возможность выбрать количество строк, которые я возьму для преобразования в столбцы (всегда начиная с первой строки id). В этом случае я схватил 3 строки. Затем я также пропущу одну или несколько строк (в этом случае только один пропустить), чтобы взять последние столбцы из последней строки той же группы идентификаторов. И по причинам, я хочу использовать фрейм данных.

После борьбы в течение 3-4 часов. Я нашел решение, приведенное ниже. Но мое решение очень медленное. У меня около 700 000 строк и может составлять около 70 000 групп идентификаторов. Код выше при модели = 3 занимает почти час на моем 4 ГБ 4 Core Lenovo. Мне нужно перейти к модели = возможно 10 или 15. Я все еще новичок в Python, и я уверен, что может быть несколько изменений, которые сделают это быстро. Может кто-нибудь объяснить, как я могу улучшить код.

Благодаря тонну.

model: количество строк для захвата

# train data frame from reading the csv
train = pd.read_csv(filename)

# Get groups of rows with same id
csv_by_id = train.groupby('id')

modelTarget = { 'f1_t','f2_t','f3_t'}

# modelFeatures is a list of features I am interested in the csv. 
    # The csv actually has hundreds
modelFeatures = { 'f1, 'f2' , 'f3' }

coreFeatures = list(modelFeatures) # cloning 


selectedFeatures = list(modelFeatures) # cloning

newFeatures = list(selectedFeatures) # cloning

finalFeatures = list(selectedFeatures) # cloning

# Now create the column list depending on the number of rows I will grab from
for x in range(2,model+1):
    newFeatures = [s + '_n' for s in newFeatures]
    finalFeatures = finalFeatures + newFeatures

# This is the final column list for my one row in the final data frame
selectedFeatures = finalFeatures + list(modelTarget) 

# Empty dataframe which I want to populate
model_data = pd.DataFrame(columns=selectedFeatures)

for id_group in csv_by_id:
    #id_group is a tuple with first element as the id itself and second one a dataframe with the rows of a group
    group_data = id_group[1] 

    #hmm - can this be better? I am picking up the rows which I need from first row on wards
    df = group_data[coreFeatures][0:model] 

    # initialize a list
    tmp = [] 

    # now keep adding the column values into the list
    for index, row in df.iterrows(): 
        tmp = tmp + list(row)


    # Wow, this one below surely should have something better. 
    # So i am picking up the feature column values from the last row of the group of rows for a particular id 
    targetValues = group_data[list({'f1','f2','f3'})][len(group_data.index)-1:len(group_data.index)].values 

    # Think this can be done easier too ? . Basically adding the values to the tmp list again
    tmp = tmp + list(targetValues.flatten()) 

    # coverting the list to a dict.
    tmpDict = dict(zip(selectedFeatures,tmp))  

    # then the dict to a dataframe.
    tmpDf = pd.DataFrame(tmpDict,index={1}) 

    # I just could not find a better way of adding a dict or list directly into a dataframe. 
    # And I went through lots and lots of blogs on this topic, including some in StackOverflow.

    # finally I add the frame to my main frame
    model_data = model_data.append(tmpDf) 

# and write it
model_data.to_csv(wd+'model_data' + str(model) + '.csv',index=False) 
Теги:
pandas
dataframe
data-processing

1 ответ

4
Лучший ответ

Groupby - ваш друг.

Это будет очень хорошо масштабироваться; только небольшая константа в количестве функций. Это будет примерно O (количество групп)

In [28]: features = ['f1','f2','f3']

Создайте некоторые тестовые данные, размеры групп - 7-12, 70 тыс. Групп

In [29]: def create_df(i):
   ....:     l = np.random.randint(7,12)
   ....:     df = DataFrame(dict([ (f,np.arange(l)) for f in features ]))
   ....:     df['A'] = i
   ....:     return df
   ....: 

In [30]: df = concat([ create_df(i) for i in xrange(70000) ])

In [39]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 629885 entries, 0 to 9
Data columns (total 4 columns):
f1    629885 non-null int64
f2    629885 non-null int64
f3    629885 non-null int64
A     629885 non-null int64
dtypes: int64(4)

Создайте кадр, в котором вы выбираете первые три строки и окончательную строку из каждой группы (обратите внимание, что эта команда будет обрабатывать группы размером <4, однако ваша последняя строка может перекрывать другую, вы можете groupby.filter сделать groupby.filter чтобы исправить это)

In [31]: groups = concat([df.groupby('A').head(3),df.groupby('A').tail(1)]).sort_index()

# This step is necesary in pandas < master/0.14 as the returned fields 
# will include the grouping field (the A), (is a bug/API issue)
In [33]: groups = groups[features]

In [34]: groups.head(20)
Out[34]: 
     f1  f2  f3
A              
0 0   0   0   0
  1   1   1   1
  2   2   2   2
  7   7   7   7
1 0   0   0   0
  1   1   1   1
  2   2   2   2
  9   9   9   9
2 0   0   0   0
  1   1   1   1
  2   2   2   2
  8   8   8   8
3 0   0   0   0
  1   1   1   1
  2   2   2   2
  8   8   8   8
4 0   0   0   0
  1   1   1   1
  2   2   2   2
  9   9   9   9

[20 rows x 3 columns]

In [38]: groups.info()
<class 'pandas.core.frame.DataFrame'>
MultiIndex: 280000 entries, (0, 0) to (69999, 9)
Data columns (total 3 columns):
f1    280000 non-null int64
f2    280000 non-null int64
f3    280000 non-null int64
dtypes: int64(3)

И довольно быстро

In [32]: %timeit concat([df.groupby('A').head(3),df.groupby('A').tail(1)]).sort_index()
1 loops, best of 3: 1.16 s per loop

Для дальнейших манипуляций вы обычно должны останавливаться здесь и использовать это (как в хорошем сгруппированном формате, с которым легко справиться).

Если вы хотите перевести это в широкий формат

In [35]: dfg = groups.groupby(level=0).apply(lambda x: Series(x.values.ravel()))

In [36]: %timeit groups.groupby(level=0).apply(lambda x: Series(x.values.ravel()))
dfg.head()
groups.info()
1 loops, best of 3: 14.5 s per loop
In [40]: dfg.columns = [ "{0}_{1}".format(f,i) for i in range(1,5) for f in features ]

In [41]: dfg.head()
Out[41]: 
   f1_1  f2_1  f3_1  f1_2  f2_2  f3_2  f1_3  f2_3  f3_3  f1_4  f2_4  f3_4
A                                                                        
0     0     0     0     1     1     1     2     2     2     7     7     7
1     0     0     0     1     1     1     2     2     2     9     9     9
2     0     0     0     1     1     1     2     2     2     8     8     8
3     0     0     0     1     1     1     2     2     2     8     8     8
4     0     0     0     1     1     1     2     2     2     9     9     9

[5 rows x 12 columns]

In [42]: dfg.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 70000 entries, 0 to 69999
Data columns (total 12 columns):
f1_1    70000 non-null int64
f2_1    70000 non-null int64
f3_1    70000 non-null int64
f1_2    70000 non-null int64
f2_2    70000 non-null int64
f3_2    70000 non-null int64
f1_3    70000 non-null int64
f2_3    70000 non-null int64
f3_3    70000 non-null int64
f1_4    70000 non-null int64
f2_4    70000 non-null int64
f3_4    70000 non-null int64
dtypes: int64(12)
  • 0
    Вау! Вот почему я очень люблю stackoverflow. Джефф, я посмотрю твой ответ медленно. И я скоро к тебе вернусь. Однажды я допустил ошибку, я пропустил первую строку в моем коде, где я фактически получал csv_by_id с помощью groupby. Я добавляю / редактирую эту строку в моем коде.
  • 0
    Джефф, который работал. Это уменьшило мой код до 6 строк. Благодарю. Эти две строки <code> dfg = groups.groupby (level = 0) .apply (lambda x: pd.Series (x.values.ravel ())) </ code> и <code> dfg.columns = ["{ 0} _ {1} ". Формат (f, i) для i в диапазоне (1,5) для f в coreFeatures] </ code> были киллерами. Питон это искусство.
Показать ещё 2 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню