Объединить несколько столбцов в более чем один ряд в пандах

Question

Объединить несколько столбцов в более чем один ряд в пандах

1

У меня есть фреймворк pandas. Я хотел бы объединить несколько столбцов на основе одного столбца с идентификатором. Может быть несколько строк столбцов, которые должны быть объединены. Я работаю только со строками.

Так, например, у меня есть набор данных, который выглядит так:

 Identifier     Op1 Op2 Op3
 A     str_1    str_2   str_3
 B     str_4    str_5   str_6
 B     str_7    str_8   str_9
 B     str_10   str_11  str_12
 C     str_13   str_14  str_15 
 C     str_16   str_17  str_18

Мне нужны все в Op1, Op2 и Op3, конкатенированные. Если один и тот же "идентификатор" находится на более чем одной строке, мне нужны столбцы Op1, Op2 и Op3, которые объединены, а затем объединены с первым столбцом.

Итак, мой конечный результат должен выглядеть следующим образом:

 Identifier Ops
 A  str_1 str_2 str_3
 B  str_4 str_5 str_6 str_7 str_8 str_9 str_10 str_11 str_12
 C  str_13 str_14 str_15 str_16 str_17 str_18

Между каждой "вещью" должно быть пространство. Так что 'str_8 str_9' вместо 'str_8str_9'

У меня также есть эта таблица в sqlite3, если с ней проще работать, чем pandas.

Как это сделать?

Спасибо

ifthenifthen 27 нояб. 2017, в 18:07

Источник

Теги:

python

pandas

dataframe

sqlite3

3 ответа

2

С вашим вводом DataFrame под названием df попробуйте следующее:

from itertools import chain
df.groupby('Identifier')['Op1', 'Op2', 'Op3']\
  .apply(lambda x: ' '.join(list(chain(*x.values.tolist()))))\
  .reset_index()\
  .rename(columns={0:'Ops'})

ags29 27 нояб. 2017, в 15:04

0

Я дошел до reset_index (). Затем я получил следующую ошибку: AttributeError: Невозможно получить доступ к вызываемому атрибуту «reset_index» объектов «DataFrameGroupBy», попробуйте использовать метод «apply»
ifthenifthen 27 нояб. 2017, в 20:21
0

Мне удается повторить эту ошибку, запустив groupby дважды, например, что-то вроде df.groupby(...)[...].groupby(...) , поэтому, возможно, дважды проверьте, что вы этого не делаете. В противном случае код, кажется, работает для меня.
ags29 27 нояб. 2017, в 21:15
0

Я попробовал еще раз и подтвердил, что не делаю описанную вами ошибку. Пока что единственные изменения, которые я сделал, это установить groupby равным df2. Если это имеет значение, в моем фактическом наборе данных будет больше столбцов, чем я описал в примере выше. Я не могу выполнить ни один из ваших последних двух шагов - я получаю одинаковую ошибку для обоих.
ifthenifthen 28 нояб. 2017, в 21:30

Показать ещё 1 комментарий

1

In [168]: (df.set_index('Identifier')
     ...:    .T
     ...:    .agg(lambda x: x.str.cat(sep=' '))
     ...:    .groupby(level=0)
     ...:    .agg(' '.join)
     ...:    .reset_index(name='Ops'))
     ...:
Out[168]:
  Identifier                                                Ops
0          A                                  str_1 str_2 str_3
1          B  str_4 str_5 str_6 str_7 str_8 str_9 str_10 str...
2          C          str_13 str_14 str_15 str_16 str_17 str_18

MaxU 27 нояб. 2017, в 13:53

0

Я пытаюсь найти решение - я получил сообщение об ошибке, что у объекта DataFrame нет атрибута agg. Я использую Python 2.7.
ifthenifthen 27 нояб. 2017, в 16:52
0

@ifthenifthen, он не будет работать, если ваша версия Pandas <0.20.0. Попробуйте обновить Pandas или использовать решение @ ags29
MaxU 27 нояб. 2017, в 18:27

Ещё вопросы

Я дошел до reset_index (). Затем я получил следующую ошибку: AttributeError: Невозможно получить доступ к вызываемому атрибуту «reset_index» объектов «DataFrameGroupBy», попробуйте использовать метод «apply»
Мне удается повторить эту ошибку, запустив groupby дважды, например, что-то вроде df.groupby(...)[...].groupby(...) , поэтому, возможно, дважды проверьте, что вы этого не делаете. В противном случае код, кажется, работает для меня.
Я попробовал еще раз и подтвердил, что не делаю описанную вами ошибку. Пока что единственные изменения, которые я сделал, это установить groupby равным df2. Если это имеет значение, в моем фактическом наборе данных будет больше столбцов, чем я описал в примере выше. Я не могу выполнить ни один из ваших последних двух шагов - я получаю одинаковую ошибку для обоих.
Я пытаюсь найти решение - я получил сообщение об ошибке, что у объекта DataFrame нет атрибута agg. Я использую Python 2.7.
@ifthenifthen, он не будет работать, если ваша версия Pandas <0.20.0. Попробуйте обновить Pandas или использовать решение @ ags29

Thom Ives · Accepted Answer · 2017-11-27T15-26-00.000Z

1

Лучший ответ

Ввод ваших входных данных в файл csv, я сделал следующее, и он работает хорошо.

import pandas as pd

DF = pd.read_csv("CombinerData.csv")

print DF
print 

def combine_Columns_Into_New_Column(DF, columns_To_Combine, new_Column_Name):
    DF[new_Column_Name] = ''
    for Col in columns_To_Combine:
        DF[new_Column_Name] += DF[Col].map(str) + ' '
    DF = DF.drop(columns_To_Combine, axis=1)
    DF = DF.groupby(by=['Identifier']).sum()

    return DF

DF = combine_Columns_Into_New_Column(DF, ['Op1','Op2','Op3'],'Ops')

print DF

ВЫВОД:

                                                          Ops
Identifier                                                   
A                                          str_1 str_2 str_3 
B           str_4 str_5 str_6 str_7 str_8 str_9 str_10 str...
C                 str_13 str_14 str_15  str_16 str_17 str_18

INPUT FILE:

Identifier,Op1,Op2,Op3
A,str_1,str_2,str_3
B,str_4,str_5,str_6
B,str_7,str_8,str_9
B,str_10,str_11,str_12
C,str_13,str_14,str_15 
C,str_16,str_17,str_18

Thom Ives 27 нояб. 2017, в 15:26

0

Это почти работает для меня. Новый DF не добавлен новый столбец, хотя? Как мне это исправить?
ifthenifthen 27 нояб. 2017, в 21:12
0

@ifthenifthen, я запустил его снова так же, как я опубликовал его, и он работает так же, как я сообщил об этом. Я использую Python 2.7. Дважды проверьте свой код и входной файл. Если вы поместите свой код и данные в какое-нибудь удаленное git-репо, я могу помочь вам устранить неполадки. Я также добавил структуру входного файла в редактировании выше.
Thom Ives 28 нояб. 2017, в 17:14
0

Будет ли иметь значение, если в моем текущем входном файле есть другие столбцы?
ifthenifthen 28 нояб. 2017, в 21:39
0

Если я запустил его точно так, как вы написали выше, но со следующим изменением: «DF2 = comb_Columns_Into_New_Column (DF, [« Op1 »,« Op2 »,« Op3 »],« Ops »)», то DF2 покажет мой входной файл с пропускаемые столбцы отсутствуют, и лишних столбцов нет. Но DF показывает дополнительный столбец без пропущенных столбцов, однако несколько строк не агрегируются. Так что он работает как «Идентификатор A», но не «Идентификатор B». Если я установлю его равным DF для начала, то столбцы будут просто отброшены, и лишних столбцов не будет.
ifthenifthen 28 нояб. 2017, в 21:41
0

Пожалуйста, следуйте инструкциям первого ответа на этот вопрос -> stackoverflow.com/questions/20612645/… и сообщите свою версию для панд?
Thom Ives 28 нояб. 2017, в 21:50
0

Моя версия панд 0.19.2
ifthenifthen 28 нояб. 2017, в 22:02
0

Это очень странно Я заметил, что у вас проблемы с ответами других методов. Я проверил это на Linux (на основе Ubuntu) и Windows 7 Pro. Я думаю, что что-то не так с вашей установкой панд.
Thom Ives 28 нояб. 2017, в 22:54
0

Используя ваши примеры репозиториев, я воспроизвел вашу проблему даже при использовании преобразования входных данных в формат csv. Работаем, чтобы понять проблемы.
Thom Ives 30 нояб. 2017, в 22:21
0

Я не могу сказать вам, как я благодарен за ваше постоянное внимание к этому
ifthenifthen 30 нояб. 2017, в 22:49
0

Я удалил комментарий со своей ссылкой на github, теперь, когда он у вас есть.
ifthenifthen 30 нояб. 2017, в 22:50
0

ОК и не беспокойся. Рад был помочь. Смотрите вопрос на GitHub сейчас.
Thom Ives 30 нояб. 2017, в 23:24

Показать ещё 9 комментариев