Панды: от многострочных до однострочных наблюдений

Question

Панды: от многострочных до однострочных наблюдений

1

Предположим, что у меня есть этот фреймворк:

df = pd.DataFrame({'index':['10a','10a','10a','20b','20b','20b','30c','30c','30c']
                   ,'var_vals': ['aaa','aaa','abb','bbb','bba','bbb','ccc','ccc','cab']
                   ,'var2_vals':['aga','aga','add','bgb','bbd','bgb','cdd','cdd','cda']})
display(df)

Выглядит так:

    index   var_vals    var2_vals
0   10a     aaa         aga
1   10a     aaa         aga
2   10a     abb         add
3   20b     bbb         bgb
4   20b     bba         bbd
5   20b     bbb         bgb
6   30c     ccc         cdd
7   30c     ccc         cdd
8   30c     cab         cda

Как превратить вывод в одну строку только с тем, что отличается в новом столбце как таковом:

    index   var_vals     var_vals_0     var2_vals    var2_vals_0
0   10a     aaa             abb          aga            add
1   20b     bbb             bba          bgb            bbd
2   30c     ccc             cab          cdd            cda

Я попробовал groupby, pivot/pivot_table, stack/unstack, и расплавился, но я либо закончил с огромной размерностью, либо потерял данные.

Cibic 19 окт. 2018, в 20:22

Источник

0

Хорошо, этот вопрос теперь полностью изменен. Я сделал быстрый рефакторинг своего кода с помощью pd.concat (). Может быть, есть более разумное решение.
Anton vBR 19 окт. 2018, в 18:33

Теги:

python

pandas

4 ответа

3

Использование drop_duplicates с drop_duplicates pivot

df.drop_duplicates().assign(key=lambda x : x.groupby('index').cumcount()).pivot('index','key','var_vals')
Out[910]: 
key      0    1
index          
10a    aaa  abb
20b    bbb  bba
30c    ccc  cab

W-B 19 окт. 2018, в 16:21

0

Спасибо за быстрый ответ @Wen!
Cibic 19 окт. 2018, в 18:30

3

Еще один способ использования конструктора по умолчанию

x = df.drop_duplicates().groupby('index').var_vals.agg(list).to_dict()
pd.DataFrame(x).T

    0   1
10a aaa abb
20b bbb bba
30c ccc cab

Сроки (незначительно очень похоже, я думаю):

df = pd.concat([df]*10000).reset_index(drop=True)

%%timeit
x = df.drop_duplicates().groupby('index').var_vals.agg(list).to_dict()
pd.DataFrame(x).T
7.92 ms ± 224 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit 
df.drop_duplicates().assign(key=lambda x : x.groupby('index').cumcount()).pivot('index','key','var_vals')
8.81 ms ± 74.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit
df.groupby('index')['var_vals'].apply(lambda x: pd.Series(x.unique())).unstack()
8.83 ms ± 187 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit
pd.DataFrame(df.groupby('index')['var_vals'].unique().tolist())
13.3 ms ± 705 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

RafaelC 19 окт. 2018, в 16:00

1

Благодарю за ваш ответ. Ваше решение эффективно даже при больших объемах данных. Фактически, когда я изолирую каждую интересующую переменную и запускаю ваш код, чтобы дать новый фрейм данных, я могу добавить имя переменной в качестве префикса, а затем объединить все вместе в конце.
Cibic 19 окт. 2018, в 18:38
0

@Cibic Рад, что я мог помочь человеку;)
rafaelc 19 окт. 2018, в 18:39

3

Один метод через groupby.apply:

df.groupby('index')['var_vals'].apply(lambda x: pd.Series(x.unique())).unstack()

         0    1
index          
10a    aaa  abb
20b    bbb  bba
30c    ccc  cab

sacul 19 окт. 2018, в 15:07

1

Может быть, не использовать apply :-)
WeNYoBen 19 окт. 2018, в 18:03
0

Да, в этом смысле метод @ AntonvBR лучше!
sacuL 19 окт. 2018, в 18:05
1

Хорошо, да, но на самом деле они все очень похожи.
Anton vBR 19 окт. 2018, в 18:05
0

Ах, да, я нашел решение, которое делает то же самое, но проблема в том, что я имею дело с тысячами переменных, и я не понимаю, откуда эта переменная. Другими словами, имя новой переменной должно показывать, откуда оно, например, «var_vals_0», «var_vals_1» и т. Д.
Cibic 19 окт. 2018, в 18:07
1

@Cibic, который не был включен в первый вопрос. что ты имеешь ввиду откуда? номер индекса?
Anton vBR 19 окт. 2018, в 18:09
0

Так есть ли конкретный способ, которым вы хотите решить, что считается var_vals_0 а не var_vals_1 ? Как, может быть, порядок, в котором они появляются?
sacuL 19 окт. 2018, в 18:09
0

Я хотел бы собрать все уникальные значения для конкретного наблюдения и сохранить их в новой переменной, если мы еще не наблюдали это. Я не против некоторого увеличения размерности. Порядок, в котором они появляются, не так важен, как сохранение данных. Изменение исходного вопроса, чтобы отразить это.
Cibic 19 окт. 2018, в 18:14
0

@Cibic да, конечно, но разве это не то, что делают все эти решения?
Anton vBR 19 окт. 2018, в 18:18
0

@AntonvBR, да, все они верны. После записи имени переменной я получил уникальное значение, поэтому я могу выбрать их позже, если это имеет смысл. Обновлен оригинальный вопрос
Cibic 19 окт. 2018, в 18:26

Показать ещё 7 комментариев

Ещё вопросы

Хорошо, этот вопрос теперь полностью изменен. Я сделал быстрый рефакторинг своего кода с помощью pd.concat (). Может быть, есть более разумное решение.
Благодарю за ваш ответ. Ваше решение эффективно даже при больших объемах данных. Фактически, когда я изолирую каждую интересующую переменную и запускаю ваш код, чтобы дать новый фрейм данных, я могу добавить имя переменной в качестве префикса, а затем объединить все вместе в конце.
@Cibic Рад, что я мог помочь человеку;)
Может быть, не использовать apply :-)
Да, в этом смысле метод @ AntonvBR лучше!
Хорошо, да, но на самом деле они все очень похожи.
Ах, да, я нашел решение, которое делает то же самое, но проблема в том, что я имею дело с тысячами переменных, и я не понимаю, откуда эта переменная. Другими словами, имя новой переменной должно показывать, откуда оно, например, «var_vals_0», «var_vals_1» и т. Д.
@Cibic, который не был включен в первый вопрос. что ты имеешь ввиду откуда? номер индекса?
Так есть ли конкретный способ, которым вы хотите решить, что считается var_vals_0 а не var_vals_1 ? Как, может быть, порядок, в котором они появляются?
Я хотел бы собрать все уникальные значения для конкретного наблюдения и сохранить их в новой переменной, если мы еще не наблюдали это. Я не против некоторого увеличения размерности. Порядок, в котором они появляются, не так важен, как сохранение данных. Изменение исходного вопроса, чтобы отразить это.
@Cibic да, конечно, но разве это не то, что делают все эти решения?
@AntonvBR, да, все они верны. После записи имени переменной я получил уникальное значение, поэтому я могу выбрать их позже, если это имеет смысл. Обновлен оригинальный вопрос

Anton vBR · Accepted Answer · 2018-10-19T17-03-00.000Z

Вот еще один:

newdf = pd.DataFrame(df.groupby('index')['var_vals'].unique().tolist()).fillna('')

tolist() передает данные обратно в формат списка, что дает нам возможность воссоздать dataframe, передав его еще раз в pd.DataFrame()
fillna обрабатывает тот факт, что у вас может быть разное количество уникальных предметов.

Обновленный код:

dfs = (pd.DataFrame(df.groupby('index')[i].unique().tolist()).fillna('').add_prefix(i+'_')
        for i in df.drop('index', 1))
df = pd.concat(dfs, axis=1)

Полный пример

import pandas as pd

df = pd.DataFrame({'index':['10a','10a','10a','20b','20b','20b','30c','30c','30c']
                   ,'var_vals': ['aaa','aaa','abb','bbb','bba','bbb','ccc','ccc','cab']
                   ,'var2_vals':['aga','aga','add','bgb','bbd','bgb','cdd','cdd','cda']})

df = pd.concat(
    (pd.DataFrame(df.groupby('index')[i].unique().tolist()).fillna('').add_prefix(i+'_')
    for i in df.drop('index', 1)), axis=1)

print(df)

Возвращает:

  var2_vals_0 var2_vals_1 var_vals_0 var_vals_1
0         aga         add        aaa        abb
1         bgb         bbd        bbb        bba
2         cdd         cda        ccc        cab