Рассчитать различия между элементами в группе

Question

Рассчитать различия между элементами в группе

1

Рассмотрим dataframe с ровно две строки в каждой категории в: a

d = pd.DataFrame({"a": ["a", "b", "c", "a", "b", "c"], "b": [1, 3, 1, 4, 2, 6]})
>   a   b
0   a   1
1   b   3
2   c   1
3   a   4
4   b   2
5   c   6

Я хочу рассчитать абсолютные различия между b на a:

koPytok 22 июнь 2018, в 10:50

Источник

Теги:

python

pandas

pandas-groupby

2 ответа

1

Так как каждая категория в a имеет ровно 2 строки, то кадр данных можно разбить на два, как показано ниже:

first  = d.drop_duplicates("a", keep="first")
second = d.drop_duplicates("a", keep="last")

Затем объедините их и вычислите разницу:

merged = first.merge(second, on="a")
(merged.b_x - merged.b_y).abs()

koPytok 26 июнь 2018, в 13:22

0

Я действительно думал о том, чтобы написать, что этот подход требует, чтобы у вас было каждое значение в «а» только один раз. Я рад, что вы решили проблему.
Jan Zeiseweis 27 июнь 2018, в 11:46

Ещё вопросы

Я действительно думал о том, чтобы написать, что этот подход требует, чтобы у вас было каждое значение в «а» только один раз. Я рад, что вы решили проблему.

Jan Zeiseweis · Accepted Answer · 2018-06-22T07-36-00.000Z

2

Лучший ответ

Вы можете сгруппировать их, а затем вычислить diff и abs (цепочку):

d.groupby('a').diff().abs().dropna()

Индекс может быть не таким запрошенным, но вы, вероятно, можете это выяснить.

Jan Zeiseweis 22 июнь 2018, в 07:36

0

Я работаю с набором данных 800k строк, и этот метод оказался для меня очень неэффективным.
koPytok 26 июнь 2018, в 12:33
0

Когда вы говорите «неэффективно», что именно вы имеете в виду?
Jan Zeiseweis 26 июнь 2018, в 14:17
0

Это заняло так много времени, что мне надоело ждать и я реализовал другое решение для моего конкретного случая, а не общего
koPytok 26 июнь 2018, в 15:01
1

Ну, если бы вы нашли более быстрый способ достижения того же результата, было бы неплохо, если бы вы могли поделиться им с нами.
Jan Zeiseweis 26 июнь 2018, в 15:04
0

Конечно, но это другая проблема. У меня было 2 кадра данных, и мне пришлось сравнить один столбец. Я только что слил их.
koPytok 26 июнь 2018, в 15:53
0

Вы вдохновили меня найти другое общее решение проблемы. Спасибо :)
koPytok 26 июнь 2018, в 16:04

Показать ещё 4 комментария