Преобразовать значение строки, используя одинаковые размеры

Question

Преобразовать значение строки, используя одинаковые размеры

1

У меня в настоящее время есть dataframe, который выглядит так:

Account Date    Region  Type    Measure Value
Bob     31-Jan  East    A       Sales   7
Bob     31-Jan  West    A       Sales   8
Bob     31-Jan  East    B       Expense 5
Bob     31-Jan  West    B       Expense 10

Единственное отличие заключается в том, что мой фактический фреймворк имеет несколько разных полей для измерений "учетная запись", "дата" и "тип".

Моя цель здесь состоит в том, чтобы изменить ценность учетных записей только Боба как разделение 50/50 между регионами

например, это будет выглядеть так:

 Account    Date    Region  Type    Measure Value
 Bob        31-Jan  East    A       Sales   7.5
 Bob        31-Jan  West    A       Sales   7.5
 Bob        31-Jan  East    B       Expense 5
 Bob        31-Jan  West    B       Expense 10

Я пробовал фильтровать свой df на Bob и продажи, чтобы начать:

 df = df[df['Account'] == 'Bob']
 df = df[df['Measure'] == 'Sales']

Затем я делаю все регионы одинаковыми:

 df['Region'] = 'East and West'

Когда-то здесь я пробовал несколько функций groupby, но я не могу заставить их возвращать правильные значения.

Должен ли я попытаться перенести мой df и работать оттуда?

Ben 27 сен. 2018, в 16:20

Источник

0

Можете ли вы объяснить, почему значение типа B не становится 7,5 и 7,5
WeNYoBen 27 сен. 2018, в 13:42
0

Я только пытаюсь применить преобразование к показателю «Продажи».
Ben 27 сен. 2018, в 13:50

Теги:

python

pandas

python-3.x

1 ответ

Ещё вопросы

Можете ли вы объяснить, почему значение типа B не становится 7,5 и 7,5
Я только пытаюсь применить преобразование к показателю «Продажи».

ALollz · Accepted Answer · 2018-09-27T12-13-00.000Z

Если вам нужно сделать это только для значений 'sales' для одного человека, то используйте булевское индексирование и mean

mask = (df.Measure == 'Sales') & (df.Account == 'Bob')
df.loc[mask, 'Value'] = df.loc[mask, 'Value'].mean()

Однако, если вы хотите сделать это для мер 'sales' для каждой учетной записи, вы должны использовать transform groupby +.

mask = (df.Measure == 'Sales')
df.loc[mask, 'Value'] = df[mask].groupby('Account').Value.transform('mean')

Выход:

  Account    Date Region Type  Measure  Value
0     Bob  31-Jan   East    A    Sales    7.5
1     Bob  31-Jan   West    A    Sales    7.5
2     Bob  31-Jan   East    B  Expense    5.0
3     Bob  31-Jan   West    B  Expense   10.0

В последнем случае вы можете добавить больше столбцов в столбцы группировки, например, если вы хотите рассчитать средние продажи для каждой учетной записи на каждую дату каждого типа.

люблю это решение! единственная проблема, которую я имею, это то, что она берет среднее значение всех моих дат, где я хочу, чтобы оно составляло среднее значение только тогда, когда даты равны ... Знаете ли вы, как включить это?
Да, измените столбцы группировки так, чтобы это df[mask].groupby(['Account', 'Date']).Value.transform('mean')
Огромное спасибо. У меня есть еще один вопрос, если это не слишком сложно. Скажем, например, что я хотел разделить 40/60 вместо 50/50. Будет ли это добавить много сложности в коде?
@ Бен Нет, это не усложнит жизнь; Есть разные способы сделать это. Это будет разделение по Region ? И в этом случае, у вас есть только два региона, которые представлены один раз в каждой группе (пара аккаунт-дата)?
большой вопрос - да, это будет разделение по регионам, и теоретически в моем наборе данных может быть больше двух
@ В таком случае, я думаю, что это может быть лучше для другого вопроса. Вам нужно будет предоставить еще несколько образцов данных, чтобы мы могли видеть, как должно происходить усреднение (т.е. сначала вы хотите усреднить по регионам, затем применить весовые коэффициенты, или вы хотите назначить равные весовые коэффициенты для каждой строки, и все еще весят области соответственно).
извинения - я не знаю лучший способ предоставить вам некоторые дополнительные данные образца. Тем не менее, я думаю, что на ваш вопрос ответить довольно просто: для каждой даты одного конкретного аккаунта я хочу, чтобы веса были умножены на сумму между всеми регионами этой даты. Таким образом, для приведенных выше выборочных данных разделение между востоком и западом на 40/60 показало бы значение 6 для востока и 9 для запада. дайте мне знать, если это имеет смысл