Столбец группировки / категоризации возрастов в Python Pandas

Question

Столбец группировки / категоризации возрастов в Python Pandas

1

У меня есть dataframe say df. df имеет столбец 'Ages'

>>> df['Age']

Я хочу сгруппировать эти возрасты и создать новый столбец, что-то вроде этого

If age >= 0 & age < 2 then AgeGroup = Infant
If age >= 2 & age < 4 then AgeGroup = Toddler
If age >= 4 & age < 13 then AgeGroup = Kid
If age >= 13 & age < 20 then AgeGroup = Teen
and so on .....

Как я могу это сделать, используя библиотеку Pandas.

Я пробовал делать что-то вроде этого

X_train_data['AgeGroup'][ X_train_data.Age < 13 ] = 'Kid'
X_train_data['AgeGroup'][ X_train_data.Age < 3 ] = 'Toddler'
X_train_data['AgeGroup'][ X_train_data.Age < 1 ] = 'Infant'

но делая это, я получаю это предупреждение

/Users/Anand/miniconda3/envs/learn/lib/python3.7/site-packages/ipykernel_launcher.py:3: SettingWithCopyWarning: значение пытается быть установлено на копии среза из DataFrame. См. Оговорки в документация: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy Это отдельно от пакета ipykernel, поэтому мы можем избежать импорта до тех пор, пока /Users/Anand/miniconda3/envs/learn/lib/python3.7/site-packages/ipykernel_launcher.py: 4: SettingWithCopyWarning: значение пытается установить на копии среза из DataFrame

Как избежать этого предупреждения и сделать это лучше.

Anand Siddharth 11 окт. 2018, в 08:30

Источник

0

Возможный дубликат панд создает новый столбец на основе значений из других столбцов
Shintlor 11 окт. 2018, в 06:31
0

Какой ожидаемый результат для -1 ?
jezrael 11 окт. 2018, в 06:34
0

@jezrael Jezrael, который может быть в неизвестном
Anand Siddharth 11 окт. 2018, в 06:49

Показать ещё 1 комментарий

Теги:

python

pandas

dataframe

2 ответа

1

Просто используйте:

X_train_data.loc[(X_train_data.Age < 13),  'AgeGroup'] = 'Kid'

Pankaj Joshi 11 окт. 2018, в 04:57

Ещё вопросы

Возможный дубликат панд создает новый столбец на основе значений из других столбцов
Какой ожидаемый результат для -1 ?
@jezrael Jezrael, который может быть в неизвестном

jezrael · Accepted Answer · 2018-10-11T05-05-00.000Z

Используйте pandas.cut с параметром right=False для не включает самый правый край бункеров:

X_train_data = pd.DataFrame({'Age':[0,2,4,13,35,-1,54]})

bins= [0,2,4,13,20,110]
labels = ['Infant','Toddler','Kid','Teen','Adult']
X_train_data['AgeGroup'] = pd.cut(X_train_data['Age'], bins=bins, labels=labels, right=False)
print (X_train_data)
   Age AgeGroup
0    0   Infant
1    2  Toddler
2    4      Kid
3   13     Teen
4   35    Adult
5   -1      NaN
6   54    Adult

Последнее для замены отсутствующего значения используйте add_categories с fillna:

X_train_data['AgeGroup'] = X_train_data['AgeGroup'].cat.add_categories('unknown')
                                                   .fillna('unknown')
print (X_train_data)
   Age AgeGroup
0    0   Infant
1    2  Toddler
2    4      Kid
3   13     Teen
4   35    Adult
5   -1  unknown
6   54    Adult

bins= [-1,0,2,4,13,20, 110]
labels = ['unknown','Infant','Toddler','Kid','Teen', 'Adult']
X_train_data['AgeGroup'] = pd.cut(X_train_data['Age'], bins=bins, labels=labels, right=False)

print (X_train_data)
   Age AgeGroup
0    0   Infant
1    2  Toddler
2    4      Kid
3   13     Teen
4   35    Adult
5   -1  unknown
6   54    Adult

пожалуйста, отредактируйте, чтобы показать, как -1 может быть установлен в Неизвестный @jezrael
мы можем присвоить -1 для bins и сделать это
@AnandSiddharth - да, это лучшее решение;)
Так это будет выглядеть примерно так? bins= [-1, 0,2,4,13,20,110] labels = ['Unknown', 'Infant','Toddler','Kid','Teen','Adult']
@AnandSiddharth - да, точно, ответ был отредактирован.