Я новичок в python и использовал для использования R. Для этого я буду использовать as.factor и категоризировать на основе числа.
Раньше я пытался использовать функцию replace и.loc, чтобы дать новое значение категории в новом столбце в соответствии с условием, но оно будет работать только с ошибкой в том, что я хотел сделать.
В конце концов я создал следующую, очень простую функцию:
g['Category'] = ""
for i in g['NumFloorsGroup']:
if i == '0-9' or i == '10-19':
g['Category'] = 'LowFl'
elif i == '50~':
g['Category'] = 'HighFl'
else:
g['Category'] = 'NormalFl'
Однако, когда я запускаю функцию, она возвращает только "LowFl" и не исправляет другие части. Я чувствую, что у меня что-то не хватает.
информация о данных выглядит следующим образом:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 596 entries, 128 to 595
Data columns (total 4 columns):
YearBuilt 596 non-null int64
NumFloorsGroup 596 non-null category
Count 596 non-null int64
Category 596 non-null object
dtypes: category(1), int64(2), object(1)
Любой комментарий будет полезен!
bins = [0, 10, 20, 30, 40, 50, np.inf]
labels = ['0-9', '10-19', '20-29', '30-39', '40-49', '50~']
copy = original_data.copy()
copy['NumFloorsGroup'] = pd.cut(copy['NumFloors'], bins=bins, labels=labels, include_lowest=True)
g = (copy.groupby(['YearBuilt', 'NumFloorsGroup'])['YearBuilt']
.count()
.reset_index(name="Count")
.sort_values(by='Count', ascending=False))
И части, которые возвращают LowFl
g['Category'] = ""
for i in g['NumFloorsGroup']:
if i == '0-9' or i == '10-19':
g['Category'] = 'LowFl'
elif i == '50~':
g['Category'] = 'HighFl'
else:
g['Category'] = 'NormalFl'
Это возвращает всю категорию как LowFl
YearBuilt NumFloorsGroup Count Category
128 1920 0-9 90956 LowFl
171 1930 0-9 76659 LowFl
144 1925 0-9 70387 LowFl
237 1950 0-9 47237 LowFl
91 1910 0-9 46384 LowFl
Я предлагаю функцию изменения cut
с новыми бункерами и новыми ярлыками, потому что лучше всего избегать циклов в пандах, потому что медленный, если существуют некоторые векторизованные функции:
df = pd.DataFrame({'Floors':[0,1,10,19,20,25,40, 70]})
bins = [0, 10, 20, 30, 40, 50, np.inf]
labels = ['0-9', '10-19', '20-29', '30-39', '40-49', '50~']
df['NumFloorsGroup'] = pd.cut(df['Floors'],
bins=bins,
labels=labels,
include_lowest=True)
df['Category'] = pd.cut(df['Floors'],
bins=[0, 19, 50, np.inf],
labels=['LowFl','NormalFl','HighFl'],
include_lowest=True)
print (df)
Floors NumFloorsGroup Category
0 0 0-9 LowFl
1 1 0-9 LowFl
2 10 0-9 LowFl
3 19 10-19 LowFl
4 20 10-19 NormalFl
5 25 20-29 NormalFl
6 40 30-39 NormalFl
7 70 50~ HighFl
Или используйте map
с дикторией с fillna
для замены значений не в dict (NaN
s) с помощью NormalFl
:
d = { "0-9": 'LowFl', "10-19": 'LowFl',"50+": 'HighFl'}
df['Category'] = df['NumFloorsGroup'].map(d).fillna('NormalFl')
Причина, по которой ваше решение не работает, заключается в том, что вы не выполняете итерацию над файловым кадром. Поэтому, чтобы исправить ваше решение, вместо того, чтобы прямо назначать его столбцу, добавьте значения в список, а затем, затем, назначьте список в dataframe.
category = []
for i in g['NumFloorsGroup']:
if i == '0-9' or i == '10-19':
category.append('LowFl')
elif i == '50~':
category.append('HighFl')
else:
category.append('NormalFl')
g.assign(category = category)
Вы можете попробовать следующее:
d = {
"0-9": 'LowFl',
"10-19": 'LowFl',
"10-19": '50~',
}
g['NumFloorsGroup'].map(lambda key: d.get(key, 'NormalFl'))
NumFloorsGroup
?