цикл if для категоризации при условии

Question

цикл if для категоризации при условии

1

Я новичок в python и использовал для использования R. Для этого я буду использовать as.factor и категоризировать на основе числа.

Раньше я пытался использовать функцию replace и.loc, чтобы дать новое значение категории в новом столбце в соответствии с условием, но оно будет работать только с ошибкой в том, что я хотел сделать.

В конце концов я создал следующую, очень простую функцию:

g['Category'] = ""

for i in g['NumFloorsGroup']:
    if i == '0-9' or i == '10-19':
        g['Category'] = 'LowFl'
    elif i == '50~':
        g['Category'] = 'HighFl'
    else:
        g['Category'] = 'NormalFl'

Однако, когда я запускаю функцию, она возвращает только "LowFl" и не исправляет другие части. Я чувствую, что у меня что-то не хватает.

информация о данных выглядит следующим образом:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 596 entries, 128 to 595
Data columns (total 4 columns):
YearBuilt         596 non-null int64
NumFloorsGroup    596 non-null category
Count             596 non-null int64
Category          596 non-null object
dtypes: category(1), int64(2), object(1)

Любой комментарий будет полезен!

bins = [0, 10, 20, 30, 40, 50, np.inf]
labels = ['0-9', '10-19', '20-29', '30-39', '40-49', '50~']
copy = original_data.copy()
copy['NumFloorsGroup'] = pd.cut(copy['NumFloors'], bins=bins, labels=labels, include_lowest=True)

g = (copy.groupby(['YearBuilt', 'NumFloorsGroup'])['YearBuilt']
        .count()
        .reset_index(name="Count")
                 .sort_values(by='Count', ascending=False))

И части, которые возвращают LowFl

g['Category'] = ""

for i in g['NumFloorsGroup']:
    if i == '0-9' or i == '10-19':
        g['Category'] = 'LowFl'
    elif i == '50~':
        g['Category'] = 'HighFl'
    else:
        g['Category'] = 'NormalFl'

Это возвращает всю категорию как LowFl

    YearBuilt   NumFloorsGroup  Count   Category
128 1920    0-9 90956   LowFl
171 1930    0-9 76659   LowFl
144 1925    0-9 70387   LowFl
237 1950    0-9 47237   LowFl
91  1910    0-9 46384   LowFl

tmhs 19 сен. 2018, в 10:26

Источник

0

Как создается колонка NumFloorsGroup ?
jezrael 19 сен. 2018, в 07:59
0

Я использовал pd.cut с мусорными ведрами и надписями, основанными на другом столбце под названием число этажей @jezrael
tmhs 19 сен. 2018, в 08:03
0

Спасибо, можно это увидеть? Я думаю, что лучше всего изменить его, дать мне время для решения.
jezrael 19 сен. 2018, в 08:04
0

Я не уверен, как поделиться всеми данными, но я добавлю, что я сделал в посте. Спасибо! @jezrael
tmhs 19 сен. 2018, в 08:06

Показать ещё 2 комментария

Теги:

python

pandas

for-loop

if-statement

3 ответа

1

Причина, по которой ваше решение не работает, заключается в том, что вы не выполняете итерацию над файловым кадром. Поэтому, чтобы исправить ваше решение, вместо того, чтобы прямо назначать его столбцу, добавьте значения в список, а затем, затем, назначьте список в dataframe.

category = []
for i in g['NumFloorsGroup']:
    if i == '0-9' or i == '10-19':
        category.append('LowFl')
    elif i == '50~':
        category.append('HighFl')
    else:
        category.append('NormalFl')

g.assign(category = category)

Raunaq Jain 19 сен. 2018, в 05:58

0

Ах, вот почему я всегда должен создавать список и добавлять их. Спасибо, я никогда не забуду это, потратив столько времени на размышления, почему это не работает.
tmhs 19 сен. 2018, в 08:11

1

Вы можете попробовать следующее:

d = {
  "0-9": 'LowFl',
  "10-19": 'LowFl',
  "10-19": '50~',
}
g['NumFloorsGroup'].map(lambda key: d.get(key, 'NormalFl'))

hamza tuna 19 сен. 2018, в 05:33

Ещё вопросы

Я использовал pd.cut с мусорными ведрами и надписями, основанными на другом столбце под названием число этажей @jezrael
Спасибо, можно это увидеть? Я думаю, что лучше всего изменить его, дать мне время для решения.
Я не уверен, как поделиться всеми данными, но я добавлю, что я сделал в посте. Спасибо! @jezrael
Ах, вот почему я всегда должен создавать список и добавлять их. Спасибо, я никогда не забуду это, потратив столько времени на размышления, почему это не работает.

jezrael · Accepted Answer · 2018-09-19T05-58-00.000Z

Я предлагаю функцию изменения cut с новыми бункерами и новыми ярлыками, потому что лучше всего избегать циклов в пандах, потому что медленный, если существуют некоторые векторизованные функции:

df = pd.DataFrame({'Floors':[0,1,10,19,20,25,40, 70]})

bins = [0, 10, 20, 30, 40, 50, np.inf]
labels = ['0-9', '10-19', '20-29', '30-39', '40-49', '50~']

df['NumFloorsGroup'] = pd.cut(df['Floors'], 
                              bins=bins, 
                              labels=labels,
                              include_lowest=True)

df['Category'] = pd.cut(df['Floors'], 
                        bins=[0, 19, 50, np.inf], 
                        labels=['LowFl','NormalFl','HighFl'],
                        include_lowest=True)

print (df)
   Floors NumFloorsGroup  Category
0       0            0-9     LowFl
1       1            0-9     LowFl
2      10            0-9     LowFl
3      19          10-19     LowFl
4      20          10-19  NormalFl
5      25          20-29  NormalFl
6      40          30-39  NormalFl
7      70            50~    HighFl

Или используйте map с дикторией с fillna для замены значений не в dict (NaN s) с помощью NormalFl:

d = { "0-9": 'LowFl',  "10-19": 'LowFl',"50+": 'HighFl'}
df['Category']  = df['NumFloorsGroup'].map(d).fillna('NormalFl')

О, я должен был просто использовать pd cut для этой части! Я думаю, мой мыслительный процесс был слишком сложным. Спасибо!