Создание столбца в Dataframe с использованием нескольких условий

Question

Создание столбца в Dataframe с использованием нескольких условий

1

Я пытаюсь создать новый столбец в кадре данных Pandas, используя несколько условных операторов, основанных на другой информации в пределах данных. Я попытался выполнить итерацию с использованием.iteritems(). Это работает, но кажется неэлегантным и возвращает уведомление, что я не знаю, как понимать и/или исправлять.

Мой фрагмент кода:

proj_file_pq['pd_pq'] = 0

for key, value in proj_file_pq['pd_pq'].iteritems():

    if proj_file_pq['qualifying'].iloc[key] - \
        proj_file_pq['avg_pd'].iloc[key] < 1:
        proj_file_pq['pd_pq'].iloc[key] = \
            proj_file_pq['qualifying'].iloc[key] - 1

    elif proj_file_pq['qualifying'].iloc[key] > \
        proj_file_pq['avg_start'].iloc[key]:
        proj_file_pq['pd_pq'].iloc[key] = \
            proj_file_pq['qualifying'].iloc[key] - \
                proj_file_pq['avg_finish'].iloc[key]

    elif proj_file_pq['qualifying'].iloc[key] + \
        proj_file_pq['avg_pd'].iloc[key] > 40:
        proj_file_pq['pd_pq'].iloc[key] = \
            40 - proj_file_pq['qualifying'].iloc[key]

    else:
        proj_file_pq['pd_pq'].iloc[key] = proj_file_pq['avg_pd'].iloc[key]

print(proj_file_pq[['Driver', 'avg_start', 'avg_finish', 'qualifying',\
                     'avg_pd', 'pd_pq']].head())

И вот результат:

C:\Python36\lib\site-packages\pandas\core\indexing.py:189: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)
              Driver  avg_start  avg_finish  qualifying  avg_pd  pd_pq
0  A.J. Allmendinger     18.000      21.875          16   3.875  3.875
1        Alex Bowman     14.500      18.000           8   3.500  3.500
2      Aric Almirola     21.250      19.250          13  -2.000 -2.000
3      Austin Dillon     18.875      18.375          17  -0.500 -0.500
4        B.J. McLeod     33.500      33.500          36   0.000  2.500

Исходный фреймворк имеет следующую главу:

{'Driver': {0: 'A.J. Allmendinger', 1: 'Alex Bowman', 2: 'Aric Almirola', 3: 'Austin Dillon', 4: 'B.J. McLeod'}, 'qualifying': {0: 16, 1: 8, 2: 13, 3: 17, 4: 36}, 'races': {0: 8, 1: 6, 2: 8, 3: 8, 4: 2}, 'avg_start': {0: 18.0, 1: 14.5, 2: 21.25, 3: 18.875, 4: 33.5}, 'avg_finish': {0: 21.875, 1: 18.0, 2: 19.25, 3: 18.375, 4: 33.5}, 'avg_pd': {0: 3.875, 1: 3.5, 2: -2.0, 3: -0.5, 4: 0.0}, 'percent_fl': {0: 0.0036250647332988096, 1: 0.0071770334928229675, 2: 0.03655483224837256, 3: 0.006718346253229974, 4: 0.0}, 'percent_ll': {0: 0.0031071983428275505, 1: 0.001594896331738437, 2: 0.03505257886830245, 3: 0.006718346253229974, 4: 0.0}, 'percent_lc': {0: 0.9587884806355512, 1: 0.6226415094339622, 2: 0.9915590863952334, 3: 0.9607745779543198, 4: 0.2398212512413108}, 'finish_rank': {0: 25.0, 1: 17.0, 2: 20.5, 3: 19.0, 4: 35.0}, 'pd_rank': {0: 7.0, 1: 9.0, 2: 26.0, 3: 23.0, 4: 19.5}, 'fl_rank': {0: 28.0, 1: 21.0, 2: 8.0, 3: 22.0, 4: 35.0}, 'll_rank': {0: 19.0, 1: 24.0, 2: 6.0, 3: 16.0, 4: 31.0}, 'overall': {0: 79.0, 1: 71.0, 2: 60.5, 3: 80.0, 4: 120.5}, 'overall_rank': {0: 22.0, 1: 20.0, 2: 13.0, 3: 24.0, 4: 34.0}, 'pd_pts': {0: 3.875, 1: 3.5, 2: -2.0, 3: -0.5, 4: 0.0}, 'fl_pts': {0: 0.5455722423614707, 1: 1.0801435406698563, 2: 5.50150225338007, 3: 1.0111111111111108, 4: 0.0}, 'll_pts': {0: 0.2338166752977732, 1: 0.12001594896331738, 2: 2.6377065598397595, 3: 0.5055555555555555, 4: 0.0}, 'finish_pts': {0: 22.0, 1: 30.0, 2: 26.5, 3: 28.0, 4: 12.0}, 'total_pts': {0: 26.654388917659244, 1: 34.70015948963317, 2: 32.63920881321983, 3: 29.016666666666666, 4: 12.0}}

Совет по улучшению этого оценивается.

Todd Burus 28 июль 2018, в 06:39

Источник

0

Можете ли вы опубликовать исходный фрейм данных?
user3483203 28 июль 2018, в 03:58
0

Разместил заголовок и информацию с исходного фрейма данных. Будет ли этого достаточно?
Todd Burus 28 июль 2018, в 04:02
0

Можете ли вы опубликовать вывод df.head().to_dict() , чтобы я мог создать его напрямую со всеми столбцами?
user3483203 28 июль 2018, в 04:04
0

Я сделал редактирование.
Todd Burus 28 июль 2018, в 04:06

Показать ещё 2 комментария

Теги:

python

pandas

2 ответа

0

Я не запускал это, так как у меня не было тестовых данных, но это должно работать, предполагая, что я был прав с моими скобками, и вы импортируете numpy как np

импортировать numpy как np

proj_file_pq['pd_pq'] = np.where(proj_file_pq['qualifying'] - proj_file_pq['avg_pd'] < 1, proj_file_pq['qualifying'] - 1, 
  np.where(proj_file_pq['qualifying'] > proj_file_pq['avg_start'], proj_file_pq['qualifying'] - proj_file_pq['avg_finish'], 
  np.where(proj_file_pq['qualifying'] + proj_file_pq['avg_pd'] > 40, 40 - proj_file_pq['qualifying'], 
  proj_file_pq['avg_pd']))

print(proj_file_pq[['Driver', 'avg_start', 'avg_finish', 'qualifying',\
                 'avg_pd', 'pd_pq']].head())

Вам не нужно создавать proj_file_pq ['pd_pq'] до и установить его равным 0 с помощью этого метода

piethon26 28 июль 2018, в 03:04

0

Спасибо. Это работает, и, конечно, короче. Как вы думаете, может быть другой способ, который приводит к повышению читабельности?
Todd Burus 28 июль 2018, в 04:13
0

Нет проблем, да, вы определенно можете выписать условия, как это делал индивидуум, приведенный ниже, поэтому у вас будет условие1 = ...., условие2 = ... и затем в функции выполните: proj_file_pq ['pd_pq'] = np.where (cond1, value_if_cond1, np.where (cond2, value_if_cond2 ... np.where (cond3, value_if_cond3, value_if_none_of_conditions)))
WIT 28 июль 2018, в 04:16
0

Это не учитывает первый возможный результат. np.where допускает только истинные и ложные результаты, а не множественные. В этом случае это работает, потому что в предоставленном вами образце первое условие никогда не выполняется.
user3483203 28 июль 2018, в 04:16
0

Если вы делаете np.where, то это работает
WIT 28 июль 2018, в 04:18
0

Зачем использовать вложенные np.wheres если есть метод, разработанный специально для нескольких условий?
user3483203 28 июль 2018, в 04:18

Показать ещё 3 комментария

Ещё вопросы

Можете ли вы опубликовать исходный фрейм данных?
Разместил заголовок и информацию с исходного фрейма данных. Будет ли этого достаточно?
Можете ли вы опубликовать вывод df.head().to_dict() , чтобы я мог создать его напрямую со всеми столбцами?
Спасибо. Это работает, и, конечно, короче. Как вы думаете, может быть другой способ, который приводит к повышению читабельности?
Нет проблем, да, вы определенно можете выписать условия, как это делал индивидуум, приведенный ниже, поэтому у вас будет условие1 = ...., условие2 = ... и затем в функции выполните: proj_file_pq ['pd_pq'] = np.where (cond1, value_if_cond1, np.where (cond2, value_if_cond2 ... np.where (cond3, value_if_cond3, value_if_none_of_conditions)))
Это не учитывает первый возможный результат. np.where допускает только истинные и ложные результаты, а не множественные. В этом случае это работает, потому что в предоставленном вами образце первое условие никогда не выполняется.
Если вы делаете np.where, то это работает
Зачем использовать вложенные np.wheres если есть метод, разработанный специально для нескольких условий?

user3483203 · Accepted Answer · 2018-07-28T01-55-00.000Z

Настройте свои условия:

c1 = (df.qualifying - df.avg_pd).lt(1)
c2 = (df.qualifying.gt(df.avg_start))
c3 = (df.qualifying.add(df.avg_pd).gt(40))

И ваши соответствующие выходы:

o1 = df.qualifying.sub(1)
o2 = df.qualifying.sub(df.avg_finish)
o3 = 40 - df.qualifying

Использование np.select:

df['pd_pq'] = np.select([c1, c2, c3], [o1, o2, o3], df.avg_pd)

              Driver  qualifying       finish_pts  total_pts  pd_pq
0  A.J. Allmendinger    0.233817    ...    22.0    26.654389  3.875
1        Alex Bowman    0.120016    ...    30.0    34.700159  3.500
2      Aric Almirola    2.637707    ...    26.5    32.639209 -2.000
3      Austin Dillon    0.505556    ...    28.0    29.016667 -0.500
4        B.J. McLeod    0.000000    ...    12.0    12.000000  2.500

Благодарю. Это, безусловно, добавляет удобочитаемости. Есть ли преимущество в использовании этой точечной нотации для вызова столбцов в кадре данных? Я никогда не видел такого раньше.
Это полезная опция, которую pandas допускает, никакой реальной выгоды, просто автозаполнение для меня в моей консоли, поэтому я люблю ее использовать. Я также думаю, что это выглядит чище
Есть некоторые случаи , что он не будет работать, например, вы не можете создать столбец , используя точечную нотацию, и вы не можете получить доступ к столбцы, которые называются такие вещи , как index или другие имена , используемые pandas