Выберите один из каждого в группе панд

Question

Выберите один из каждого в группе панд

1

Я пытаюсь создать все возможные комбинации пар игроков, которые можно распределить по 4-мя командам по гольфу на основе гандикапа типа A, B, C или D.

Я пробовал различные методы itertools, такие как комбинации и перестановки, но не могу найти правильный подход.

from itertools import combinations, product, permutations
g = player_df.groupby(by = 'hcp_ABCD')
teams_listoflists = [group[1].index for group in g]
teams_combo_ndx = [player for player in permutations(teams_listoflists, 4)]

Вот мой стол панд:

        handicap      name hcp_ABCD
0         24   Player1        D
1         21   Player2        D
2          8   Player3        B
3         14   Player4        C
4         20   Player5        D
5         13   Player6        C
6         -1   Player7        A
7          5   Player8        A
8          8   Player9        B
9          6  Player10        B
10        20  Player11        D
11        15  Player12        C
12         0  Player13        A
13        12  Player14        C
14         0  Player15        A
15        10  Player16        B

Я хотел бы, чтобы на выходе были все комбинации (без дубликатов) комбинаций игроков (команд), чтобы каждая команда имела тип A, B, C и D на каждой. Эти выходные данные могут быть похожими на таблицы, сгруппированные по "опциям".

Изменение: добавляю этот выходной пример для ясности.

                       A Player     B Player     C Player   D Player
    option 1  team1    Player7      Player3      Player4    Player1
              team2    Player8      Player9      Player6    Player2
              team3    Player13     Player10     Player12   Player5
              team4    Player15     Player16     Player14   Player11

    option 2  team1    Player7      Player16     Player4    Player1
              team2    Player8      Player3      Player6    Player2
              team3    Player13     Player9      Player12   Player5
              team4    Player15     Player10     Player14   Player11

    ...


                       A Player     B Player     C Player   D Player
    option n  team1    Player7      Player3      Player4    Player11
              team2    Player8      Player9      Player6    Player1
              team3    Player13     Player10     Player12   Player2
              team4    Player15     Player16     Player14   Player5

Смысл вышеизложенного состоит в том, что я пытаюсь найти генератор, который циклически просматривает все комбинации игроков в каждой группе гандикапа, чтобы комбинация опций команд была ясной.

Правка № 2 Я определил, что этот код создает комбинацию всех возможных командных комбинаций:

g = df.groupby(by = 'hcp_ABCD')
combinations = [list(group[1].index) for group in g]

Это создает список списков с игроками A в списке [0], игроками B в списке [1] и т.д.

И это получает индекс для всех возможных комбинаций команд:

from itertools import product
options = [option for option in product(*combinations)]

Но то, как я назначаю их в "опции" (см. Пример выше) и не допускаю дублирования, это то, на чем я застрял.

Редактирование # 3 Более простая версия (способ думать об этой проблеме) заключается в использовании следующих наборов:

A = ['A1', 'A2', 'A3', 'A4']
B = ['B1', 'B2', 'B3', 'B4']
C = ['C1', 'C2', 'C3', 'C4']
D=  ['D1', 'D2', 'D3', 'D4']

По сути это делает то, что делает groupby выше (группировка по hcp_ABCD), но называет каждого "A Player", "B Player" и т.д.

возможные комбинации команд:

team_combinations = [team for team in product(A, B, C, D)]

затем следующий трюк состоит в том, чтобы назначить их комбинациям из 4 команд без дублирования игроков.

leeprevost 16 апр. 2019, в 19:35

Источник

0

Теперь я думаю, что itertools.product (g) может быть ключом к этому. это создает исчерпывающий список команд ABCD. Но он не назначает их в опции без дубликатов игроков, как указано выше.
leeprevost 16 апр. 2019, в 20:18
0

@PMende, нет, это не то же самое. Я не пытаюсь попробовать. Я пытаюсь получить исчерпывающий список. Вопрос, на который вы указываете, заключается в получении 30% выборки.
leeprevost 16 апр. 2019, в 20:20
1

Ах. Я понимаю, что вы имеете ввиду. В этом случае разбейте каждый из типов гандикапа на подкадры данных (по типу гандикапа), а затем выполните перекрестное соединение каждой из этих таблиц друг с другом (вам нужно будет добавить фиктивный столбец с одинаковым значением в каждом, чтобы сделать это).
PMende 16 апр. 2019, в 20:28
0

@Pmende, - думаю о вашей идее здесь. Может быть, перебрать itertools.product (* g), добавить фиктивный столбец для «option x» и затем перекрестно соединить таблицы? Тогда я могу сделать мульти-индекс оттуда?
leeprevost 16 апр. 2019, в 20:38
0

Я представил реализацию моего предложения ниже.
PMende 16 апр. 2019, в 21:01

Показать ещё 3 комментария

Теги:

python

pandas

5 ответов

1

Я сделал предложение в комментариях. Вот реализация:

import pandas as pd
from functools import reduce

data = [
    (24,'Player1','D'),
    (21,'Player2','D'),
    (8,'Player3','B'),
    (8,'Player4','B'),
    (14,'Player5','C'),
    (13,'Player6','C'),
    (-1,'Player7','A'),
    (5,'Player8','A')
]
df = pd.DataFrame(
    data,
    columns=['handicap', 'name', 'hcp_ABCD']
)

dfs = [
    grp_df.drop(columns="hcp_ABCD")
          .rename(columns={"name": f"player_{hndcp}",
                           "handicap": f"handicap_{hndcp}"})
    for hndcp, grp_df in df.assign(key=1)
                           .groupby("hcp_ABCD")
]
result = reduce(
    lambda left, right: left.merge(right, how="outer", on="key"),
    dfs
).drop(columns="key")
print(result)

Выход:

    handicap_A player_A  handicap_B player_B  handicap_C player_C  handicap_D player_D
0           -1  Player7           8  Player3          14  Player5          24  Player1
1           -1  Player7           8  Player3          14  Player5          21  Player2
2           -1  Player7           8  Player3          13  Player6          24  Player1
3           -1  Player7           8  Player3          13  Player6          21  Player2
4           -1  Player7           8  Player4          14  Player5          24  Player1
5           -1  Player7           8  Player4          14  Player5          21  Player2
6           -1  Player7           8  Player4          13  Player6          24  Player1
7           -1  Player7           8  Player4          13  Player6          21  Player2
8            5  Player8           8  Player3          14  Player5          24  Player1
9            5  Player8           8  Player3          14  Player5          21  Player2
10           5  Player8           8  Player3          13  Player6          24  Player1
11           5  Player8           8  Player3          13  Player6          21  Player2
12           5  Player8           8  Player4          14  Player5          24  Player1
13           5  Player8           8  Player4          14  Player5          21  Player2
14           5  Player8           8  Player4          13  Player6          24  Player1
15           5  Player8           8  Player4          13  Player6          21  Player2

PMende 16 апр. 2019, в 19:17

0

Спасибо за разъяснение @PMende. Но, если я правильно понял, ваш фрейм данных dfs включает в себя 4 фрейма данных из 4 игроков. Казалось бы, мой список опций приведенный выше пример будет длиться до 4! (факториал). Если в каждой команде по 4 игрока, а в каждой команде по 1 из каждой группы с гандикапом, у вас будет потенциал для гораздо большего количества комбинаций, чем то, что показывает ваша команда. Я не уверен, что общее количество комбинаций, но что-то вроде 4 варианта для игрока B, 4 варианта для игрока C и 4 варианта игрока D для каждого игрока.
leeprevost 16 апр. 2019, в 21:27
0

@leeprevost Я показал только первые 5 строк, потому что их 256.
PMende 16 апр. 2019, в 21:47
1

@leeprevost Я отредактировал пример данных и показал полный результат по 16 комбинаций для каждого из типов гандикапа с 2 игроками.
PMende 16 апр. 2019, в 21:54
0

Я проверил это, и это работает. Но я не уверен, что смогу воспроизвести точно, КАК это работает. Я думаю, что мне больше нравится аноним, так как я могу следить за ним. но это работает
leeprevost 18 апр. 2019, в 19:16

Показать ещё 2 комментария

0

Следующий подход использует декартово произведение, а затем группируется дважды, чтобы распределить игроков по командам с уникальными гандикапами.

import pandas as pd
from pandas.compat import StringIO

print(pd.__version__)
pd.options.display.max_rows = 664

csvdata = StringIO("""handicap,name,hcp_ABCD
24,Player1,D
21,Player2,D
8,Player3,B
14,Player4,C
20,Player5,D
13,Player6,C
-1,Player7,A
5,Player8,A
8,Player9,B
6,Player10,B
20,Player11,D
15,Player12,C
0,Player13,A
12,Player14,C
0,Player15,A
10,Player16,B""")

df=pd.read_csv(csvdata)

# Generate all possible teams of unique handicap groups
# https://stackoverflow.com/questions/53699012/performant-cartesian-product-cross-join-with-pandas
def cartesian_product(left, right):
    return (left.assign(key=1).merge(right.assign(key=1), on='key').drop('key', 1))

def distribute_players(x):
    x['distribute'] = range(0, 4)
    return x

df = cartesian_product(df, df.copy())
df = df.groupby(['name_x', 'hcp_ABCD_y']).apply(distribute_players)
df['team'] = df.groupby(['name_x', 'distribute']).ngroup()
print(df[['handicap_y','name_y','hcp_ABCD_y','team']].sort_values(['team']))

Rich Andrews 16 апр. 2019, в 16:17

0

Не ищу образец. Ищите исчерпывающую комбинацию вариантов конфигурации команд, чтобы каждая команда была «сбалансированной», то есть по 1 A, 1B, 1C и 1D игрока на каждого.
leeprevost 16 апр. 2019, в 19:16
0

Обновлен, чтобы отражать создание исчерпывающей комбинации сбалансированных команд, используя краткий подход, включая точный формат вывода.
Rich Andrews 17 апр. 2019, в 15:07
0

это определенно работает. Мне очень нравятся два групповых высказывания в их простоте и эффективности. Что меня бросает, так это декартово произведение. Разве не было бы проще с другой группой? 1) g = sample_df.groupby ('hcp_ABCD'), 2) combo_teams = {group [0]: список (группа [1] .index) для группы в g}, 3) cp = [опция для опции в продукте (* combo_teams.values ())].
leeprevost 18 апр. 2019, в 19:48

Показать ещё 1 комментарий

0

Используя pivot затем stack

yourdf=df.pivot(*df).stack(dropna=False).fillna(0).reset_index()

Wen-Ben 16 апр. 2019, в 15:29

-2

Вы можете сначала создать список игроков в каждой группе гандикапа. Затем примените комбинации к этому.

grouped = df.groupby('hcp_ABCD')['name'].apply(list).reset_index()
grouped['combinations'] = grouped['name'].apply(lambda x: [player for player in combinations(x,2)]

Chris 16 апр. 2019, в 15:33

Ещё вопросы

Теперь я думаю, что itertools.product (g) может быть ключом к этому. это создает исчерпывающий список команд ABCD. Но он не назначает их в опции без дубликатов игроков, как указано выше.
@PMende, нет, это не то же самое. Я не пытаюсь попробовать. Я пытаюсь получить исчерпывающий список. Вопрос, на который вы указываете, заключается в получении 30% выборки.
Ах. Я понимаю, что вы имеете ввиду. В этом случае разбейте каждый из типов гандикапа на подкадры данных (по типу гандикапа), а затем выполните перекрестное соединение каждой из этих таблиц друг с другом (вам нужно будет добавить фиктивный столбец с одинаковым значением в каждом, чтобы сделать это).
@Pmende, - думаю о вашей идее здесь. Может быть, перебрать itertools.product (* g), добавить фиктивный столбец для «option x» и затем перекрестно соединить таблицы? Тогда я могу сделать мульти-индекс оттуда?
Я представил реализацию моего предложения ниже.
Спасибо за разъяснение @PMende. Но, если я правильно понял, ваш фрейм данных dfs включает в себя 4 фрейма данных из 4 игроков. Казалось бы, мой список опций приведенный выше пример будет длиться до 4! (факториал). Если в каждой команде по 4 игрока, а в каждой команде по 1 из каждой группы с гандикапом, у вас будет потенциал для гораздо большего количества комбинаций, чем то, что показывает ваша команда. Я не уверен, что общее количество комбинаций, но что-то вроде 4 варианта для игрока B, 4 варианта для игрока C и 4 варианта игрока D для каждого игрока.
@leeprevost Я показал только первые 5 строк, потому что их 256.
@leeprevost Я отредактировал пример данных и показал полный результат по 16 комбинаций для каждого из типов гандикапа с 2 игроками.
Я проверил это, и это работает. Но я не уверен, что смогу воспроизвести точно, КАК это работает. Я думаю, что мне больше нравится аноним, так как я могу следить за ним. но это работает
Не ищу образец. Ищите исчерпывающую комбинацию вариантов конфигурации команд, чтобы каждая команда была «сбалансированной», то есть по 1 A, 1B, 1C и 1D игрока на каждого.
Обновлен, чтобы отражать создание исчерпывающей комбинации сбалансированных команд, используя краткий подход, включая точный формат вывода.
это определенно работает. Мне очень нравятся два групповых высказывания в их простоте и эффективности. Что меня бросает, так это декартово произведение. Разве не было бы проще с другой группой? 1) g = sample_df.groupby ('hcp_ABCD'), 2) combo_teams = {group [0]: список (группа [1] .index) для группы в g}, 3) cp = [опция для опции в продукте (* combo_teams.values ())].

âńōŋŷXmoůŜ · Accepted Answer · 2019-04-16T15-37-00.000Z

Спасибо за разъяснения по поводу ожидаемого результата. Вот мой ответ, который я проверял. Возможно, это не точный формат вашего ожидаемого результата, но я оставляю вам это исправить.

import pandas as pd
def is_duplicate_team(team, group):
    '''check if an option already exists'''
    return any(group == t for t in team)
def is_player_exists(group, arr):
    '''check if a player exists in a group'''
    return any(x in g for g in group for x in arr)

df = [         (24   ,'Player1','D'),
         (21   ,'Player2','D'),
          (8   ,'Player3','B'),
         (14   ,'Player4','C'),
         (20   ,'Player5','D'),
         (13   ,'Player6','C'),
         (-1   ,'Player7','A'),
          (5   ,'Player8','A'),
          (8   ,'Player9','B'),
          (6  ,'Player10','B'),
        (20  ,'Player11','D'),
        (15  ,'Player12','C'),
         (0  ,'Player13','A'),
        (12  ,'Player14','C'),
         (0  ,'Player15','A'),
        (10  ,'Player16','B')]
df = pd.DataFrame(df, columns=['handicap', 'name', 'hcp_ABCD'])
from itertools import product
grouped = df.groupby('hcp_ABCD')['name'].apply(list).reset_index()
df_name = [n for n in grouped.name]
df_comb = [p for p in product(*df_name)]

# below code will get all combinations of groups and for a team having all players
teams=[]
for i in df_comb[:-1]:
    group=[i] 
    for j in df_comb[1:]: 
        if not is_player_exists(group, j):
            group.append(j)
        if len(group) == 4:
            if not is_duplicate_team(teams, group):
                teams.append(group)
            continue

# below code will print the output similar to what you expected
i=0
for t in teams:
    i+=1
    print('option: ', str(i) )
    for p in t:
        print(p)

Я думаю, что это включает исчерпывающую опцию для всех конфигураций команды. Но он не распределяет команды на 4 команды так, чтобы отображалась каждая комбинация опций команды. Я собираюсь обновить мой вопрос, чтобы быть более ясным по этому вопросу.
Ну черт, ты прав. Это действительно дает результат. Я надеялся получить это в многоиндексный фрейм данных, но я согласен, это похоже на это.
Тем не менее, я думаю, что @Pmende получает, возможно, немного более элегантный (т.е. меньше кода) способ сделать это.
Некоторое время мне приходилось думать об этом, используя упрощенный подход, используя 4 набора групп для выбора из A = (A1, A2, A3, A4), B = (B1, B2, B3, B4) ... D = ( D1, D2, D3, D4). Я использовал [p для p в продукте (A, B, C, D)], чтобы получить комбо-команды, а затем пробежал их по вашим комбинациям для цикла. Интересно, есть ли более простой способ использования itertools.combination ([A, B, C, D], 4), но, похоже, он работает. проверяю это как правильный ответ.