Разделить или объединить действия по дате

Question

Разделить или объединить действия по дате

1

Мне нравится создавать базу данных последовательности, основанную на разных действиях (ACT), на тех же или разных датах. Как вы можете видеть, некоторые строки могут содержать значения NaN. Мне нужны последние данные для обучения модели машинного обучения по последовательностям действий.

ID  ACT1        ACT2        ACT3        ACT4        ACT5    
0   2015-08-11  2015-08-16  2015-08-16  2015-09-22  2015-08-19
1   2014-07-16  2014-07-16  2014-09-16  NaT         2014-09-12
2   2016-07-16  NaT         2017-09-16  2017-09-16  2017-12-16

Ожидаемый результат, который будет разделяться или объединяться в зависимости от значений даты, будет выглядеть следующим образом:

ID Sequence1  Sequence2  Sequence3  Sequence4  
0  ACT1       ACT2,ACT3  ACT5       ACT4
1  ACT1,ACT2  ACT5       ACT3
2  ACT1       ACT3,ACT4  ACT5

Следующий скрипт выведет строку со всей последовательностью:

df['Sequence'] = df.loc[:, cols].apply(lambda dr: ','.join(df.loc[:, cols].columns[dr.dropna().argsort()]), axis=1)

Sequence
ACT1,ACT2,ACT3,ACT5,ACT4
ACT1,ACT2,ACT5,ACT3
ACT1,ACT3,ACT4,ACT5

Christopher 19 июнь 2018, в 18:37

Источник

Теги:

python

merge

split

sequence

1 ответ

Ещё вопросы

T. Ray · Accepted Answer · 2018-06-19T16-25-00.000Z

Это было сложно, но я считаю, что это сработает для вас.

from collections import defaultdict
import pandas as pd

data = {
      'ACT1': [pd.Timestamp(year=2015, month=8, day=11),
               pd.Timestamp(year=2014, month=7, day=16),
               pd.Timestamp(year=2016, month=7, day=16)],
      'ACT2': [pd.Timestamp(year=2015, month=8, day=16),
               pd.Timestamp(year=2014, month=7, day=16),
               np.nan],
      'ACT3': [pd.Timestamp(year=2015, month=8, day=16),
               pd.Timestamp(year=2014, month=9, day=16),
               pd.Timestamp(year=2017, month=9, day=16)],
      'ACT4': [pd.Timestamp(year=2015, month=9, day=22),
               np.nan, 
               pd.Timestamp(year=2017, month=9, day=16)],
      'ACT5': [pd.Timestamp(year=2015, month=8, day=19),
               pd.Timestamp(year=2014, month=9, day=12),
               pd.Timestamp(year=2017, month=12, day=16)]}

df = pd.DataFrame(data)

# Unstack so we can create groups
unstacked = df.unstack().reset_index()

# This will keep track of our sequence data
sequences = defaultdict(list)

# Here we get our groups, e.g., 'ACT1,ACT2', etc.;
# We group by date first, then by original index (0,1,2)
for i, g in unstacked.groupby([0, 'level_1']):
    sequences[i[1]].append(','.join(g.level_0))

# How many sequences (columns) we're going to need
n_seq = len(max(sequences.values(), key=len))

# Any NaTs will always shift your data to the left,
# so to speak, so we need to right pad the rows 
for k in sequences:
    while len(sequences[k]) < n_seq:
        sequences[k].append('')

# Create column labels and make new dataframe
columns = ['Sequence{}'.format(i) for i in range(1, n_seq + 1)]
print pd.DataFrame(list(sequences.values()), columns=columns)

   Sequence1  Sequence2 Sequence3 Sequence4
0       ACT1  ACT2,ACT3      ACT5      ACT4
1  ACT1,ACT2       ACT5      ACT3          
2       ACT1  ACT3,ACT4      ACT5

Спасибо, что отлично сработало! Только один вопрос: что нужно изменить в сценарии, если мы не будем группировать в одни и те же даты, а сделаем его последовательным для каждого элемента в порядке столбцов по умолчанию? Так что у нас будет Sequence1 -ACT1, Sequence2 - ACT2 вместо Sequence1 ACT1, ACT2?
Я не совсем понимаю. Можете ли вы привести полный пример того, как будут выглядеть Sequence1 и 2?
Надеюсь, что он правильно отформатирует здесь: `Sequence1 Sequence2 Sequence3 Sequence4 Sequence5 0 ACT1 ACT2 ACT3 ACT5 ACT4 1 ACT1 ACT2 ACT5 ACT3 2 ACT1 ACT3 ACT4 ACT5` По сути, только одно действие на столбец. Если некоторые произойдут в одну и ту же дату, они будут разделены. Там, где это было Sequence1 (ACT1, ACT2), это должно быть Sequence1 (ACT1), Sequence2 (ACT2).
Ах я вижу. Итак, когда вы перебираете группы, вам нужно избавиться от объединения строк. Модифицированная строка такова: sequence [i [1]]. Extended (g.level_0.values)
Спасибо за вашу помощь! Это сработало.
Я только что обнаружил, что последний столбец всегда пуст. Как мы можем избежать , что придает ' ' также самой длинной последовательности? Я чувствую, что ответ должен быть for k in sequences:
Вы имеете в виду 1) последний столбец полностью пустой, т. Е. Содержит только ' ' и должен быть удален? Или вы имеете в виду 2) вы хотели бы избавиться от любого ' ' в последнем столбце?
1) Последний столбец полностью пуст. Максимальное количество элементов - 15, но в нем 16 столбцов.
Этого не должно быть. Я собираюсь предложить нам продолжить это в чате для отладки. chat.stackoverflow.com/rooms/173816/...