Как разбить столбец на основе строки (если она существует) на отдельный столбец

Question

Как разбить столбец на основе строки (если она существует) на отдельный столбец

1

У меня есть dataframe следующим образом:

df = pd.DataFrame({
'Event':['2018 Green Meeting','2018 Yellow Meeting','2018 Red Meeting',
'2017 Green Meeting','2017 Yellow Meeting','2017 Red Meeting',
'2016 Green Meeting','2016 Yellow Meeting','2016 Red Meeting',
'Blue Meeting','Purple Meeting','Green Meeting'],
'Count':[1,2,3,4,5,6,7,8,9,10,11,12]
})

Я хочу разбить столбец событий на два столбца "Год" и "Событие_Name", чтобы получить следующий результат:

df2 = pd.DataFrame({
'Year':['2018','2018','2018',
'2017','2017','2017',
'2016','2016','2016',
'Blue Meeting','Purple Meeting','Green Meeting'],
'Event_Name':['Green Meeting','Yellow Meeting','Red Meeting',
'Green Meeting','Yellow Meeting','Red Meeting',
'Green Meeting','Yellow Meeting','Red Meeting',
'Blue Meeting','Purple Meeting','Green Meeting'],
'Count':[1,2,3,4,5,6,7,8,9,10,11,12]
})

Когда я пытаюсь использовать regex для этого. Кажется, он не работает. Я получаю два столбца "Год" и "Событие_Name". Но год пуст.

Это то, что я использую:

df[['Year','Event_Name']] = df['Event'].str.split(r'\d{4}',expand=True)

Как я могу заставить это работать правильно?

Alhpa Delta 24 сен. 2018, в 20:17

Источник

0

Когда вы разбиваете шаблон, этот шаблон удаляется из результата. Например, 'one and two and three'.split('and') возвращает ['one ',' two ',' three'] ; 'и' удаляется из результата.
Acccumulation 24 сен. 2018, в 20:54

Теги:

python

pandas

regex

4 ответа

Ещё вопросы

Когда вы разбиваете шаблон, этот шаблон удаляется из результата. Например, 'one and two and three'.split('and') возвращает ['one ',' two ',' three'] ; 'и' удаляется из результата.

W-B · Answer 1 · 2018-09-24T16-42-00.000Z

Использование str.extract с fillna

df['Year']=df.Event.str.extract('(\d+)').fillna(df.Event)

то мы replace

df['even_name']=df.Event.str.replace('\d+', '')

Привет Вэнь. Мне нужно создать две колонки (1) Year (2) Event_Name. В итоге получается только один столбец Year. Более того, для последних трех строк, где нет года, он помещает Event_Name в столбец Year.
df['even_name']=df.Event.str.replace('\d+', '') @AlhpaDelta также обновляется в моем ответе.
Имейте в виду, что его повторяется дважды по всем данным.

piRSquared · Answer 2 · 2018-09-24T16-20-00.000Z

`pandas.Series.str.findall`

s = df.Event.str.findall('(\d+|\D+)')

pd.DataFrame(dict(
    Count=df.Count,
    Event_Name=s.str[-1],
    Year=s.str[0]
))

    Count       Event_Name            Year
0       1    Green Meeting            2018
1       2   Yellow Meeting            2018
2       3      Red Meeting            2018
3       4    Green Meeting            2017
4       5   Yellow Meeting            2017
5       6      Red Meeting            2017
6       7    Green Meeting            2016
7       8   Yellow Meeting            2016
8       9      Red Meeting            2016
9      10     Blue Meeting    Blue Meeting
10     11   Purple Meeting  Purple Meeting
11     12    Green Meeting   Green Meeting

Non-регулярное выражение

def f(x):
  a, b = x.split(None, 1)
  if a.isdecimal():
    return a, b
  else:
    return (x,)

s = df.Event.apply(f)

pd.DataFrame(dict(
    Count=df.Count,
    Event_Name=s.str[-1],
    Year=s.str[0]
))

    Count       Event_Name            Year
0       1    Green Meeting            2018
1       2   Yellow Meeting            2018
2       3      Red Meeting            2018
3       4    Green Meeting            2017
4       5   Yellow Meeting            2017
5       6      Red Meeting            2017
6       7    Green Meeting            2016
7       8   Yellow Meeting            2016
8       9      Red Meeting            2016
9      10     Blue Meeting    Blue Meeting
10     11   Purple Meeting  Purple Meeting
11     12    Green Meeting   Green Meeting

Спасибо! Я использовал вариант этого, и он работал полностью. s = df ['EventName']. str.findall ('(\ d {4})') df ['YearFromName'] = s.str [0] t = df ['EventName']. str.findall (' (\ D +) ') df [' EventFromName '] = t.str [0] df.to_csv (os.path.join (staging_area_folder,' df_w_year_3.csv '), index = False)
Спасибо, есть ли преимущество использования не-регулярных выражений по сравнению с регулярными выражениями?
Я думаю, что не регулярное выражение легче читать / понимать / поддерживать. Есть также смешная цитата

Scott Boston · Answer 3 · 2018-09-24T15-42-00.000Z

3

Использовать extractall:

df[['Year','Event']] = df.Event.str.extractall('(\d{4})? ?(.+$)').reset_index('match', drop=True)

Выход:

             Event  Count  Year
0    Green Meeting      1  2018
1   Yellow Meeting      2  2018
2      Red Meeting      3  2018
3    Green Meeting      4  2017
4   Yellow Meeting      5  2017
5      Red Meeting      6  2017
6    Green Meeting      7  2016
7   Yellow Meeting      8  2016
8      Red Meeting      9  2016
9     Blue Meeting     10   NaN
10  Purple Meeting     11   NaN
11   Green Meeting     12   NaN

Scott Boston 24 сен. 2018, в 15:42

0

Спасибо, это лучше, но есть ли способ сделать так, чтобы в последних трех строках столбец Year был пуст или содержал nan?
Alhpa Delta 24 сен. 2018, в 18:27
0

@AlhpaDelta Конечно, избавься от этой второй строки. Нравится.
Scott Boston 24 сен. 2018, в 18:28
1

Благодарю. Это сработало отлично.
Alhpa Delta 24 сен. 2018, в 18:49
1

не могли бы вы помочь мне понять, что это делает, пожалуйста? Я под \ d4 выбираю 4 цифры. Но что делает остальное?
Alhpa Delta 24 сен. 2018, в 18:50
0

() является индикатором группы и? после группы означает необязательный. Необязательный пробел '?', После чего у вас есть группа с. что означает любой символ, +, который появляется более одного раза, а $ означает конец строки. Итак, состояния второй группы получают любые символы до конца строки.
Scott Boston 24 сен. 2018, в 18:51

Показать ещё 3 комментария

Atul Shanbhag · Answer 4 · 2018-09-24T15-40-00.000Z

0

Это должно сделать работу

def get_year(x):
    try:
        return int(x.split()[0])
    except:
        return None

def get_event_name(x):
    try:
        year = int(x.split()[0])
        return ' '.join(x.split()[1: ])
    except:
        return x

df['Year'] = df['Event'].apply(lambda x: get_year(x))
df['Event_Name'] = df['Event'].apply(lambda x: get_event_name(x))
df = df.drop(['Event', ], axis=1)

Atul Shanbhag 24 сен. 2018, в 15:40

0

Это не работает. Это дает ценностные ошибки
Alhpa Delta 24 сен. 2018, в 18:19
0

потому что у «Синей встречи» нет года в приведенном примере, я предположил, что это ошибка
Atul Shanbhag 24 сен. 2018, в 18:22
0

Нет, это не ошибка. это особенность данных. Некоторые строки имеют часть года, некоторые нет.
Alhpa Delta 24 сен. 2018, в 18:23
0

Итак, вы хотите включить цифры для этого случая тоже?
Atul Shanbhag 24 сен. 2018, в 18:23
0

Нет, номеров нет. Я хочу, чтобы вывод был df2 (см. В оригинальном вопросе). Столбец года будет пустым или будет иметь нан для этих строк
Alhpa Delta 24 сен. 2018, в 18:24
0

Я внес изменения, пожалуйста, посмотрите
Atul Shanbhag 24 сен. 2018, в 18:30

Показать ещё 4 комментария