Regex: взять все после матча

Question

Regex: взять все после матча

1

У меня много строк в dataframe, например:

adrianos ristorante 2930 beverly glen circle los angeles 310475 9807 italian

Я хочу взять все слова/символы после номера телефона. У меня есть регулярное выражение для получения номера телефона и пробела после (([0-9]{6}\s[0-9]{4})\s). То, что я хочу, это все персонажи после этого. В этом случае он italian но он может быть чем-то вроде asian fusion или indian and thai.

Auren Ferguson 03 июль 2018, в 15:08

Источник

2

Попробуйте [0-9]{6}\s[0-9]{4}\s+(.+) . Это Панда дф?
Wiktor Stribiżew 03 июль 2018, в 12:34
0

Да я пользуюсь пандами
Auren Ferguson 03 июль 2018, в 13:38
0

Скажем, если я хочу извлечь название ресторана, я мог бы использовать ^(\w+\s?\w+?)\s[0-9]+ . Как бы я масштабировал это до n слов в названии ресторана? то есть arnie mortons of chicago 435 s la cienega blvd los angeles 310246 1501 american
Auren Ferguson 03 июль 2018, в 15:06
0

Вы, вероятно, можете использовать простой .*? шаблон, ^(.*?)\s+[0-9]+ .
Wiktor Stribiżew 03 июль 2018, в 15:19

Показать ещё 2 комментария

Теги:

python

pandas

regex

4 ответа

0

Вы можете сделать (в Notepad++):

Найти что: (.) ([0-9] {6}\s [0-9] {4})\s (.) Заменить: $ 3

$ 3 дает третий аргумент, который является всем после вашего соответствующего номера телефона.

smart_dude 03 июль 2018, в 11:28

0

Используя это регулярное выражение: /([0-9]{6}\s[0-9]{4})\s(.*$)/m

У вас будет что угодно после номера телефона, до конца строки (вы можете опустить флаг m если хотите получить все до конца строки) во второй группе захвата.

cornacchia 03 июль 2018, в 10:55

0

Вы можете использовать положительный lookbehind:

(?<=[0-9]{6}\s[0-9]{4}\s).*

Regex101.

zipa 03 июль 2018, в 10:43

0

Это приводит к следующей ошибке в пандах: pattern contains no capture groups
Auren Ferguson 03 июль 2018, в 13:41

Ещё вопросы

Попробуйте [0-9]{6}\s[0-9]{4}\s+(.+) . Это Панда дф?
Скажем, если я хочу извлечь название ресторана, я мог бы использовать ^(\w+\s?\w+?)\s[0-9]+ . Как бы я масштабировал это до n слов в названии ресторана? то есть arnie mortons of chicago 435 s la cienega blvd los angeles 310246 1501 american
Вы, вероятно, можете использовать простой .*? шаблон, ^(.*?)\s+[0-9]+ .
Это приводит к следующей ошибке в пандах: pattern contains no capture groups

Wiktor Stribiżew · Accepted Answer · 2018-07-03T12-06-00.000Z

В Пандах вы можете использовать

[0-9]{6}\s[0-9]{4}\s+(.+)
                    ^^^^^

Код будет выглядеть так:

df['col'].str.extract('[0-9]{6}\s[0-9]{4}\s+(.+)')

Обратите внимание, что вы должны обернуть часть, которую вам нужно извлечь, с помощью группы захвата (...). См. Ссылку на Pandas:

pat: string

Форма регулярного выражения с группами захвата