Найти числа после строки «Цитировать» в столбце данных

Question

Найти числа после строки «Цитировать» в столбце данных

1

У меня есть журнал вызовов обслуживания клиентов на листе excel. Ниже приведен формат данных, которые я имею

So#   Comments
1   sjhsh QUOTE 234566
1   sdsds customer call QUote 239876 Call back
2   adsdfh unknown call from customer QUOTE 189067 sdkjsd woieweio 
3   QUOTE 657894 customer called for service

Я читаю эти данные из excel и вам нужно получить 6 цифр по тексту "QUOTE" в каждой строке, а затем добавить извлеченные цифры в качестве нового столбца

1. Строки могут содержать несколько упоминаний "QUOTE". 2. Строки могут вообще не иметь "QUOTE"

Может кто-то, пожалуйста, помогите мне с этим поиском подстроки, используя python

import pandas as pd
import re
file=pd.read_excel("C:/Users/rkatta/Desktop/Book1.xlsx")
file.set_index('Index', inplace=True, drop=True)
comments=file['InternalComments']
quotenum=[]

keyword= 'QUOTE'
for i in comments:
    try:
        befor_keyowrd, keyword, after_keyword = comments[i].partition(keyword)
        num=after_keyword[:6]
        quotenum.append(num)
    except AttributeError:
        befor_keyowrd, keyword, after_keyword =''
        quotenum.append(after_keyword)

reddy 03 июль 2018, в 19:50

Источник

2

Итак, если вообще не может быть «цитаты», каков шаблон? Просто цифры? df['your_cal'].str.extractall(r"(\d+)") ? Или df['your_col'].str.findall(r'\d+').apply(','.join) ?
Wiktor Stribiżew 03 июль 2018, в 17:17
0

Какой результат вы получаете? Будет ли Quote всегда в верхнем регистре? Все кавычки 6 цифр или больше?
Sunny Patel 03 июль 2018, в 17:17
0

Можете ли вы уточнить вопрос @ WiktorStribiżew? Мой ответ не сработает, если строки содержат число, которое вы пытаетесь сопоставить, но без "кавычки"
emsimpson92 03 июль 2018, в 17:24
0

если вообще нет «Цитата», это просто случайный разговор с клиентом, и нам нужны значения NULL. Все извлеченные цифры и нулевые значения (если в тексте нет цитаты) должны быть новым столбцом во фрейме данных.
reddy 03 июль 2018, в 17:42
0

Reddy, попробуйте file['newcol'] = file['InternalComments'].str.findall(r'(?i)quote\s+(\d+)').apply(','.join) (не уверен, но возможно вы можете добавить .fillna('') ). Я сомневаюсь, что вам нужна вся часть кода, начинающаяся с comments=file['InternalComments']
Wiktor Stribiżew 03 июль 2018, в 17:59
0

@ WiktorStribiżew: Большое спасибо. Это работает для меня. Pheeww !! Но у меня есть еще одна маленькая проблема. Если между текстом и символом есть пробел, числа не извлекаются. Пример: Цитата # 234567 (Работает нормально) Цитата # 234567 (не работает). Просим вас решить эту проблему. это вводимые человеком данные и чистка этого материала. Я новичок в питоне тоже. заранее спасибо
reddy 03 июль 2018, в 19:06

Показать ещё 4 комментария

Теги:

python

pandas

regex

2 ответа

2

(?i)(?<=QUOTE )\d+ захватит номера, которые вы ищете.

(?i) означает, что остальная часть шаблона нечувствительна к регистру, поэтому он будет соответствовать "QUOTE" и любому варианту слова.

(?<=QUOTE ) означает, что цифрам будет предшествовать слово quote и пробел

\d+ - ваш номер

демонстрация

emsimpson92 03 июль 2018, в 15:30

0

OP говорит 2. Строки могут вообще не иметь «QUOTE» . Вы не можете полагаться на (?<=QUOTE ) взгляд назад.
Wiktor Stribiżew 03 июль 2018, в 17:22
0

Я предположил, что это означает, что если строка не содержит QUOTE , то строка также не будет содержать номер для цитаты. Если я ошибаюсь, дайте мне знать, и я посмотрю, смогу ли я найти решение.
emsimpson92 03 июль 2018, в 17:22
0

Это, вероятно, комментарий, связанный с пандами. При извлечении текста строки без соответствия пропускают значение, а фрейм данных не может быть обновлен ... Позвольте пояснить OP.
Wiktor Stribiżew 03 июль 2018, в 17:25
0

Да, некоторые строки могут вообще не иметь «QUOTE». В этом случае необходимо выдвинуть нулевое значение, и все эти извлеченные цифры и нулевые значения должны быть добавлены в качестве нового столбца в «файл» кадра данных.
reddy 03 июль 2018, в 17:39
0

Тогда, вместо того, чтобы сравнивать его со всем этим, сравнивайте его строка за строкой. Если совпадений нет, просто добавьте нулевое значение, иначе добавьте число. Надеюсь это поможет.
emsimpson92 03 июль 2018, в 17:43
0

мой код работает для комментариев [1] .partition (ключевое слово). Это означает, что это работает для первого ряда. Это не работает, когда я пытаюсь перебрать все строки в столбце dataframe
reddy 03 июль 2018, в 17:44
0

@ emsimpson92: Не могли бы вы помочь мне с циклом построчно над столбцом данных pandas?
reddy 03 июль 2018, в 17:46
0

Я сам не знаком с пандами, но кажется, что этот вопрос уже задавался
emsimpson92 03 июль 2018, в 17:48

Показать ещё 6 комментариев

Ещё вопросы

Итак, если вообще не может быть «цитаты», каков шаблон? Просто цифры? df['your_cal'].str.extractall(r"(\d+)") ? Или df['your_col'].str.findall(r'\d+').apply(','.join) ?
Какой результат вы получаете? Будет ли Quote всегда в верхнем регистре? Все кавычки 6 цифр или больше?
Можете ли вы уточнить вопрос @ WiktorStribiżew? Мой ответ не сработает, если строки содержат число, которое вы пытаетесь сопоставить, но без "кавычки"
если вообще нет «Цитата», это просто случайный разговор с клиентом, и нам нужны значения NULL. Все извлеченные цифры и нулевые значения (если в тексте нет цитаты) должны быть новым столбцом во фрейме данных.
Reddy, попробуйте file['newcol'] = file['InternalComments'].str.findall(r'(?i)quote\s+(\d+)').apply(','.join) (не уверен, но возможно вы можете добавить .fillna('') ). Я сомневаюсь, что вам нужна вся часть кода, начинающаяся с comments=file['InternalComments']
@ WiktorStribiżew: Большое спасибо. Это работает для меня. Pheeww !! Но у меня есть еще одна маленькая проблема. Если между текстом и символом есть пробел, числа не извлекаются. Пример: Цитата # 234567 (Работает нормально) Цитата # 234567 (не работает). Просим вас решить эту проблему. это вводимые человеком данные и чистка этого материала. Я новичок в питоне тоже. заранее спасибо
OP говорит 2. Строки могут вообще не иметь «QUOTE» . Вы не можете полагаться на (?<=QUOTE ) взгляд назад.
Я предположил, что это означает, что если строка не содержит QUOTE , то строка также не будет содержать номер для цитаты. Если я ошибаюсь, дайте мне знать, и я посмотрю, смогу ли я найти решение.
Это, вероятно, комментарий, связанный с пандами. При извлечении текста строки без соответствия пропускают значение, а фрейм данных не может быть обновлен ... Позвольте пояснить OP.
Да, некоторые строки могут вообще не иметь «QUOTE». В этом случае необходимо выдвинуть нулевое значение, и все эти извлеченные цифры и нулевые значения должны быть добавлены в качестве нового столбца в «файл» кадра данных.
Тогда, вместо того, чтобы сравнивать его со всем этим, сравнивайте его строка за строкой. Если совпадений нет, просто добавьте нулевое значение, иначе добавьте число. Надеюсь это поможет.
мой код работает для комментариев [1] .partition (ключевое слово). Это означает, что это работает для первого ряда. Это не работает, когда я пытаюсь перебрать все строки в столбце dataframe
@ emsimpson92: Не могли бы вы помочь мне с циклом построчно над столбцом данных pandas?
Я сам не знаком с пандами, но кажется, что этот вопрос уже задавался

Wiktor Stribiżew · Accepted Answer · 2018-07-03T17-12-00.000Z

Вам нужно заменить часть обработки столбцов следующей строкой:

file['InternalComments'] = file['Comments'].str.findall(r'(?i)quote\s+(\d+)').apply(','.join)

См. Демо-версию regex.

Регулярное выражение соответствует:

(?i) - нечувствительный к регистру режим
quote - подстрока quote
\s* - 0+ пробелы
(\d+) - Захват группы 1 (то, что возвращается findall): цифры 1+.

См. Демонстрацию кода Python:

from pandas import DataFrame
import pandas as pd
l = ['sjhsh QUOTE 234566', 'sdsds customer call QUote 239876 Call back', 'adsdfh unknown call from customer QUOTE 189067 sdkjsd woieweio', 'QUOTE 657894 customer called for service', 'QUOTE 657894 customer called for service QUOTE 657894 customer called for service', 'No qte']
file = pd.DataFrame(l, columns=['Comments'])
file['InternalComments'] = file['Comments'].str.findall(r'(?i)quote\s*(\d+)').apply(','.join)
file
                                            Comments InternalComments
0                                 sjhsh QUOTE 234566           234566
1         sdsds customer call QUote 239876 Call back           239876
2  adsdfh unknown call from customer QUOTE 189067...           189067
3           QUOTE 657894 customer called for service           657894
4  QUOTE 657894 customer called for service QUOTE...    657894,657894
5                                             No qte