Как получить искомую строку с re из строк

Question

Как получить искомую строку с re из строк

1

 Tue Aug 21 17:02:26 2018 (gtgrhrthrhrhrthhhthrthrhrh)
 fjfpjpgporejpejgjr[eh[[[jh[j[ej[[ej[ej[e]]]]
 fkw[kgkeg[ekrk[ekg[kergk[erkg[eg[kg]
 Tue Aug 21 17:31:06 2018 ( ijwejfwfjwpfjwf[[few[jjfwfefwfeffeww]]
 fiowhfiweohewhfpwfhpfhpepwehfphpwhfpehfpwfh
 f,wfpewfefewgpwpg,pewgp
 Tue Aug 21 18:10:42 2018 ( reijpjfpjejferjfrejfpjefjer
 k[pfk[epkf[kr[ek[ke[gkk]
 r[g[keprkgpekg[rkg[pkg[ekg]

Выше приведен пример содержимого в текстовом файле. Я хочу извлечь строку с re. Как мне построить условие findall для достижения ожидаемого результата ниже? Я пробовал следующее:

  match=re.findall(r'[Tue\w]+2018$',data2)

Но это не работает. Я понимаю, что $ является символом конца строки. Как мне это сделать?

Ожидаемый результат:

  Tue Aug 21 17:02:26 2018
  Tue Aug 21 17:31:06 2018
  Tue Aug 21 18:10:42 2018
           .
           .
           .

user234568 24 авг. 2018, в 17:51

Источник

0

$ - это символ конца строки, а не искомая строка. Выражение, которое вы использовали, вернет совпадение, только если последним в строке будет 2018.
user8675309 24 авг. 2018, в 15:25
0

Кроме того, вы можете найти похожий шаблон через re.search(r'(^\w{2,3}\s+\w{2,3}[^(]+)', line) .
sardok 24 авг. 2018, в 15:30
0

Поскольку UnbearableLightness уже ответил на ваш вопрос, и я высказал свое мнение в комментариях, предоставление другого ответа будет излишним. Я постараюсь объяснить, почему ваш шаблон не работает.
emsimpson92 24 авг. 2018, в 15:37
0

[Tue\w]+ соответствует одному или нескольким символам в скобках. T , u , e и \w Tue уже включен в \w поэтому особого смысла в этом нет. Вы не указали пробел или \s поэтому ничего не найдено. Кроме того, $ означает, что ваша строка заканчивается в этой точке, и в этом случае «2018» не был концом строки.
emsimpson92 24 авг. 2018, в 15:41
1

При этом, есть ли другие дни недели и / или года, или только вторник и 2018?
emsimpson92 24 авг. 2018, в 15:42

Показать ещё 3 комментария

Теги:

python

string

regex

extract

1 ответ

Ещё вопросы

$ - это символ конца строки, а не искомая строка. Выражение, которое вы использовали, вернет совпадение, только если последним в строке будет 2018.
Кроме того, вы можете найти похожий шаблон через re.search(r'(^\w{2,3}\s+\w{2,3}[^(]+)', line) .
Поскольку UnbearableLightness уже ответил на ваш вопрос, и я высказал свое мнение в комментариях, предоставление другого ответа будет излишним. Я постараюсь объяснить, почему ваш шаблон не работает.
[Tue\w]+ соответствует одному или нескольким символам в скобках. T , u , e и \w Tue уже включен в \w поэтому особого смысла в этом нет. Вы не указали пробел или \s поэтому ничего не найдено. Кроме того, $ означает, что ваша строка заканчивается в этой точке, и в этом случае «2018» не был концом строки.
При этом, есть ли другие дни недели и / или года, или только вторник и 2018?

UnbearableLightness · Accepted Answer · 2018-08-24T14-14-00.000Z

2

Лучший ответ

Используйте шаблон:

^Tue.*?2018

^ Утвердить позицию начала строки.
Tue Literal подстрока.
.*? Матч лениво.
2018 Соответствует литеральной подстроке.

Поскольку вы работаете с многострочной строкой и хотите re.MULTILINE шаблон в начале строки, вы должны использовать флаг re.MULTILINE.

import re
mystr="""
Tue Aug 21 17:02:26 2018 (gtgrhrthrhrhrthhhthrthrhrh)
fjfpjpgporejpejgjr[eh[[[jh[j[ej[[ej[ej[e]]]]
fkw[kgkeg[ekrk[ekg[kergk[erkg[eg[kg]
Tue Aug 21 17:31:06 2018 ( ijwejfwfjwpfjwf[[few[jjfwfefwfeffeww]]
fiowhfiweohewhfpwfhpfhpepwehfphpwhfpehfpwfh
f,wfpewfefewgpwpg,pewgp
Tue Aug 21 18:10:42 2018 ( reijpjfpjejferjfrejfpjefjer
k[pfk[epkf[kr[ek[ke[gkk]
r[g[keprkgpekg[rkg[pkg[ekg]
"""

print(re.findall(r'^Tue.*?2018',mystr,re.MULTILINE))

Печать:

['Tue Aug 21 17:02:26 2018', 'Tue Aug 21 17:31:06 2018', 'Tue Aug 21 18:10:42 2018']

UnbearableLightness 24 авг. 2018, в 14:14

0

Это можно легко сломать
emsimpson92 24 авг. 2018, в 15:27
0

Это ничего не «сломает». OP хочет сопоставить строки, начиная с Tue и заканчивая 2018 / четырьмя цифрами.
UnbearableLightness 24 авг. 2018, в 15:28
0

Если такое предложение имело место, ФП должен добавить его к своему вопросу. До тех пор это все домыслы.
UnbearableLightness 24 авг. 2018, в 15:29
0

Вы проверили пример? А как насчет дат, которые не 2018? Как насчет 2 экземпляров "2018" в одной строке?
emsimpson92 24 авг. 2018, в 15:29
0

Прочитайте мой последний комментарий ^.
UnbearableLightness 24 авг. 2018, в 15:30
0

По крайней мере, вы должны сделать его не жадным, чтобы хотя бы быть немного более точным. ^Tue.*?2018 . Если вы не понимаете вопрос или требования являются неполными, вы должны задать вопросы.
emsimpson92 24 авг. 2018, в 15:30
0

Можете ли вы определить «точный»?
UnbearableLightness 24 авг. 2018, в 15:31
0

Лучше переборщить и покрыть все ваши базы, чем потенциально повредить целостность тысяч строк данных. Опять же, это, вероятно, не так необходимо для небольших случаев
emsimpson92 24 авг. 2018, в 15:32
0

Regex о сопоставлении шаблонов. Шаблон из текста образца OP понятен. Нет смысла делать регулярное выражение более сложным, чем нужно. Если ОП хочет уточнить себя, он будет.
UnbearableLightness 24 авг. 2018, в 15:33
1

Я добавил ленивый квантификатор, как вы предложили @ emsimpson92, возможно, вы можете удалить свое понижающее голосование прямо сейчас.
UnbearableLightness 24 авг. 2018, в 15:35
0

У меня есть вопрос, что если я не использую (. *?), Как я могу заменить это? У меня есть небольшие трудности с включением выражения пробела в условие. Я пытался использовать re.findall (r'T \ w + \ s + A \ w + '), но он не работает. Как мне справиться с пробелами? Вышеупомянутое выражение T следует через \ w + и \ s (которые должны включать пробелы, а затем A, я прав?
user234568 27 авг. 2018, в 01:07
1

@ user234568 Попробуйте ^T\S+\sA(?:\S+\s){3}2018 . Попробуй это здесь . \S означает любой символ без пробелов. Дайте мне знать, если это поможет. Если проблема была решена, примите мой ответ. Смотрите здесь, как это сделать.
UnbearableLightness 27 авг. 2018, в 08:20

Показать ещё 10 комментариев