Разбор файла журнала с применением условия

Question

Разбор файла журнала с применением условия

1

У меня есть файл журнала отладки, как вы можете видеть ниже:

Образец файла:

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output
output output
output"
DEBUG: extra lines

Я хочу получить только идентификаторы и окончательный вывод, как показано ниже.

Ожидаемый результат:

<ID> "output
output output
output"

Я хотел бы сделать это в Python или Bash. Любая помощь будет оценена. Спасибо

Текущий код работает только для "окончательного вывода". но я также хочу получить идентификаторы, и должен быть способ различать (разделитель) для каждого идентификатора и его вывода.

stream=open("debuglog.txt","r")
lines=stream.readlines()

flag = 0
for i in lines:
    if "DEBUG:" in i:
        flag = 0
    if "final output is" in i:
        flag = 1
    if flag:
        print(i)

Fullmetal 10 дек. 2018, в 05:41

Источник

2

Что вы пробовали? Пожалуйста, оставьте свой код.
DYZ 10 дек. 2018, в 04:22
0

Покажите нам, что вы пробовали до сих пор?
Code Maniac 10 дек. 2018, в 04:27
0

Пожалуйста, изучите модуль re в Python. Это пригодится для такого сопоставления с образцом
Krishna 10 дек. 2018, в 04:33
0

Я отредактировал вопрос и добавил свой код. Проблема в том, что он либо получает идентификатор, либо выводит только.
user6219266 10 дек. 2018, в 04:58

Показать ещё 2 комментария

Теги:

python

bash

regex

shell

text-processing

3 ответа

3

Пример файла журнала:

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start 12324
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output output output output"
DEBUG: extra lines

Пожалуйста, найдите код. Кроме того, я предполагаю, что у вас есть только один экземпляр каждого идентификатора и выходных

import sys, re

stream=open("log","r")
lines=stream.readlines()


flag_ID = 0
flag_output = 0
flag_print = 1
for i in lines:
    ID = re.match("DEBUG: [\w :]* start (\d+)", i)
    output = re.match("DEBUG: [\w :]* Final output is \"([\w ]*)\"", i)
    if ID:
        flag_ID = 1
        value_ID = ID.group(1)
    if output:
        flag_output = 1 
        value_output = output.group(1)
    if flag_output == 1 and flag_ID == 1 and flag_print == 1:
        print "{0} {1}".format(value_ID, value_output)
        flag_print = 0

выход

12324 output output output output

Пожалуйста, отметьте и примите, если это решит вашу проблему;)

Rishi Bansal 10 дек. 2018, в 03:56

0

Спасибо за решение. Однако существует одна проблема, поскольку выходные данные могут быть любыми (буквы, цифры, символы), поэтому регулярное выражение "\" ([\ w] *) \ "" не работает должным образом. Я не хорошо с регулярным выражением. Не могли бы вы помочь мне с регулярным выражением, которое может извлекать разных персонажей до первого появления "DEBUG"
user6219266 10 дек. 2018, в 06:06
0

Вы не можете обратиться к ссылке ниже, чтобы проверить вашу строку regex101.com/r/jE4cE4/62
Rishi Bansal 10 дек. 2018, в 06:07
0

Так, например, вы хотите включить символ -. Регулярное выражение будет "\" ([\ w -] *) \ "". Обратите внимание, что регулярное выражение уже имеет пробел "" после \ w, который представляет пробел.
Rishi Bansal 10 дек. 2018, в 06:08
0

Я не знаю почему, но в коде Python регулярное выражение не печатает после новой строки. Я также использовал \ n
user6219266 10 дек. 2018, в 06:26
0

извините, я не понял "регулярное выражение не печатает после новой строки". Если вы можете весь свой код, так что если проблема отличается, вы также можете задать новый вопрос.
Rishi Bansal 10 дек. 2018, в 06:27
0

Пожалуйста, проверьте это - DEBUG. * Окончательный вывод (. * \ N. *). В regex101 он также выбирает новую строку, но когда я применяю то же самое в python, он не получает newlne.
user6219266 10 дек. 2018, в 06:30
0

Давайте продолжим эту дискуссию в чате .
user6219266 10 дек. 2018, в 06:31

Показать ещё 5 комментариев

0

С Perl вы можете сделать это с помощью одной строки, если файл может поместиться в памяти.

/tmp> cat debug.log
DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID1>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output
output output
output"
DEBUG: extra lines
DEBUG: Fri Dec  7 06:49:14 2018:16921 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16921: start <ID2>
DEBUG: Fri Dec  7 06:49:14 2018:16921: Final output is "output output output output"
DEBUG: extra lines
/tmpl>
/tmp> perl -0777 -ne ' while(/^DEBUG(.+?)start (\S+).*?DEBUG.+?Final output is \"(.+?)\"/smg) { print "$2 $3\n" } ' debug.log
<ID1> output
output output
output
<ID2> output output output output
/tmp>

stack0114106 10 дек. 2018, в 09:49

Ещё вопросы

Что вы пробовали? Пожалуйста, оставьте свой код.
Покажите нам, что вы пробовали до сих пор?
Пожалуйста, изучите модуль re в Python. Это пригодится для такого сопоставления с образцом
Я отредактировал вопрос и добавил свой код. Проблема в том, что он либо получает идентификатор, либо выводит только.
Спасибо за решение. Однако существует одна проблема, поскольку выходные данные могут быть любыми (буквы, цифры, символы), поэтому регулярное выражение "\" ([\ w] *) \ "" не работает должным образом. Я не хорошо с регулярным выражением. Не могли бы вы помочь мне с регулярным выражением, которое может извлекать разных персонажей до первого появления "DEBUG"
Вы не можете обратиться к ссылке ниже, чтобы проверить вашу строку regex101.com/r/jE4cE4/62
Так, например, вы хотите включить символ -. Регулярное выражение будет "\" ([\ w -] *) \ "". Обратите внимание, что регулярное выражение уже имеет пробел "" после \ w, который представляет пробел.
Я не знаю почему, но в коде Python регулярное выражение не печатает после новой строки. Я также использовал \ n
извините, я не понял "регулярное выражение не печатает после новой строки". Если вы можете весь свой код, так что если проблема отличается, вы также можете задать новый вопрос.
Пожалуйста, проверьте это - DEBUG. * Окончательный вывод (. * \ N. *). В regex101 он также выбирает новую строку, но когда я применяю то же самое в python, он не получает newlne.
Давайте продолжим эту дискуссию в чате .

tshiono · Accepted Answer · 2018-12-10T06-26-00.000Z

С питоном, как насчет:

#!/usr/bin/python

import re
text = open("logfile", "r").read()

regex = r'start (.+?)$.*?Final output is (.+?)(?:(?=\nDEBUG)|\Z)'
for m in re.finditer(regex, text, re.MULTILINE|re.DOTALL):
    for i in m.groups():
            print(i.replace('\n', ' '))

Входной файл журнала:

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output
output output
output"
DEBUG: extra lines

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID2>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output2
output+ output/
output2"

И вывод:

<ID>
"output output output output"
<ID2>
"output2 output+ output/ output2"

Первое число в регулярном выражении захватывает любые символы сразу после start и перед новой строкой и сохраняет строку в 1st group.
2-е число в регулярном выражении также захватывает любые символы сразу после того, как Final output is перед DEBUG или концом строки, и сохраняет строку во 2nd group. Новые строки могут быть включены в строку благодаря опции re.DOTALL.
Третьи парены являются якорями нулевой длины и не входят в группу захвата.

РЕДАКТИРОВАТЬ

Обновленная версия ниже обрабатывает несколько "окончательных выходных данных" для одного идентификатора и отображает только последний вывод для каждого идентификатора:

#!/usr/bin/python

import re
text = open("logfile", "r").read()

regex = r'start (.+?)$(.+?)(?:(?=DEBUG[^\n]+?start)|\Z)+'
regex2 = r'Final output is (.+?)(?:(?=\nDEBUG)|\Z)'

for m in re.finditer(regex, text, re.MULTILINE|re.DOTALL):
    print m.group(1)
    m2 = re.finditer(regex2, m.group(2), re.MULTILINE|re.DOTALL)
    print list(m2).pop().group(1).replace('\n', ' ')

входной файл журнала:

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID1>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output
output output
output"
DEBUG: extra lines
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "this
is the last output
for <ID1>"
DEBUG: extra lines

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID2>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output2
output+ output/
output2"

и вывод:

<ID1>
"this is the last output  for <ID1>"
<ID2>
"output2 output+ output/ output2"

Я разделил извлечение подстрок в два этапа:

извлечь идентификатор и оставшийся текст (который может содержать дополнительные строки). Это обрабатывается с помощью regex.
извлечь подстроки "конечного вывода" из "оставшегося текста" выше. Это обрабатывается с помощью regex2.

Затем выберите последний "окончательный результат" и отобразите.

РЕДАКТИРОВАТЬ

Версия ниже подавляет сообщение (я), которое содержит ключевое слово:

#!/usr/bin/python

import re
text = open("logfile", "r").read()

exclude = 'xyz'     # keyword to suppress the output

regex = r'start (.+?)$(.+?)(?:(?=DEBUG[^\n]+?start)|\Z)+'
regex2 = r'Final output is (.+?)(?:(?=\nDEBUG)|\Z)'
#regex = r'start (.+?)$.*?Final output is (.+?)(?=\nDEBUG)'
#for m in re.finditer(regex, text, flags=(re.MULTILINE|re.DOTALL)):
for m in re.finditer(regex, text, re.MULTILINE|re.DOTALL):
    print m.group(1)
    m2 = re.finditer(regex2, m.group(2), re.MULTILINE|re.DOTALL)
    message = list(m2).pop().group(1).replace('\n', ' ')
    if message.count(exclude):
        print 'error:' + exclude
    else:
        print message

Пример файла журнала:

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID1>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output
output output
output"
DEBUG: extra lines
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "this
is the last output
for ID1"
DEBUG: extra lines

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID2>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "output2
output+ output/
output2"
DEBUG: extra lines

DEBUG: Fri Dec  7 06:49:14 2018:16920 extra text
DEBUG: Fri Dec  7 06:49:14 2018:16920: start <ID3>
DEBUG: Fri Dec  7 06:49:14 2018:16920: Final output is "this message
contains the word xyz"
DEBUG: extra lines

Выход:

<ID1>
"this is the last output  for ID1"
<ID2>
"output2 output+ output/ output2"
<ID3>
error:xyz

Большое спасибо. это очень точно.
Что я могу сделать, если есть несколько «окончательных выходных данных» для одного <ID>, и я хочу получить только последний.
Если счетчик нескольких «конечных результатов» ограничен, скажем, двумя или тремя, тогда модификация регулярного выражения будет работать. Если возможно произвольное количество «конечных результатов», нам может понадобиться другой подход. Можете ли вы описать пример файла журнала?
Я обновил свой ответ в соответствии с вашим комментарием. Должно работать на любое количество «конечных результатов». Если мое предположение и / или ожидаемый результат отличается от вашего, пожалуйста, дайте мне знать. BR.
Спасибо, ты классный. Это именно то, что я искал.
Можно ли исключить печать вывода, если в нем есть определенное слово. Например - если в выводе появляется «xyz», я не хочу печатать вывод вместо «error: xyz».
Хорошо, я изменил свой ответ соответственно. В качестве следующего шага вы можете настроить его на работу с несколькими ключевыми словами, и / или ключевые слова можно указать в параметре командной строки. Я отложу это как твою домашнюю работу.