Как вывести только захваченные группы с помощью sed?

Question

Как вывести только захваченные группы с помощью sed?

201

Можно ли указать sed для вывода только захваченных групп? Например, с учетом ввода:

This is a sample 123 text and some 987 numbers

и шаблон:

/([\d]+)/

Могу ли я получить только 123 и 987 выход в формате, отформатированном обратными ссылками?

Pablo 05 май 2010, в 23:46

Источник

Теги:

regex

linux

sed

8 ответов

46

Sed имеет до девяти запоминаемых шаблонов, но вам нужно использовать скошенные скобки для запоминания частей регулярного выражения.

См. здесь для примеров и более подробно

Peter McG 06 май 2010, в 02:11

54

sed -e 's/version=$.+$/\1/' input.txt это все равно выведет весь input.txt
Pablo 06 май 2010, в 00:28
4

Комментарий @Pablo должен быть принятым ответом
Hilikus 28 апр. 2015, в 17:02
0

@Pablo, в вашем шаблоне вы должны написать \+ вместо + . И я не понимаю, почему люди используют -e только для одной команды sed.
Fredrick Gauss 10 нояб. 2017, в 12:23
0

используйте sed -e -n 's/version=$.+$/\1/p' input.txt см .: mikeplate.com/2012/05/09/…
awattar 10 апр. 2018, в 09:43
0

Я бы предложил использовать sed -E для использования так называемых «современных» или «расширенных» регулярных выражений, которые намного ближе к Perl / Java / JavaScript / Go / любым другим разновидностям. (Сравните с grep -E или egrep .) Синтаксис по умолчанию имеет эти странные экранирующие правила и считается «устаревшим». Для получения дополнительной информации о различиях между ними, запустите man 7 re_format .
AndrewF 28 нояб. 2018, в 03:51

Показать ещё 3 комментария

24

вы можете использовать grep

grep -Eow "[0-9]+" file

ghostdog74 06 май 2010, в 03:04

4

@ ghostdog74: Абсолютно с тобой согласен. Как я могу получить Greo для вывода только захваченных групп?
Pablo 06 май 2010, в 01:24
1

@Michael - вот почему существует опция o - unixhelp.ed.ac.uk/CGI/man-cgi?grep : -o, --only-Match Показать только ту часть совпадающей строки, которая соответствует PATTERN
Bert F 06 май 2010, в 11:36
11

@Bert F: Я понимаю подходящую часть, но это не группа захвата. Я хочу, чтобы это было так ([0-9] +). + ([Abc] {2,3}), чтобы было 2 группы захвата. Я хочу выводить ТОЛЬКО записи групп по ссылкам или как-то еще.
Pablo 06 май 2010, в 12:11
0

Привет Майкл. Вам удалось извлечь n-ю захваченную группу с помощью grep?
doc_id 14 март 2011, в 08:30
1

@Pablo: grep выводит только то, что соответствует. Чтобы дать ему несколько групп, используйте несколько выражений: grep -Eow -e "[0-9]+" -e "[abc]{2,3}" Я не знаю, как вы могли бы потребовать, чтобы эти два выражения были включены одна строка, кроме конвейера от предыдущего grep (который все еще не может работать, если любой шаблон более одного раза соответствует строке).
idbrii 03 окт. 2012, в 17:56
0

Кроме того, вы не можете сделать echo "a 10 b 12" | grep -Eo "a ([0-9]+)" и получить только "10". Но это работает: echo "a 10 b 12" | grep -Eo "a ([0-9]+)" | sed 's/a //'
abalter 15 май 2017, в 19:36

Показать ещё 4 комментария

7

Я считаю, что шаблон, заданный в вопросе, был только в качестве примера, и целью было сопоставление любого.

Если у вас есть sed с расширением GNU, позволяющим вставлять новую строку в пространстве шаблонов, одно предложение:

> set string = "This is a sample 123 text and some 987 numbers"
>
> set pattern = "[0-9][0-9]*"
> echo $string | sed "s/$pattern/\n&\n/g" | sed -n "/$pattern/p"
123
987
> set pattern = "[a-z][a-z]*"
> echo $string | sed "s/$pattern/\n&\n/g" | sed -n "/$pattern/p"
his
is
a
sample
text
and
some
numbers

Эти примеры с tcsh (да, я знают его неправильную оболочку) с CYGWIN. (Изменить: для bash удалить набор и пробелы вокруг =.)

Joseph Quinsey 06 май 2010, в 06:04

0

@Joseph: спасибо, однако, исходя из моей задачи, я чувствую, что grep более естественен, как предположил ghostdog74. Просто нужно выяснить, как заставить grep выводить только группы захвата, а не все совпадения.
Pablo 06 май 2010, в 05:59
1

Просто примечание, но знак «плюс» означает «один или несколько», что устранит необходимость повторения в шаблонах. Таким образом, "[0-9] [0-9] *" станет "[0-9] +"
RandomInsano 12 апр. 2012, в 17:31
3

@RandomInsano: чтобы использовать + , вам нужно его экранировать или использовать опцию -r ( -E для OS X). Вы также можете использовать \{1,\} (или -r или -E без экранирования).
Dennis Williamson 18 апр. 2012, в 22:02

Показать ещё 1 комментарий

5

пробег цифр

Этот ответ работает с любым количеством групп цифр. Пример:

$ echo 'Num123that456are7899900contained0018166intext' |
> sed -En 's/[^0-9]*([0-9]{1,})[^0-9]*/\1 /gp'
123 456 7899900 0018166

Расширенный ответ.

Есть ли способ сказать sed выводить только захваченные группы?

Да. замените весь текст группой захвата:

$ echo 'Number 123 inside text' | sed 's/[^0-9]*\([0-9]\{1,\}\)[^0-9]*/\1/'
123

s/[^0-9]*                           # several non-digits
         \([0-9]\{1,\}\)            # followed by one or more digits
                        [^0-9]*     # and followed by more non-digits.
                               /\1/ # gets replaced only by the digits.

Или с расширенным синтаксисом (меньше обратных запросов и разрешить использование +):

$ echo 'Number 123 in text' | sed -E 's/[^0-9]*([0-9]+)[^0-9]*/\1/'
123

Чтобы избежать печати исходного текста при отсутствии номера, используйте:

$ echo 'Number xxx in text' | sed -En 's/[^0-9]*([0-9]+)[^0-9]*/\1/p'

(- n) Не печатайте вход по умолчанию.
(/p) печатать только в том случае, если была выполнена замена.

И чтобы сопоставить несколько номеров (а также распечатать их):

$ echo 'N 123 in 456 text' | sed -En 's/[^0-9]*([0-9]+)[^0-9]*/\1 /gp'
123 456

Это работает для любого количества пробегов цифр:

$ str='Test Num(s) 123 456 7899900 contained as0018166df in text'
$ echo "$str" | sed -En 's/[^0-9]*([0-9]{1,})[^0-9]*/\1 /gp'
123 456 7899900 0018166

Что очень похоже на команду grep:

$ str='Test Num(s) 123 456 7899900 contained as0018166df in text'
$ echo "$str" | grep -Po '\d+'
123
456
7899900
0018166

О \d

и шаблон: /([\d]+)/

Sed не распознает синтаксис '\ d' (ярлык). Аксиальный эквивалент, использованный выше [0-9], не совсем эквивалентен. Единственное альтернативное решение - использовать класс символов: "[[: digit:]]`.

Выбранный ответ использует такие "классы символов" для построения решения:

$ str='This is a sample 123 text and some 987 numbers'
$ echo "$str" | sed -rn 's/[^[:digit:]]*([[:digit:]]+)[^[:digit:]]+([[:digit:]]+)[^[:digit:]]*/\1 \2/p'

Это решение работает только для (ровно) двух пробегов цифр.

Конечно, поскольку ответ выполняется внутри оболочки, мы можем определить пару переменных, чтобы сделать такой ответ короче:

$ str='This is a sample 123 text and some 987 numbers'
$ d=[[:digit:]]     D=[^[:digit:]]
$ echo "$str" | sed -rn "s/$D*($d+)$D+($d+)$D*/\1 \2/p"

Но, как уже объяснялось, лучше использовать команду s/…/…/gp:

$ str='This is 75577 a sam33ple 123 text and some 987 numbers'
$ d=[[:digit:]]     D=[^[:digit:]]
$ echo "$str" | sed -rn "s/$D*($d+)$D*/\1 /gp"
75577 33 123 987

Это будет охватывать как повторяющиеся прогоны цифр, так и запись короткой (er) команды.

Arrow 16 май 2017, в 10:38

5

Try

sed -n -e "/[0-9]/s/^[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\).*$/\1 \2 \3 \4 \5 \6 \7 \8 \9/p"

Я получил это под cygwin:

$ (echo "asdf"; \
   echo "1234"; \
   echo "asdf1234adsf1234asdf"; \
   echo "1m2m3m4m5m6m7m8m9m0m1m2m3m4m5m6m7m8m9") | \
  sed -n -e "/[0-9]/s/^[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\).*$/\1 \2 \3 \4 \5 \6 \7 \8 \9/p"

1234
1234 1234
1 2 3 4 5 6 7 8 9
$

Bert F 06 май 2010, в 01:39

4

Откажитесь и используйте Perl

Так как sed не разрезает его, просто бросьте полотенце и используйте Perl, по крайней мере, это LSB, а grep GNU расширения не являются: -)

Распечатайте всю согласованную часть, не требуя соответствующих групп или искажений:
```
cat <<EOS | perl -lane 'print m/\d+/g'
a1 b2
a34 b56
EOS
```
Вывод:
```
12
3456
```
Одно совпадение на строку, часто структурированные поля данных:
```
cat <<EOS | perl -lape 's/.*?a(\d+).*/$1/g'
a1 b2
a34 b56
EOS
```
Вывод:
```
1
34
```
С lookbehind:
```
cat <<EOS | perl -lane 'print m/(?<=a)(\d+)/'
a1 b2
a34 b56
EOS
```

Несколько полей:

cat <<EOS | perl -lape 's/.*?a(\d+).*?b(\d+).*/$1 $2/g'
a1 c0 b2 c0
a34 c0 b56 c0
EOS

Вывод:

1 2
34 56

Несколько совпадений на строку, часто неструктурированные данные:

cat <<EOS | perl -lape 's/.*?a(\d+)|.*/$1 /g'
a1 b2
a34 b56 a78 b90
EOS

Вывод:

1 
34 78

С lookbehind:

cat EOS<< | perl -lane 'print m/(?<=a)(\d+)/g'
a1 b2
a34 b56 a78 b90
EOS

Вывод:

1
3478

Ciro Santilli 新疆改造中心六四事件法轮功 08 окт. 2015, в 09:49

0

Что вы не получили в конце вопроса: «с седом»?
Moonchild 05 сен. 2018, в 13:50
0

@Moonchild Googlers не волнует.
Ciro Santilli 新疆改造中心六四事件法轮功 05 сен. 2018, в 13:59

2

Это не то, о чем попросил ОП (группы захвата), но вы можете извлечь числа, используя:

S='This is a sample 123 text and some 987 numbers'
echo "$S" | sed 's/ /\n/g' | sed -r '/([0-9]+)/ !d'

Выдает следующее:

123
987

Thomas Bratt 28 март 2014, в 18:04

Ещё вопросы

sed -e 's/version=$.+$/\1/' input.txt это все равно выведет весь input.txt
Комментарий @Pablo должен быть принятым ответом
@Pablo, в вашем шаблоне вы должны написать \+ вместо + . И я не понимаю, почему люди используют -e только для одной команды sed.
используйте sed -e -n 's/version=$.+$/\1/p' input.txt см .: mikeplate.com/2012/05/09/…
Я бы предложил использовать sed -E для использования так называемых «современных» или «расширенных» регулярных выражений, которые намного ближе к Perl / Java / JavaScript / Go / любым другим разновидностям. (Сравните с grep -E или egrep .) Синтаксис по умолчанию имеет эти странные экранирующие правила и считается «устаревшим». Для получения дополнительной информации о различиях между ними, запустите man 7 re_format .
@ ghostdog74: Абсолютно с тобой согласен. Как я могу получить Greo для вывода только захваченных групп?
@Michael - вот почему существует опция o - unixhelp.ed.ac.uk/CGI/man-cgi?grep : -o, --only-Match Показать только ту часть совпадающей строки, которая соответствует PATTERN
@Bert F: Я понимаю подходящую часть, но это не группа захвата. Я хочу, чтобы это было так ([0-9] +). + ([Abc] {2,3}), чтобы было 2 группы захвата. Я хочу выводить ТОЛЬКО записи групп по ссылкам или как-то еще.
Привет Майкл. Вам удалось извлечь n-ю захваченную группу с помощью grep?
@Pablo: grep выводит только то, что соответствует. Чтобы дать ему несколько групп, используйте несколько выражений: grep -Eow -e "[0-9]+" -e "[abc]{2,3}" Я не знаю, как вы могли бы потребовать, чтобы эти два выражения были включены одна строка, кроме конвейера от предыдущего grep (который все еще не может работать, если любой шаблон более одного раза соответствует строке).
Кроме того, вы не можете сделать echo "a 10 b 12" | grep -Eo "a ([0-9]+)" и получить только "10". Но это работает: echo "a 10 b 12" | grep -Eo "a ([0-9]+)" | sed 's/a //'
@Joseph: спасибо, однако, исходя из моей задачи, я чувствую, что grep более естественен, как предположил ghostdog74. Просто нужно выяснить, как заставить grep выводить только группы захвата, а не все совпадения.
Просто примечание, но знак «плюс» означает «один или несколько», что устранит необходимость повторения в шаблонах. Таким образом, "[0-9] [0-9] *" станет "[0-9] +"
@RandomInsano: чтобы использовать + , вам нужно его экранировать или использовать опцию -r ( -E для OS X). Вы также можете использовать \{1,\} (или -r или -E без экранирования).
Что вы не получили в конце вопроса: «с седом»?

Dennis Williamson · Accepted Answer · 2010-05-06T02-51-00.000Z

Ключом к тому, чтобы заставить это работать, является указание sed исключить то, что вы не хотите выводить, а также указать, что вы хотите.

string='This is a sample 123 text and some 987 numbers'
echo "$string" | sed -rn 's/[^[:digit:]]*([[:digit:]]+)[^[:digit:]]+([[:digit:]]+)[^[:digit:]]*/\1 \2/p'

Это говорит:

не печатать каждую строку по умолчанию (-n)
исключить ноль или более цифр
включают одну или несколько цифр
исключить одну или несколько цифр
включают одну или несколько цифр
исключить ноль или более цифр
напечатать замену (p)

В общем, в sed вы собираете группы, используя круглые скобки, и выводите то, что вы делаете, используя обратную ссылку:

echo "foobarbaz" | sed 's/^foo\(.*\)baz$/\1/'

выведет "бар". Если вы используете -r (-E для OS X) для расширенного регулярного выражения, вам не нужно выходить из круглых скобок:

echo "foobarbaz" | sed -r 's/^foo(.*)baz$/\1/'

Может быть до 9 групп захвата и их обратные ссылки. Обратные ссылки нумеруются в порядке появления групп, но они могут использоваться в любом порядке и могут быть повторены:

echo "foobarbaz" | sed -r 's/^foo(.*)b(.)z$/\2 \1 \2/'

выводит "a a a a".

Если у вас есть GNU grep (он также может работать в BSD, включая OS X):

echo "$string" | grep -Po '\d+'

или вариации, такие как:

echo "$string" | grep -Po '(?<=\D )(\d+)'

Параметр -P позволяет использовать регулярные выражения, совместимые с Perl. См. man 3 pcrepattern или man 3 pcresyntax.

Как примечание, OSX Mountain Lion больше не поддерживает PCRE в grep.
Как примечание, опция grep -o не поддерживается в Solaris 9. Кроме того, Solaris 9 не поддерживает параметр sed -r. :(
Попросите вашего системного администратора установить gsed. Вы будете удивлены тем, что несколько пончиков получат вас ...
В OSX (включая Mountain Lion) вы можете использовать brew для установки grep из homebrew-dupes, а затем использовать (довольно полезную) опцию -P (:
Обратите внимание, что вам может понадобиться поставить префикс «(» и «)» на «\», я не знаю почему.
@lumbric: если вы ссылаетесь на пример sed , если вы используете опцию -r (или -E для OS X, IIRC), вам не нужно избегать скобок. Разница заключается в том, что между основными регулярными выражениями и расширенными регулярными выражениями ( -r ).
Я нашел, что принятый ответ сбивает с толку, потому что он включил в пример большое регулярное выражение, затрудняя извлечение необходимой информации: в sed вы должны избегать скобок $.*$ , Обращаться к группам захвата с помощью \1 , \2 , ЭСТ ..
@NoahHuppert: вам не нужно избегать скобок, если вы используете расширенное регулярное выражение, как я сделал в моем примере, включив опцию -r . Я согласен, что могу выделить захват в своем ответе. Я отредактирую это соответственно. Причина, по которой регулярное выражение является большим, заключается в том, что он реализует функциональные возможности, которые OP искал в выражении в стиле Perl \d и заданной входной строке.