Найдите строчную букву, окруженную тремя заглавными буквами

Question

Найдите строчную букву, окруженную тремя заглавными буквами

1

У меня есть строка с комбинацией прописных и строчных букв. Мне нужно найти каждую строчную букву, которая обрабатывается тремя заглавными буквами и извлекает ее из строки.

Например ZZZaZZZ Я хочу извлечь a в предыдущей строке.

Я написал сценарий, который способен извлечь ZZZaZZZ но не в одиночку. a Я знаю, что для этого нужно использовать вложенные выражения регулярных выражений, но я не могу задуматься о том, как это реализовать. Следующее - это то, что у меня есть:

import string, re                                                                                                                                                                

if __name__ == "__main__":                                                                                                                                                       

    #open the file                                                                                                                                                               
    eqfile = open("string.txt")                                                                                                                                                
    gibberish = eqfile.read()                                                                                                                                                    
    eqfile.close()                                                                                                                                                               

    r = re.compile("[A-Z]{3}[a-z][A-Z]{3}")                                                                                                                                      
    print r.findall(gibberish)

EDIT: Спасибо за ответы, ребята! Наверное, я должен был быть более конкретным. Мне нужно найти строчную букву, которая окружена тремя прописными буквами, которые точно такие же, как в моем примере ZZZaZZZ.

Nic Young 03 май 2012, в 02:22

Источник

Теги:

python

string

regex

3 ответа

4

r = re.compile("(?<=[A-Z]{3})[a-z](?=[A-Z]{3})")

(?<=...) указывает на положительный lookbehind и (?=...) является положительным взглядом.

модуль re

(?=...)

Соответствует, если... соответствует следующей, но не использует ни одну из строк. Это называется ожидаемым утверждением. Например, Isaac (?=Asimov) будет соответствовать 'Isaac ' только если его последует 'Asimov'.

(?<=...)

Соответствует, если текущей позиции в строке предшествует совпадение для..., которое заканчивается в текущей позиции.

Mike Samuel 02 май 2012, в 22:52

0

+1, но я не думаю, что вам нужен как взгляд вперед, так и взгляд назад. Либо один сам по себе должен работать с другим, будучи нормальным соответствием
John La Rooy 03 май 2012, в 01:07
0

@gnibbler, правда, но таким образом, если вы делаете findall или finditer вы просто возвращаете список без необходимости понимания.
Mike Samuel 03 май 2012, в 01:10
0

(?<=[AZ]{3})([az])(?:[AZ]{3}) тоже это делает
John La Rooy 03 май 2012, в 01:16
0

@MikeSamuel Ваше решение работает лучше всего, но я думаю, мне следовало быть более конкретным. Заглавные буквы должны быть точно такими же, как в примере, который я использовал выше ZZZaZZZ .
Nic Young 03 май 2012, в 02:11

Показать ещё 2 комментария

3

Вам нужно захватить часть интересующей вас строки в круглых скобках, а затем получить доступ к ней с re.MatchObject#group:

r = re.compile("[A-Z]{3}([a-z])[A-Z]{3}")                                                                                                                                      
m = r.match(gibberish)
if m:
   print "Match! Middle letter was " + m.group(1)           
else:
   print "No match."

Mark Reed 02 май 2012, в 22:42

0

Это не будет соответствовать обеим строчным буквам в "AAAbAAAbAAA" .
Mike Samuel 03 май 2012, в 00:42

Ещё вопросы

+1, но я не думаю, что вам нужен как взгляд вперед, так и взгляд назад. Либо один сам по себе должен работать с другим, будучи нормальным соответствием
@gnibbler, правда, но таким образом, если вы делаете findall или finditer вы просто возвращаете список без необходимости понимания.
(?<=[AZ]{3})([az])(?:[AZ]{3}) тоже это делает
@MikeSamuel Ваше решение работает лучше всего, но я думаю, мне следовало быть более конкретным. Заглавные буквы должны быть точно такими же, как в примере, который я использовал выше ZZZaZZZ .
Это не будет соответствовать обеим строчным буквам в "AAAbAAAbAAA" .

Kirk Strauser · Accepted Answer · 2012-05-02T21-25-00.000Z

Вы так близко! Читайте о .group * методов MatchObjects. Например, если ваш скрипт закончился

r = re.compile("[A-Z]{3}([a-z])[A-Z]{3}")
print r.match(gibberish).group(1)

то вы захватили бы желаемый символ внутри первой группы.

Чтобы устранить новое ограничение соответствия повторяющихся букв, вы можете использовать обратные ссылки:

r = re.compile(r'([A-Z])\1{2}(?P<middle>[a-z])\1{3}')
m = r.match(gibberish)
if m is not None:
    print m.group('middle')

Это гласит:

Сопоставьте букву AZ и запомните ее.
Сопоставьте два вхождения первой найденной буквы.
Сопоставьте строчную букву и сохраните ее в группе с именем middle.
Сопоставьте еще три последовательных экземпляра первой найденной буквы.
Если совпадение найдено, напечатайте значение middle группы.

Это не будет соответствовать обеим строчным буквам в "AAAbAAAbAAA" .
Твой мужчина, это именно то, что я искал.

Найдите строчную букву, окруженную тремя заглавными буквами

3 ответа

`(?=...)`

`(?<=...)`

Ещё вопросы