Обнаружение символов, которые не заключены в двойные кавычки (регулярное выражение)

Question

Обнаружение символов, которые не заключены в двойные кавычки (регулярное выражение)

1

Я хотел бы создать регулярное выражение, которое может mmatch символов [].\,();~-, которые не заключены в двойные кавычки.

Например, эта строка:

do Output.printString("Test 1: expected result: 5; actual result: ");

должны возвращать совпадения:

['.', '(', ')', ';']

Я пробовал использовать отрицательный lookahead и негативный lookbehind безрезультатно.

doctopus 25 июль 2018, в 12:36

Источник

0

Что, если это экранированная строковая последовательность, например, do Output.printString("Test 1: expected result: 5; \"(actual)\" result: "); ?
zwer 25 июль 2018, в 10:17
0

Я не думаю, что это возможно только в регулярном выражении Python.
Amadan 25 июль 2018, в 10:18
0

Почему должен ; быть возвращен, так как он найден в тестовой строке?
UnbearableLightness 25 июль 2018, в 10:19
0

@zwer не думал так далеко, но любые символы в крайних двойных кавычках не должны совпадать
doctopus 25 июль 2018, в 10:20
1

Найти весь цитируемый текст и удалить их, а затем работать с этой измененной строкой.
marekful 25 июль 2018, в 10:21
0

@UnbearableLightness: потому что он находится вне кавычек (последний символ в строке).
Amadan 25 июль 2018, в 10:21
0

@marekful Я думал об этом, но есть ли лучшее решение, которое может выполнять обе операции одновременно?
doctopus 25 июль 2018, в 10:21
0

на самом деле вы можете использовать мой ответ, добавив дополнительную проверку, что после первого появления «не добавлять в список до следующего»; все должно быть хорошо, если вы не дадите полного решения, но вы даже не подумали просто понизить голос за секунду :( - на самом деле это работает так, просто добавьте это одно условие самостоятельно - но я удалил свой ответ
Drako 25 июль 2018, в 10:32
0

@Drako: Это был плохой ответ. Если вы измените его, чтобы он действительно работал (и отменил его), я буду рад перевернуть понижающий голос с ног на голову.
Amadan 25 июль 2018, в 15:26

Показать ещё 7 комментариев

Теги:

python

regex

3 ответа

1

Вам нужно два шага, поскольку регулярные выражения Python недостаточно мощны, чтобы сделать это за один раз.

re.findall(r'[\[\].\\,();~-]', re.sub(r'"(?:\\.|[^"\\])*"', '', s))
# => ['.', '(', ')', ';']

Внутренний re.sub удаляет все строки с двойными кавычками (без re.sub двойных кавычек); то вы можете использовать re.findall чтобы легко подобрать то, что вы хотите.

Amadan 25 июль 2018, в 08:49

0

Пожалуйста!
marekful 25 июль 2018, в 10:27
0

@marekful: Хаха, я был на полпути к моему ответу, когда ты прокомментировал, но уверен :)
Amadan 25 июль 2018, в 10:28
0

Не волнуйтесь! Я не собирался отправлять ответ в любом случае.
marekful 25 июль 2018, в 11:13

Показать ещё 1 комментарий

1

Мы могли бы сделать что-то вроде:

Удалить текст внутри двойных кавычек

import re
pattern = u"[\"].*?[\"]"
text = 'do Output.printString("Test 1: expected result: 5; actual result: ");'
new_text = re.sub(ptrn, '', text)
# O/P 'do Output.printString();'

Сопоставьте все символы, которые вам нужны

pattern_2 = u"[\[\]\.\,\(\)\;\~\-]"
matches = re.findall(pattern2, new_text)

O/P ['.', '(', ')', ';']

ThatBird 25 июль 2018, в 08:27

Ещё вопросы

Что, если это экранированная строковая последовательность, например, do Output.printString("Test 1: expected result: 5; \"(actual)\" result: "); ?
Я не думаю, что это возможно только в регулярном выражении Python.
Почему должен ; быть возвращен, так как он найден в тестовой строке?
@zwer не думал так далеко, но любые символы в крайних двойных кавычках не должны совпадать
Найти весь цитируемый текст и удалить их, а затем работать с этой измененной строкой.
@UnbearableLightness: потому что он находится вне кавычек (последний символ в строке).
@marekful Я думал об этом, но есть ли лучшее решение, которое может выполнять обе операции одновременно?
на самом деле вы можете использовать мой ответ, добавив дополнительную проверку, что после первого появления «не добавлять в список до следующего»; все должно быть хорошо, если вы не дадите полного решения, но вы даже не подумали просто понизить голос за секунду :( - на самом деле это работает так, просто добавьте это одно условие самостоятельно - но я удалил свой ответ
@Drako: Это был плохой ответ. Если вы измените его, чтобы он действительно работал (и отменил его), я буду рад перевернуть понижающий голос с ног на голову.
@marekful: Хаха, я был на полпути к моему ответу, когда ты прокомментировал, но уверен :)
Не волнуйтесь! Я не собирался отправлять ответ в любом случае.

anubhava · Accepted Answer · 2018-07-25T08-43-00.000Z

Вы можете использовать это регулярное выражение так, чтобы он соответствовал символу за пределами пары двойных кавычек:

>>> s = 'do Output.printString("Test 1: expected result: 5; actual result: ");'
>>> print re.findall(r'[][.,();~-](?=(?:(?:[^"]*"){2})*[^"]*$)', s)
['.', '(', ')', ';']

Демо-версия RegEx

Это регулярное выражение будет разделено на заданные специальные символы, если они находятся вне двойных кавычек, используя lookahead, чтобы удостовериться, что есть четное количество кавычек после согласованного символа.
(?:[^"]*"){2} находит пару котировок
(?:(?:[^"]*"){2})* находит 0 или более таких пар
[^"]*$ гарантирует, что у нас больше нет кавычек после последней согласованной цитаты