Регулярное выражение для игнорирования последовательных кавычек в строке

Question

Регулярное выражение для игнорирования последовательных кавычек в строке

1

Я создал парсер в Sprache и С# для файлов с использованием формата, который я не контролирую. Используя его, я могу правильно преобразовать:

a = "my string";

в

my string

Парсер (только для цитируемого текста) выглядит следующим образом:

public static readonly Parser<string> QuotedText =
    from open in Parse.Char('"').Token()
    from content in Parse.CharExcept('"').Many().Text().Token()
    from close in Parse.Char('"').Token()
    select content;

Однако формат, с которым я работаю, ускоряет кавычки с использованием котировок "double double", например:

a = "a ""string"".";

При попытке проанализировать это ничего не возвращается. Он должен вернуться:

a ""string"".

Дополнительно

a = "";

должен быть проанализирован в string.Empty или аналогичный.

Я попытался неудачно регулярные выражения, основанные на ответах, как этого делать такие вещи, как "(?:[^;])*", Или:

public static readonly Parser<string> QuotedText =
    from content in Parse.Regex("""(?:[^;])*""").Token()

Это не работает (т.е. в приведенных выше случаях не возвращаются совпадения). Я думаю, что у моих новичков навыки регулярного языка мешают. У кого-нибудь есть намеки?

EDIT: Я тестировал его здесь - http://regex101.com/r/eJ9aH1

will-hart 13 июнь 2014, в 04:28

Источник

Теги:

c#

regex

sprache

4 ответа

1

Вероятно, вы можете адаптировать желаемый результат из этого шаблона:

"(.+".+")"|(".+?")|("")

пример:

http://regex101.com/r/lO1vZ4

l'L'l 13 июнь 2014, в 00:48

0

Спасибо, похоже, это помогает, хотя @ zx81 ответил немного раньше, я отметил его как правильный.
will-hart 13 июнь 2014, в 09:22
0

@ Will-Hart, не беспокойтесь - рад, что вы нашли решение :)
l'L'l 13 июнь 2014, в 09:39

0

Это регулярное выражение "("+) может помочь вам сопоставить дополнительные нежелательные двойные кавычки.

вот ДЕМО

Braj 13 июнь 2014, в 05:47

0

Если вы хотите игнорировать последовательные двойные кавычки, попробуйте следующее:

("{2,})

Демо-версия

CMPS 12 июнь 2014, в 23:58

0

Как видно из вашей демонстрации, это не игнорирует "" .
Amal Murali 13 июнь 2014, в 02:20
0

@AmalMurali Я обновляю свое регулярное выражение. Amal regex просто выбирает для вас подходящий шаблон, он не игнорирует, не заменяет и не делает ничего для вас. Чтобы изменить выбранную часть, вам нужно использовать метод, чтобы заменить то, что находится между круглыми скобками, на пустую строку
CMPS 13 июнь 2014, в 02:22
0

Как говорится в заголовке вопроса, ФП пытается создать « регулярное выражение для игнорирования последовательных кавычек в строке ». Ваше регулярное выражение по-прежнему соответствует последовательным двойным кавычкам, которые ОП не хочет.
Amal Murali 13 июнь 2014, в 02:25
0

Я сопоставляю двойные кавычки, чтобы они могли быть заменены пустой строкой, не проще ли?
CMPS 13 июнь 2014, в 02:32
0

Нет, потому что в процессе сопоставления последовательных двойных кавычек вы также сопоставляете """ , """" и т. Д.
Amal Murali 13 июнь 2014, в 02:34
0

Я могу это исправить, но он / она не упомянул, что должны игнорироваться только 2 последовательных двойных кавычки @AmalMurali
CMPS 13 июнь 2014, в 02:36

Показать ещё 4 комментария

Ещё вопросы

Спасибо, похоже, это помогает, хотя @ zx81 ответил немного раньше, я отметил его как правильный.
@ Will-Hart, не беспокойтесь - рад, что вы нашли решение :)
Как видно из вашей демонстрации, это не игнорирует "" .
@AmalMurali Я обновляю свое регулярное выражение. Amal regex просто выбирает для вас подходящий шаблон, он не игнорирует, не заменяет и не делает ничего для вас. Чтобы изменить выбранную часть, вам нужно использовать метод, чтобы заменить то, что находится между круглыми скобками, на пустую строку
Как говорится в заголовке вопроса, ФП пытается создать « регулярное выражение для игнорирования последовательных кавычек в строке ». Ваше регулярное выражение по-прежнему соответствует последовательным двойным кавычкам, которые ОП не хочет.
Я сопоставляю двойные кавычки, чтобы они могли быть заменены пустой строкой, не проще ли?
Нет, потому что в процессе сопоставления последовательных двойных кавычек вы также сопоставляете """ , """" и т. Д.
Я могу это исправить, но он / она не упомянул, что должны игнорироваться только 2 последовательных двойных кавычки @AmalMurali

zx81 · Accepted Answer · 2014-06-13T00-30-00.000Z

Если я правильно понимаю вас, это регулярное выражение, которое вы ищете:

"(?:""|[^"])*"

См. Демонстрацию. 1. " соответствует котировке открытия 2. (?:""|[^"])* Соответствует двум кавычкам или любым символам, которые не являются котировками (включая новые строки), повторяя 3. " соответствует закрывающей кавычки.

Но всегда будет сводиться к тому, сбалансирован ли ваш вход. Если нет, вы получите ложные срабатывания. И если у вас есть строка, такая как "string"", which should be matched? "Строка" " , " "или ничего?... Это сложное решение, которое, к счастью, вам не нужно делать если вы уверены в своем вводе.

Спасибо - я могу с уверенностью предположить, что файлы, которые я получаю, являются сбалансированными входными данными, поскольку они проходят через процесс очистки, прежде чем я получу к ним. Я попробую это в C #.