Как извлечь подстроку с помощью регулярных выражений

Question

Как извлечь подстроку с помощью регулярных выражений

232

У меня есть строка, в которой есть две одинарные кавычки, символ '. Между одинарными кавычками находятся данные, которые я хочу.

Как я могу написать регулярное выражение для извлечения "данных, которые я хочу" из следующего текста?

mydata = "some string with 'the data i want' inside";

asdasd 11 янв. 2011, в 20:52

Источник

Теги:

java

string

regex

text-extraction

9 ответов

46

Для этого вам не нужно регулярное выражение.

Добавьте apache commons в свой проект (http://commons.apache.org/proper/commons-lang/), затем используйте:

String dataYouWant = StringUtils.substringBetween(mydata, "'");

Beothorn 13 март 2013, в 21:10

0

спасибо ..... я новичок в регулярных выражениях ... так что я думаю, что это простой способ ....
Manan Shah 05 июнь 2013, в 09:26
9

Вы должны принять во внимание, как ваше программное обеспечение будет распространяться. Если это что-то вроде веб-стартапа, не стоит добавлять Apache Commons только для использования этой единственной функциональности. Но, возможно, это не так. Кроме того, Apache Commons может предложить гораздо больше. Даже несмотря на то, что хорошо знать регулярное выражение, нужно быть осторожным, когда его использовать. Regex может быть очень трудно читать, писать и отлаживать. Учитывая некоторый контекст, использование этого может быть лучшим решением.
Beothorn 13 апр. 2015, в 14:41
3

Иногда StringUtils уже есть, в этих случаях это решение намного чище и удобочитаемее.
Gábor Nagy 14 сен. 2016, в 11:58
4

Это все равно что покупать машину, чтобы путешествовать на 5 миль (когда вы путешествуете только один раз в год).
prayagupd 01 март 2017, в 20:38
0

В то время как подстрока ищет определенную строку или значение, регулярное выражение ищет формат. Это все более динамично. Вам нужно регулярное выражение, если вы ищете шаблон вместо специального значения.
burakhan alkan 19 сен. 2017, в 10:20

Показать ещё 3 комментария

9

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile(".*'([^']*)'.*");
        String mydata = "some string with 'the data i want' inside";

        Matcher matcher = pattern.matcher(mydata);
        if(matcher.matches()) {
            System.out.println(matcher.group(1));
        }

    }
}

Sean McEligot 11 янв. 2011, в 21:39

2

System.out.println (matcher.group (0)); <--- Индекс на основе нуля
nclord 13 май 2016, в 14:49
2

Номер группы (0) имеет особое значение, группы захвата начинаются с индексной группы (1) (т. Е. Группа (1) является правильной в ответе). «Захватывающие группы индексируются слева направо, начиная с единицы. Нулевая группа обозначает весь шаблон» - Источник: docs.oracle.com/javase/8/docs/api/java/util/regex/…
Apriori 18 апр. 2017, в 06:48
0

Я использовал группу (1), но не получил никакого результата ...
Shai Alon 25 апр. 2017, в 12:39

Показать ещё 1 комментарий

8

Поскольку вы также отметили Scala, решение без регулярного выражения, которое легко справляется с несколькими цитируемыми строками:

val text = "some string with 'the data i want' inside 'and even more data'"
text.split("'").zipWithIndex.filter(_._2 % 2 != 0).map(_._1)

res: Array[java.lang.String] = Array(the data i want, and even more data)

Debilski 11 янв. 2011, в 22:24

0

Умная. Любил это.
Daniel C. Sobral 11 янв. 2011, в 22:33
3

Так читаемое решение, поэтому люди любят скала, я верю :)
prayagupd 01 март 2017, в 20:42
3

Почему бы просто .split('\'').get(2) или что-то подобное в Java? Я думаю, что вам, возможно, понадобится выполнить сканирование мозга, если вы считаете, что это удобочитаемое решение - похоже, кто-то пытался сделать мне какой-нибудь код-гольф.
ArtOfWarfare 10 апр. 2017, в 17:05

Показать ещё 1 комментарий

3

Для этого существует простой однострочный:

String target = myData.replaceAll("[^']*(?:'(.*?)')?.*", "$1");

Если сделать подходящую группу необязательной, это также относится к отсутствию кавычек, возвращая в этом случае пробел.

Смотрите живая демонстрация.

Bohemian 15 янв. 2017, в 00:37

3

как в javascript:

mydata.match(/'([^']+)'/)[1]

фактическое регулярное выражение: /'([^']+)'/

если вы используете не жадный модификатор (в соответствии с другим сообщением):

mydata.match(/'(.*?)'/)[1]

он чище.

Mihai Toader 11 янв. 2011, в 21:37

2

В Scala,

val ticks = "'([^']*)'".r

ticks findFirstIn mydata match {
    case Some(ticks(inside)) => println(inside)
    case _ => println("nothing")
}

for (ticks(inside) <- ticks findAllIn mydata) println(inside) // multiple matches

val Some(ticks(inside)) = ticks findFirstIn mydata // may throw exception

val ticks = ".*'([^']*)'.*".r    
val ticks(inside) = mydata // safe, shorter, only gets the first set of ticks

Daniel C. Sobral 12 янв. 2011, в 00:03

1

String dataIWant = mydata.replaceFirst(".*'(.*?)'.*", "$1");

ZehnVon12 13 сен. 2017, в 09:15

1

Пожалуйста, объясните ваш код.
bfontaine 13 сен. 2017, в 08:52

1

String dataIWant = mydata.split("'")[1];

Смотрите Live Demo

ZehnVon12 16 авг. 2017, в 13:53

Ещё вопросы

спасибо ..... я новичок в регулярных выражениях ... так что я думаю, что это простой способ ....
Вы должны принять во внимание, как ваше программное обеспечение будет распространяться. Если это что-то вроде веб-стартапа, не стоит добавлять Apache Commons только для использования этой единственной функциональности. Но, возможно, это не так. Кроме того, Apache Commons может предложить гораздо больше. Даже несмотря на то, что хорошо знать регулярное выражение, нужно быть осторожным, когда его использовать. Regex может быть очень трудно читать, писать и отлаживать. Учитывая некоторый контекст, использование этого может быть лучшим решением.
Иногда StringUtils уже есть, в этих случаях это решение намного чище и удобочитаемее.
Это все равно что покупать машину, чтобы путешествовать на 5 миль (когда вы путешествуете только один раз в год).
В то время как подстрока ищет определенную строку или значение, регулярное выражение ищет формат. Это все более динамично. Вам нужно регулярное выражение, если вы ищете шаблон вместо специального значения.
System.out.println (matcher.group (0)); <--- Индекс на основе нуля
Номер группы (0) имеет особое значение, группы захвата начинаются с индексной группы (1) (т. Е. Группа (1) является правильной в ответе). «Захватывающие группы индексируются слева направо, начиная с единицы. Нулевая группа обозначает весь шаблон» - Источник: docs.oracle.com/javase/8/docs/api/java/util/regex/…
Я использовал группу (1), но не получил никакого результата ...
Так читаемое решение, поэтому люди любят скала, я верю :)
Почему бы просто .split('\'').get(2) или что-то подобное в Java? Я думаю, что вам, возможно, понадобится выполнить сканирование мозга, если вы считаете, что это удобочитаемое решение - похоже, кто-то пытался сделать мне какой-нибудь код-гольф.

Mark Byers · Accepted Answer · 2011-01-11T22-21-00.000Z

390

Лучший ответ

Предполагая, что вам нужна часть между одинарными кавычками, используйте это регулярное выражение с Matcher:

"'(.*?)'"

Пример:

String mydata = "some string with 'the data i want' inside";
Pattern pattern = Pattern.compile("'(.*?)'");
Matcher matcher = pattern.matcher(mydata);
if (matcher.find())
{
    System.out.println(matcher.group(1));
}

Результат:

the data i want

Mark Byers 11 янв. 2011, в 22:21

12

блин .. я всегда забываю о не жадном модификаторе :(
Mihai Toader 11 янв. 2011, в 20:28
27

замените «если» на «время», если вы ожидаете более одного случая
OneWorld 07 авг. 2012, в 16:25
12

имейте в виду, что matcher.find () необходим для работы этого примера кода. сбой вызова этого метода приведет к исключению «Не найдено совпадений» при вызове matcher.group (1).
rexford 31 июль 2014, в 14:03
1

Если вы хотите первый результат, это должно быть ".group (0)", а не ".group (1)".
mFontoura 15 янв. 2015, в 19:29
22

@mFontoura group (0) вернет полное совпадение с внешним ''. group (1) возвращает то, что находится между «без».
tagy22 19 фев. 2015, в 14:34
4

почему Марк использует знак вопроса в этом случае? в любом случае. * не соответствует 0 или более? Так что, если бы между двумя цитатами была пустая строка, она все равно соответствовала бы?
Larry 13 май 2015, в 12:25
1

Этот код работает хорошо, но в результате разделители (') включены. Как получить подстроку без разделителей?
Giuseppe Bianco 21 янв. 2016, в 12:31
0

@ Марк Байерс Привет, вы можете взглянуть на этот вопрос? stackoverflow.com/questions/34938232/...
Donovan Tan 22 янв. 2016, в 06:41
1

Этот ответ немного вводит в заблуждение, поскольку предоставленный код возвращает 'the data i want' вместо the data i want . Если вы хотите удалить одинарные кавычки, вы должны вместо этого напечатать matcher.group(1) .
Boo Radley 26 апр. 2016, в 16:29
1

@BooRadley Ответ был правильным с самого начала, я сделал откат.
holmis83 06 май 2016, в 11:09
5

@ Ларри, это поздний ответ, но? в данном случае это не жадный модификатор, так что для this 'is' my 'data' with quotes он остановится раньше, и вместо возврата is использоваться как можно большее количество символов, а возвращаются is' my 'data , что является поведением по умолчанию ,
Timekiller 12 сен. 2016, в 14:08
0

@ tagy22 Как это работает с группой (1), возвращающей значение между одинарными кавычками? Как бы я сделал это для чего-то другого, например, [бла]? Это происходит в скобках?
mikato 05 апр. 2017, в 15:24

Показать ещё 10 комментариев