У меня есть строка, в которой есть две одинарные кавычки, символ '
. Между одинарными кавычками находятся данные, которые я хочу.
Как я могу написать регулярное выражение для извлечения "данных, которые я хочу" из следующего текста?
mydata = "some string with 'the data i want' inside";
Предполагая, что вам нужна часть между одинарными кавычками, используйте это регулярное выражение с Matcher
:
"'(.*?)'"
Пример:
String mydata = "some string with 'the data i want' inside";
Pattern pattern = Pattern.compile("'(.*?)'");
Matcher matcher = pattern.matcher(mydata);
if (matcher.find())
{
System.out.println(matcher.group(1));
}
Результат:
the data i want
Для этого вам не нужно регулярное выражение.
Добавьте apache commons в свой проект (http://commons.apache.org/proper/commons-lang/), затем используйте:
String dataYouWant = StringUtils.substringBetween(mydata, "'");
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test {
public static void main(String[] args) {
Pattern pattern = Pattern.compile(".*'([^']*)'.*");
String mydata = "some string with 'the data i want' inside";
Matcher matcher = pattern.matcher(mydata);
if(matcher.matches()) {
System.out.println(matcher.group(1));
}
}
}
Поскольку вы также отметили Scala, решение без регулярного выражения, которое легко справляется с несколькими цитируемыми строками:
val text = "some string with 'the data i want' inside 'and even more data'"
text.split("'").zipWithIndex.filter(_._2 % 2 != 0).map(_._1)
res: Array[java.lang.String] = Array(the data i want, and even more data)
Для этого существует простой однострочный:
String target = myData.replaceAll("[^']*(?:'(.*?)')?.*", "$1");
Если сделать подходящую группу необязательной, это также относится к отсутствию кавычек, возвращая в этом случае пробел.
Смотрите живая демонстрация.
как в javascript:
mydata.match(/'([^']+)'/)[1]
фактическое регулярное выражение: /'([^']+)'/
если вы используете не жадный модификатор (в соответствии с другим сообщением):
mydata.match(/'(.*?)'/)[1]
он чище.
В Scala,
val ticks = "'([^']*)'".r
ticks findFirstIn mydata match {
case Some(ticks(inside)) => println(inside)
case _ => println("nothing")
}
for (ticks(inside) <- ticks findAllIn mydata) println(inside) // multiple matches
val Some(ticks(inside)) = ticks findFirstIn mydata // may throw exception
val ticks = ".*'([^']*)'.*".r
val ticks(inside) = mydata // safe, shorter, only gets the first set of ticks
String dataIWant = mydata.replaceFirst(".*'(.*?)'.*", "$1");
String dataIWant = mydata.split("'")[1];
Смотрите Live Demo