Java - регулярное выражение для разделения токенов с минимальным размером и разделителями

Question

Java - регулярное выражение для разделения токенов с минимальным размером и разделителями

1

Я знаю, что знаю, есть много подобных вопросов, и я могу сказать, что я прочитал их все. Но я не очень хорошо разбираюсь в регулярном выражении, и я не мог понять, какое регулярное выражение мне нужно.

Я хочу разбить String на Java, и у меня есть 4 ограничения:

Разделители являются [.?!] (конец предложения)
Десятичные числа не должны быть символизированы
Разделители не следует удалять.
Минимальный размер каждого токена должен быть 5

Например, для ввода:

"Hello World! This answer worth $1.45 in U.S. dollar. Thank you."

Выход будет:

[Hello World!, This answer worth $1.45 in U.S. dollar., Thank you.]

До сих пор я получил ответ для трех первых ограничений этого регулярного выражения:

text.split("(?<=[.!?])(?<!\\d)(?!\\d)");

И я знаю, что я должен использовать {5,} где-то в своем регулярном выражении, но любая комбинация, которую я пробовал, не работает.

Для таких случаев, как: "I love U.S. How about you?", не имеет значения, дает ли оно мне одно или два предложения, поскольку оно не выделяет S. в качестве отдельного предложения.

Наконец, ценится хорошее руководство по регулярному выражению.

ОБНОВЛЕНИЕ:. Как Chris, упомянутых в комментариях, почти невозможно решить такие вопросы (чтобы охватить все случаи происходят на естественных языках) с регулярным выражением. Тем не менее, я нашел HamZa ответом на шкаф и самый полезный.

Итак, будьте осторожны! Принятый ответ не будет охватывать все возможные варианты использования!

Afshin Moazami 16 авг. 2013, в 22:38

Источник

0

Мы уверены, что в конце каждого предложения есть пробел?
Juto 16 авг. 2013, в 20:03
0

И что произойдет, если предложение короче, чем 5 символов, т. Hey! ?
Juto 16 авг. 2013, в 20:06
0

@Juto Юто Это может быть. В этом примере есть пробелы, но не во всех случаях
Afshin Moazami 16 авг. 2013, в 20:06
0

@Juto Он должен быть связан с другими предложениями (если существует)
Afshin Moazami 16 авг. 2013, в 20:07
3

Это выглядит опасно близко к синтаксическому анализу естественного языка, который не является приложением для регулярных выражений. Помните, регулярные выражения могут анализировать регулярные языки. Письменный английский не является обычным языком. Любое решение, которое вы получите с помощью регулярных выражений, будет грубым.
Chris Bode 16 авг. 2013, в 20:07
0

Может быть? Что вы имеете в виду, так как это может быть совсем другой подход, если после него всегда есть пробел .?!
Juto 16 авг. 2013, в 20:07
0

@Juto Юто, я имею в виду, мы не можем полагаться на это. Но если есть пробел, он должен объединиться со следующей строкой, как в моем примере «Спасибо».
Afshin Moazami 16 авг. 2013, в 20:10
0

Мой ранний ответ, похоже, сработает для большинства ваших случаев, за исключением случая с US который проваливается. Вам просто нужно обернуть его в виде просмотра (?=(?<=[.?!])\\s+(?=[az]))
HamZa 16 авг. 2013, в 20:12
0

@AfshinMoazami Посмотрите . Он должен работать. Конечно, \s+ должно быть \\s+ .
HamZa 16 авг. 2013, в 20:20
0

@HamZa, но это не означает «Hello World!», Не так ли? (это хороший редактор, кстати)
Afshin Moazami 16 авг. 2013, в 20:28
0

@AfshinMoazami Да, это так, кстати, я сделал там опечатку. Посмотри . Я добавил опцию «подстановка», чтобы увидеть, где она разбивается.
HamZa 16 авг. 2013, в 20:32
0

@My Мой ранний ответ, я все делаю правильно: "(? = (? <= [.!?]) (? <! \\ d) (?! \\ d) \\ s + (? = [Az]) ) ", у него та же проблема, что и у решения HamZa. "Привет, мир!" не маркируется.
Afshin Moazami 16 авг. 2013, в 20:32
0

@HamZa, в этом онлайн-редакторе все хорошо. Но в Java, это показывает эти токены: [Hello World! Этот ответ стоит $ 1,45 в США], [доллар. Спасибо. Он живет в Великобритании] и [но все еще говорит в долларах] Это странно!
Afshin Moazami 16 авг. 2013, в 20:36
1

@AfshinMoazami Вы используете флаг без учета регистра? Добавьте (?i) в начало вашего выражения (?i)(?=(?<=[.?!])(?<![az]\.[az]\.)\\s+(?=[az]))
HamZa 16 авг. 2013, в 20:41
0

Теперь это работает. Добавьте это как ответ, пожалуйста :)
Afshin Moazami 16 авг. 2013, в 20:53
0

@ChrisBode, я согласен, что «выглядит опасно близко к разбору NL», но есть несколько близких ответов, которые вы можете увидеть. Спасибо за предупреждение, кстати :)
Afshin Moazami 16 авг. 2013, в 20:56

Показать ещё 14 комментариев

Теги:

java

regex

split

delimiter

2 ответа

2

Как насчет следующего регулярного выражения?

(?<=[.!?])(?!\w{1,5})(?<!\d)(?!\d)

например.

private static final Pattern REGEX_PATTERN = 
        Pattern.compile("(?<=[.!?])(?!\\w{1,5})(?<!\\d)(?!\\d)");

public static void main(String[] args) {
    String input = "Hello World! This answer worth $1.45 in U.S. dollar. Thank you.";

    System.out.println(java.util.Arrays.toString(
        REGEX_PATTERN.split(input)
    )); // prints "[Hello World!,  This answer worth $1.45 in U.S.,  dollar.,  Thank you.]"
}

Paul Vargas 16 авг. 2013, в 18:08

0

Технически, это правильный ответ, но я предпочитаю ответ Хамзы, который не разделяет "США" и "доллар" Спасибо, приятель
Afshin Moazami 16 авг. 2013, в 20:55

Ещё вопросы

Мы уверены, что в конце каждого предложения есть пробел?
И что произойдет, если предложение короче, чем 5 символов, т. Hey! ?
@Juto Юто Это может быть. В этом примере есть пробелы, но не во всех случаях
@Juto Он должен быть связан с другими предложениями (если существует)
Это выглядит опасно близко к синтаксическому анализу естественного языка, который не является приложением для регулярных выражений. Помните, регулярные выражения могут анализировать регулярные языки. Письменный английский не является обычным языком. Любое решение, которое вы получите с помощью регулярных выражений, будет грубым.
Может быть? Что вы имеете в виду, так как это может быть совсем другой подход, если после него всегда есть пробел .?!
@Juto Юто, я имею в виду, мы не можем полагаться на это. Но если есть пробел, он должен объединиться со следующей строкой, как в моем примере «Спасибо».
Мой ранний ответ, похоже, сработает для большинства ваших случаев, за исключением случая с US который проваливается. Вам просто нужно обернуть его в виде просмотра (?=(?<=[.?!])\\s+(?=[az]))
@AfshinMoazami Посмотрите . Он должен работать. Конечно, \s+ должно быть \\s+ .
@HamZa, но это не означает «Hello World!», Не так ли? (это хороший редактор, кстати)
@AfshinMoazami Да, это так, кстати, я сделал там опечатку. Посмотри . Я добавил опцию «подстановка», чтобы увидеть, где она разбивается.
@My Мой ранний ответ, я все делаю правильно: "(? = (? <= [.!?]) (? <! \\ d) (?! \\ d) \\ s + (? = [Az]) ) ", у него та же проблема, что и у решения HamZa. "Привет, мир!" не маркируется.
@HamZa, в этом онлайн-редакторе все хорошо. Но в Java, это показывает эти токены: [Hello World! Этот ответ стоит $ 1,45 в США], [доллар. Спасибо. Он живет в Великобритании] и [но все еще говорит в долларах] Это странно!
@AfshinMoazami Вы используете флаг без учета регистра? Добавьте (?i) в начало вашего выражения (?i)(?=(?<=[.?!])(?<![az]\.[az]\.)\\s+(?=[az]))
Теперь это работает. Добавьте это как ответ, пожалуйста :)
@ChrisBode, я согласен, что «выглядит опасно близко к разбору NL», но есть несколько близких ответов, которые вы можете увидеть. Спасибо за предупреждение, кстати :)
Технически, это правильный ответ, но я предпочитаю ответ Хамзы, который не разделяет "США" и "доллар" Спасибо, приятель

HamZa · Accepted Answer · 2013-08-16T18-53-00.000Z

Основываясь на моем ответе из ранее сделанного regex .
Регулярное выражение было в основном (?<=[.?!])\s+(?=[a-z]), что означает совпадение любых пробелов один или несколько раз, предшествующих либо ., ?, либо !, а затем [a-z] (не забывая модификатор i).

Теперь измените его на нужды этого вопроса:

Сначала мы преобразуем его в регулярное выражение JAVA: (?<=[.?!])\\s+(?=[a-z])
Мы добавим модификатор i для соответствия нечувствительности к регистру (?i)(?<=[.?!])\\s+(?=[a-z])
Мы положим выражение в позитивное выражение, чтобы предотвратить "поедание" символов (в этом случае разделители): (?=(?i)(?<=[.?!])\\s+(?=[a-z]))
Мы добавим отрицательный lookbehind, чтобы проверить, нет ли аббревиатуры в формате LETTER DOT LETTER DOT: (?i)(?<=[.?!])(?<![a-z]\.[a-z]\.)\\s+(?=[a-z])

Итак, наше окончательное регулярное выражение выглядит так: (?i)(?<=[.?!])(?<![a-z]\.[a-z]\.)\\s+(?=[a-z]).

Некоторые ссылки:

Онлайн-тестер, перейдите в JAVA
Объяснить инструмент (не основанный на JAVA)
Учебник по регулярному выражению
Учебное пособие по регулярному выражению Java
SO regex chatroom
Несколько продвинутых хороших регулярных выражений на SO

Это не сработает, если аббревиатура на самом деле находится в конце предложения, например, I live in the USA We speak English. Кроме того, он все еще разделен на сокращения только одной части, например, Employees at Grammar Inc. make pedantic comments on the internet. Оба из них по существу неразрешимы с RegEx.