регулярное выражение java, соответствующее арабским словам вокруг ключевого слова, которое может встречаться дважды на небольшом расстоянии

Question

регулярное выражение java, соответствующее арабским словам вокруг ключевого слова, которое может встречаться дважды на небольшом расстоянии

1

Я пытаюсь совместить два слова или меньше до и после определенного ключевого слова с использованием регулярного выражения. Текст на арабском языке, поэтому я использовал \S+ в приведенном ниже выражении в Java-коде, чтобы соответствовать арабским символам.

Я столкнулся с ситуацией, когда ключевое слово произошло дважды в одной строке с расстоянием, меньшим или равным двум словам.

Итак, как я могу отредактировать это выражение для обработки такого особого случая.

Арабский Пример: ввод текста: اذا كان هذا مثال ودليل اذا هذا مثال اخر

regex: ((\S+\s*){0,2})\bهذا\b\s*((\S+\s*){0,2}) необходимо извлечь группу 1 и 3.

прогнозируемый результат:

اذا كان - مثال ودليل
ودليل اذا - مثال اخر

фактический результат:

اذا كان - مثال ودليل
اذا - مثال اخر

Пример на английском языке для иллюстраций:

переведенный текст: если это пример, это еще один

regex: ((\S+\s*){0,2})\bis\b\s*((\S+\s*){0,2}) необходимо извлечь группу 1 и 3.

прогнозируемый результат:

если это - пример
пример это - еще один

фактический результат:

это это - пример
это - другое

Пример по Rubular: http://www.rubular.com/r/G5ctauWdYH

Daisy 27 дек. 2014, в 16:49

Источник

0

Вам нужно использовать предпросмотр или порядок следования за взглядом, чтобы перекрывать совпадения.
Avinash Raj 27 дек. 2014, в 15:36
0

Так как проблема не кажется специфичной для арабского языка, я думаю, что было бы яснее (и короче) не упоминать ее вообще
Dici 27 дек. 2014, в 15:40
1

@Dici: я упомянул, что для оправдания использования \ S вместо \ w +, потому что \ w + не может соответствовать арабским символам
Daisy 27 дек. 2014, в 15:41
0

@Daisy Дайси, хорошо, спасибо за точность
Dici 27 дек. 2014, в 15:43

Показать ещё 2 комментария

Теги:

java

regex

1 ответ

Ещё вопросы

Вам нужно использовать предпросмотр или порядок следования за взглядом, чтобы перекрывать совпадения.
Так как проблема не кажется специфичной для арабского языка, я думаю, что было бы яснее (и короче) не упоминать ее вообще
@Dici: я упомянул, что для оправдания использования \ S вместо \ w +, потому что \ w + не может соответствовать арабским символам
@Daisy Дайси, хорошо, спасибо за точность

sln · Accepted Answer · 2014-12-27T18-16-00.000Z

Попробуйте это, использует lookahead для перекрытий.
Обратите внимание, что идеальным является также использование переменной длины lookbehind, но Java ее не поддерживает.

 # "((?:(?!\\bis\\b)\\S+\\s*){0,2})\\bis\\b\\s*(?=((?:(?!\\bis\\b)\\S+\\s*){0,2}))"

 (                             # (1 start), 0-2 words before
      (?:
           (?! \b is \b )                # But, not the target word
           \S+ \s* 
      ){0,2}
 )                             # (1 end)
 \b is \b \s* 
 (?=                           # Lookahead, Overlap so next search starts here.
      (                             # (2 start), 0-2 words after
           (?:
                (?! \b is \b )                # But, not the target word
                \S+ \s* 
           ){0,2}
      )                             # (2 end)
 )

Вывод:

 **  Grp 0 -  ( pos 0 , len 11 ) 
if this is   
 **  Grp 1 -  ( pos 0 , len 8 ) 
if this   
 **  Grp 2 -  ( pos 11 , len 11 ) 
an example   

---------------------------

 **  Grp 0 -  ( pos 14 , len 16 ) 
example this is   
 **  Grp 1 -  ( pos 14 , len 13 ) 
example this   
 **  Grp 2 -  ( pos 30 , len 13 ) 
another one