Почему это регулярное выражение ничем не соответствует?

Question

Почему это регулярное выражение ничем не соответствует?

1

Я пытаюсь использовать следующее регулярное выражение, чтобы найти все электронные письма в строке html:

RegExp
[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}

HTML
<a href="mailto:[email protected]">[email protected]</a></span>. </p>

Я использую matcher.find(), который должен найти подстроки, не так ли? Когда я выполняю поиск, он становится пустым, любые идеи почему?

cantread 01 апр. 2014, в 22:06

Источник

4

AZ соответствует только верхнему регистру?
fjc 01 апр. 2014, в 19:36
2

Не имеет прямого отношения к вашей проблеме, но я бы рекомендовал изменить конец вашего регулярного выражения на {2,6} , учитывая более новые и более длинные TLD ( .museum , .berlin и т. Д.).
admdrew 01 апр. 2014, в 19:46
0

Ах ах! Большое спасибо, сэр.
cantread 01 апр. 2014, в 19:46
0

Пожалуйста, проверьте мой ответ внизу, это регулярное выражение все еще неверно. Он не найдет co.uk, de.com и все еще слишком короток для корневого домена .international.
agilob 04 апр. 2014, в 09:19

Показать ещё 2 комментария

Теги:

java

regex

3 ответа

Ещё вопросы

AZ соответствует только верхнему регистру?
Не имеет прямого отношения к вашей проблеме, но я бы рекомендовал изменить конец вашего регулярного выражения на {2,6} , учитывая более новые и более длинные TLD ( .museum , .berlin и т. Д.).
Пожалуйста, проверьте мой ответ внизу, это регулярное выражение все еще неверно. Он не найдет co.uk, de.com и все еще слишком короток для корневого домена .international.

Pshemo · Answer 1 · 2014-04-01T18-13-00.000Z

Regex чувствителен к регистру по умолчанию, поэтому, например, последняя часть .net не может быть сопоставлена с .[AZ]{2,4}.

Чтобы сделать ваш регистр нечувствительным к регистру, добавьте флаг (?i)

"(?i)[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}"

или скомпилировать его с флагом Pattern.CASE_INSENSITIVE.

Pattern.compile("[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}",Pattern.CASE_INSENSITIVE);

Anthony Chu · Answer 2 · 2014-04-01T17-55-00.000Z

AZ будет соответствовать только верхнему регистру, и есть дополнительный \. Попробуй это...

[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[a-zA-Z]{2,4}

Дополнительный обратный слеш был, несомненно, потому что это Java, и ему пришлось удвоить его, чтобы он работал в строковом литерале. Так что это было, вероятно, правильно.

agilob · Answer 3 · 2014-04-01T17-36-00.000Z

Этот способ поиска писем более не правильный, если у нас есть новые домены. Это регулярное выражение не найдет никакой электронной почты в домене site.berlin. Расширьте 2,4, удалите или найдите

[A-Za-z0-9-+/.]*@[A-Za-z0-9/.-]*\\.*[A-Za-z]$

У меня недостаточно репутации, чтобы прокомментировать сообщение, поскольку самый длинный домен домена.international, поэтому {2,4} не найдет его и не вспомнит о доменах с точкой внутри корневого имени, например.co.uk,.de.com, Домен также должен заканчиваться буквой, он не может быть номером или специальным символом. Адрес электронной почты может содержать разделитель типа + или -