Регулярное выражение, чтобы соответствовать только буквы

Question

Регулярное выражение, чтобы соответствовать только буквы

240

Как написать регулярное выражение, которое соответствует только буквам?

Nike 01 сен. 2010, в 13:12

Источник

56

Какое у вас определение characters ? ASCII? Кандзи? Iso-XXXX-X? UTF8?
Ivo Wetzel 01 сен. 2010, в 12:10
41

Какое у вас определение regex ? Perl? Emacs? Grep?
Pascal Cuoq 01 сен. 2010, в 12:17

Теги:

regex

15 ответов

Ещё вопросы

Какое у вас определение characters ? ASCII? Кандзи? Iso-XXXX-X? UTF8?
Какое у вас определение regex ? Perl? Emacs? Grep?

Gumbo · Answer 1 · 2010-09-01T13-57-00.000Z

Используйте набор символов: [a-zA-Z] соответствует одной букве из A-Z в нижнем регистре и в верхнем регистре. [a-zA-Z]+ соответствует одной или нескольким буквам, а ^[a-zA-Z]+$ соответствует только строкам, которые состоят только из одной или нескольких букв (^ и $ отмечают начало и конец строки соответственно).

Если вы хотите совместить другие буквы, чем A-Z, вы можете добавить их в набор символов: [a-zA-ZäöüßÄÖÜ]. Или вы используете предопределенные классы символов, такие как Свойство символов Unicode class \p{L}, которое описывает символы Unicode, которые являются буквами.

Это очень ASCII-ориентированное решение. Это сломает практически любой неанглоязычный текст.
@Joachim Sauer: Это скорее сломает языки, использующие нелатинские символы.
Уже разбивает 90% немецкого текста, даже не упоминает французский или испанский. Итальянский может все еще хорошо, хотя.
это зависит от того, какое определение «латинского символа» вы выберете. J, U, Ö, Ä можно утверждать, что это латинские символы или нет, в зависимости от вашего определения. Но все они используются в языках, которые используют «латинский алфавит» для письма.
\ p {L} соответствует всем акцентам седла умлаутов и т. д., так что вы должны пойти с этим.
Хорошо работает в движке селектора для определения, является ли селектор просто именем тега.
Что делать, если вы не можете использовать [] потому что Python слишком толстый, чтобы понимать вложения?

RobV · Answer 2 · 2010-09-01T12-33-00.000Z

114

\p{L} соответствует любому, что является буквой Unicode, если вас интересуют алфавиты за пределами латинского

RobV 01 сен. 2010, в 12:33

1

не во всех вкусах регулярных выражений. Например, регулярные выражения vim рассматривают \p как «печатный символ».
Philip Potter 01 сен. 2010, в 12:12
3

Ну, в любом движке регулярных выражений, который поддерживает регулярные выражения Unicode, то
RobV 01 сен. 2010, в 12:13
2

на этой странице предлагается поддержка только регулярных выражений java, .net, perl, jgsoft, XML и XPath \ p {L}. Но основные упущения: python и ruby (хотя в python есть модуль regex).
Philip Potter 01 сен. 2010, в 12:16
6

@Philip Potter: Ruby поддерживает свойства символов Unicode, используя тот же синтаксис.
Jörg W Mittag 01 сен. 2010, в 13:14
2

Не работает с санскритом в .Net
Steven Mays 06 июль 2015, в 22:14
4

Я думаю, что это должно быть \p{L}\p{M}*+ чтобы охватывать буквы, состоящие из нескольких кодовых точек, например буквы, за которыми следуют знаки ударения. Согласно регулярным выражениям.info / unicode.html
ZoFreX 16 сен. 2016, в 13:42

Показать ещё 4 комментария

Molske · Answer 3 · 2010-09-01T12-23-00.000Z

32

В зависимости от вашего значения "символ":

[A-Za-z] - все буквы (в верхнем и нижнем регистре)

[^0-9] - все символы без цифр

Molske 01 сен. 2010, в 12:23

0

Я имел в виду буквы. Это, кажется, не работает, хотя. preg_match ('/ [a-zA-Z] + /', $ name);
Nike 01 сен. 2010, в 12:19
0

[A-Za-z] - это просто объявление символов, которые вы можете использовать. Вам все еще нужно указать, сколько раз нужно использовать это объявление: [A-Za-z] {1,2} (для соответствия 1 или 2 буквам) или [A-Za-z] {1, *} (для соответствия 1 или более букв)
KristofMols 01 сен. 2010, в 13:06
11

ну, а, а, о, А ... тоже буквы, так и а, а, е, е, Є, Ж, z, ح, خ, дас, б, г, с, т, ... en.wikipedia.org/wiki/Letter_%28alphabet%29
phuclv 20 сен. 2016, в 09:50

Показать ещё 1 комментарий

blue_note · Answer 4 · 2014-10-17T13-19-00.000Z

Ближайшая доступная опция

[\u\l]+

который соответствует последовательности прописных и строчных букв. Однако он не поддерживается всеми редакторами/языками, поэтому, вероятно, безопаснее использовать

[a-zA-Z]+

как указывают другие пользователи.

Не будет соответствовать каким-либо специальным символам.

Scott Radcliff · Answer 5 · 2010-09-01T12-23-00.000Z

/[a-zA-Z]+/

Супер простой пример. Регулярные выражения чрезвычайно легко найти в Интернете.

http://www.regular-expressions.info/reference.html

Rohit Dubey · Answer 6 · 2013-11-14T16-41-00.000Z

Для PHP последующие будут работать отлично

'/^[a-zA-Z]+$/'

Yogesh Chauhan · Answer 7 · 2016-09-13T08-47-00.000Z

Регулярное выражение, которое несколько человек написало как "/^ [a-zA-Z] $/i", неверно, потому что в последнем случае они упомянули /i, который не зависит от регистра и после сопоставления в первый раз он вернется назад. Вместо /i просто используйте /g, который для глобального, и вам также не нужно помещать ^ $ для начала и окончания.

/[a-zA-Z]+/g

[a-z _] + соответствует одному символу, присутствующему в списке ниже
Квантификатор: + Между одним и неограниченным временем, как можно больше раз, отдавая при необходимости
a-z один символ в диапазоне между a и z (чувствительный к регистру)
A-Z один символ в диапазоне между A и Z (с учетом регистра)
g: глобальный. Все совпадения (не возвращаются в первом матче)

Tomáš Nedělka · Answer 8 · 2017-06-27T13-26-00.000Z

5

Использование групп символов

\D

Соответствует любому символу, кроме цифр 0-9

^\D+$

См. пример здесь

Tomáš Nedělka 27 июнь 2017, в 13:26

2

Это также будет соответствовать пробелам, символам и т. Д., Что, по-видимому, не соответствует задаче.
DaveMongoose 02 янв. 2018, в 09:31
0

Weird. Просто понизил это, и это не я!
Dave Everitt 27 апр. 2018, в 13:37

Agaspher · Answer 9 · 2014-05-28T13-41-00.000Z

4

Просто используйте \w или [:alpha:]. Это escape-последовательности, которые соответствуют только символам, которые могут появляться в словах.

Agaspher 28 май 2014, в 13:41

6

\w не может быть хорошим решением во всех случаях. По крайней мере, в PCRE \w может совпадать и с другими символами. Цитируя руководство по PHP : « слово» - это любая буква или цифра или символ подчеркивания, то есть любой символ, который может быть частью «слова» Perl. Определение букв и цифр контролируется таблицами символов PCRE, и может отличаться, если имеет место специфичное для локали сопоставление. Например, в локали "fr" (французский) некоторые коды символов, превышающие 128, используются для букв с ударением, и они совпадают с \ w. "
Amal Murali 08 июнь 2014, в 19:56
0

слова включают другие символы из букв
V-SHY 15 май 2015, в 03:05
2

\w означает совпадение букв и цифр
Eugen Konkov 26 авг. 2016, в 16:10

Показать ещё 1 комментарий

Scott · Answer 10 · 2016-04-04T11-53-00.000Z

Вы использовали бы

/[a-z]/gi

[] - проверяет любые символы между заданными входами

a-z --- охватывает весь алфавит

g ----- глобально по всей строке

i ----- получение верхнего и нижнего регистра

Sławomir Lenart · Answer 11 · 2013-12-12T13-19-00.000Z

Если вы имеете в виду любые буквы в любой кодировке символов, то хорошим подходом может быть удаление небуксов, таких как пробелы \s, цифры \d и другие специальные символы, такие как:

[!@#\$%\^&\*\(\)\[\]:;'",\. ...more special chars... ]

Или используйте отрицание вышеуказанного отрицания, чтобы напрямую описывать любые буквы:

\S \D and [^  ..special chars..]

Плюсы:

Работает со всеми ароматами регулярных выражений.
Легко писать, иногда сэкономить много времени.

Минусы:

Длинные, иногда не совершенные, но кодировка символов также может быть нарушена.

Motlab · Answer 12 · 2014-07-25T15-25-00.000Z

1

Вы можете попробовать это регулярное выражение: [^\W\d_] или [a-zA-Z].

Motlab 25 июль 2014, в 15:25

0

Это не то, что означает [^\W|\d]
OGHaza 25 июль 2014, в 13:34
0

[^\W|\d] означает не \W и не | и не \d . Это имеет тот же чистый эффект, так как | является частью \W но | не работает так, как вы думаете. Даже тогда это означает, что он принимает символ _ . Вы, вероятно, ищете [^\W\d_]
OGHaza 25 июль 2014, в 14:47
0

Я согласен с вами, он принимает _ . Но "НЕ" | равно «И», поэтому [^\W|\d] означает: НЕ \W И НЕ \d
Motlab 25 июль 2014, в 15:01
9

[^ab] означает не a и не b . [^a|b] означает не a и не | и не b . Чтобы привести второй пример, [a|b|c|d] точно такой же, как [abcd|||] который в точности совпадает с [abcd|] - все из которых равны ([a]|[b]|[c]|[d]|[|]) | это буквальный символ, а не оператор ИЛИ. Оператор OR подразумевается между каждым символом в классе символов, помещая фактическую | означает, что вы хотите, чтобы класс принял | (труба) персонажа.
OGHaza 25 июль 2014, в 15:53

Показать ещё 2 комментария

Snm Maurya · Answer 13 · 2014-06-30T06-31-00.000Z

pattern =/[a-zA-Z]/

помещает "[a-zA-Z]: # {pattern.match(" my blossom ")}" ОК

помещает "[a-zA-Z]: # {pattern.match(" 456 ")}"

помещает "[a-zA-Z]: # {pattern.match(" ")}"

помещает "[a-zA-Z]: # {pattern.match(" # $% ^ & * ")}"

помещает "[a-zA-Z]: # {pattern.match(" # $% ^ & * A ")}" OK

Fikreselam Elala · Answer 14 · 2016-05-24T01-13-00.000Z

Pattern pattern = Pattern.compile("^[a-zA-Z]+$");

if (pattern.matcher("a").find()) {

   ...do something ......
}

Udeshika Sewwandi · Answer 15 · 2017-03-22T18-16-00.000Z

String string= "abcdef";

if(string.match("^[a-zA-Z]+$$")){
     System.out.println("string only contains letters");
}

он не включает в себя диакритические знаки, такие как ŹŻŚĄ