Как удалить не алфавитно-цифровые символы?

Question

Как удалить не алфавитно-цифровые символы?

247

Мне нужно удалить все символы из строки, которые не находятся в a-z A-Z 0-9, или не являются пробелами.

Есть ли у кого-нибудь функция для этого?

zuk1 18 март 2009, в 17:00

Источник

Теги:

php

string

regex

8 ответов

113

Для символов Unicode это:

preg_replace("/[^[:alnum:][:space:]]/u", '', $string);

voondo 17 июнь 2013, в 15:52

8

Теперь это реальный ответ! +1
CdB 11 июль 2013, в 22:30
0

привет voondo, что с / UI вещь .. как вы это называете? Может кто-нибудь, пожалуйста, пролить мне немного света. Спасибо.
kebyang 28 фев. 2014, в 07:39
9

U: Unicode, я: без учета регистра
voondo 04 апр. 2014, в 14:07
4

Для пояснения они называются флагами. Они помещаются после закрывающего разделителя (в данном случае это «/», но это может быть «~» или «@» или любой другой символ, который вы хотите использовать, если открывающий и закрывающий разделители совпадают) и изменяют поведение выражения.
Doktor J 13 апр. 2014, в 22:04
1

Кстати, \w включает \w себя \d поэтому \d не нужно. Кроме того, это неправильно, потому что в результирующей строке также будут оставаться подчеркивания (которые также включены в \w ).
smathy 16 авг. 2014, в 20:42
1

@smathy: ответ отредактирован, спасибо!
voondo 28 авг. 2014, в 10:46
2

В этом все еще есть ошибка, классы символов должны заканчиваться символом ':], поэтому правильная строка будет выглядеть так: preg_replace ("/ [^ [: alnum:] [: space:]] / ui",' ', $ строка);
h00ligan 17 нояб. 2014, в 14:03
1

@ Schooligan: исправлено, спасибо! извините за вводящую в заблуждение информацию ...
voondo 17 нояб. 2014, в 15:18
3

Действительно ли здесь необходим флаг i поскольку [:alnum:] уже охватывает оба случая?
billynoah 25 сен. 2015, в 12:28

Показать ещё 7 комментариев

39

Регулярное выражение - ваш ответ.

$str = preg_replace('/[^a-z\d ]/i', '', $str);

i означает регистр, нечувствительный к регистру.
^ означает, что не начинается с.
\d соответствует любой цифре.
a-z соответствует всем символам между a и z. Из-за параметра i вам не нужно указывать a-z и a-z.
После \d есть пробел, поэтому в этом регулярном выражении допускаются пробелы.

raspi 18 март 2009, в 18:25

3

Мы хотим объяснения по этому поводу :). Люди приходят сюда, чтобы понять, почему это так. Пожалуйста, рассмотрите объяснение Regex тоже! Не каждый достаточно продвинут, чтобы знать, что вы там написали без объяснения причин. Спасибо
Pratik C Joshi 06 дек. 2015, в 10:48
0

@PratikCJoshi Я стоит без учета регистра. ^ означает, не начинается с. \ d соответствует любой цифре. az соответствует всем символам между a и z. Из-за параметра i вам не нужно указывать az и AZ. После \ d есть пробел, поэтому пробелы разрешены в этом регулярном выражении.
bart 10 фев. 2016, в 04:21
1

Люди не читают комментарии как ответ. Пожалуйста, обновите ответ!
Pratik C Joshi 10 фев. 2016, в 08:54

Показать ещё 1 комментарий

14

здесь действительно простое регулярное выражение для этого:

\W|_

и используется по мере необходимости (с помощью разделителя /).

preg_replace("/\W|_/", '', $string);

Проверьте это здесь с помощью этого замечательного инструмента, который объясняет, что делает регулярное выражение:

http://www.regexr.com/

Alex Stephens 17 окт. 2014, в 10:24

1

Вам все еще нужен флаг /u противном случае не-буквы ascii также удаляются.
Xeoncross 30 дек. 2014, в 19:52
0

Этот сайт потрясающий. Хороший ресурс!
Aaron Gillion 29 май 2015, в 21:17
0

Аккуратно, но также будет соответствовать пробелам и, если это необходимо, возможно, удвоит производительность, используя класс символов и дополнительный квантификатор для одного или нескольких [\W_]+
bobble bubble 31 дек. 2016, в 02:00

Показать ещё 1 комментарий

1

[\W_]+

$string = preg_replace("/[\W_]+/u", '', $string);

Он выбирает все не A-Z, a-z, 0-9 и удаляет его.

См. пример здесь: https://regexr.com/3h1rj

Intacto 25 окт. 2017, в 20:48

1

что означает это регулярное выражение / [\ W _] + / u?
Ângelo Rigo 04 дек. 2017, в 17:38

0

preg_replace("/\W+/", '', $string)

Вы можете протестировать его здесь: http://regexr.com/

DOZ 26 июль 2017, в 14:42

0

Согласно @Alex Stevens, это не подчеркивает подчеркивание "_".
Ariel Allon 11 авг. 2017, в 18:38

0

Я тоже искал ответ, и мое намерение состояло в том, чтобы очистить все не-альфы, и не должно быть больше одного места.
Итак, я модифицировал Alex на это, и это работает для меня preg_replace('/[^a-z|\s+]+/i', ' ', $name)
Регулярное выражение выше получило sy8ed sirajul7_islam до sy ed sirajul islam
Объяснение: regex будет проверять НЕ ЛЮБОЕ от a до z в случае нечувствительного пути или более чем в одном пробеле, и он будет преобразован в одно пространство.

ssi-anik 16 дек. 2016, в 21:36

-9

i использую это:

//to remove non english character
$str = preg_replace('/[^\00-\255]+/u', '', $str);

Hoàng Vũ Tgtt 26 апр. 2015, в 23:24

8

Это все виды неправильно. Он не делает ничего, как вы думаете, он делает. Это восьмеричные. Восьмеричное 255 - это действительно 173 десятичное или 0xAD гекс. То, что вы написали, эквивалентно [^\x00-\xAD] где 0xAD - это кодовая точка для SOFT HYPEN. Даже если вы делали это правильно, [^\x00-\xFF] совершенно бессмысленно и неправильно.
tchrist 27 апр. 2015, в 00:18
2

Хотя код ценится, у него всегда должно быть сопутствующее объяснение. Это не должно быть долго, но это ожидается.
peterh 27 апр. 2015, в 00:31

Ещё вопросы

привет voondo, что с / UI вещь .. как вы это называете? Может кто-нибудь, пожалуйста, пролить мне немного света. Спасибо.
Для пояснения они называются флагами. Они помещаются после закрывающего разделителя (в данном случае это «/», но это может быть «~» или «@» или любой другой символ, который вы хотите использовать, если открывающий и закрывающий разделители совпадают) и изменяют поведение выражения.
Кстати, \w включает \w себя \d поэтому \d не нужно. Кроме того, это неправильно, потому что в результирующей строке также будут оставаться подчеркивания (которые также включены в \w ).
@smathy: ответ отредактирован, спасибо!
В этом все еще есть ошибка, классы символов должны заканчиваться символом ':], поэтому правильная строка будет выглядеть так: preg_replace ("/ [^ [: alnum:] [: space:]] / ui",' ', $ строка);
@ Schooligan: исправлено, спасибо! извините за вводящую в заблуждение информацию ...
Действительно ли здесь необходим флаг i поскольку [:alnum:] уже охватывает оба случая?
Мы хотим объяснения по этому поводу :). Люди приходят сюда, чтобы понять, почему это так. Пожалуйста, рассмотрите объяснение Regex тоже! Не каждый достаточно продвинут, чтобы знать, что вы там написали без объяснения причин. Спасибо
@PratikCJoshi Я стоит без учета регистра. ^ означает, не начинается с. \ d соответствует любой цифре. az соответствует всем символам между a и z. Из-за параметра i вам не нужно указывать az и AZ. После \ d есть пробел, поэтому пробелы разрешены в этом регулярном выражении.
Люди не читают комментарии как ответ. Пожалуйста, обновите ответ!
Вам все еще нужен флаг /u противном случае не-буквы ascii также удаляются.
Этот сайт потрясающий. Хороший ресурс!
Аккуратно, но также будет соответствовать пробелам и, если это необходимо, возможно, удвоит производительность, используя класс символов и дополнительный квантификатор для одного или нескольких [\W_]+
что означает это регулярное выражение / [\ W _] + / u?
Согласно @Alex Stevens, это не подчеркивает подчеркивание "_".
Это все виды неправильно. Он не делает ничего, как вы думаете, он делает. Это восьмеричные. Восьмеричное 255 - это действительно 173 десятичное или 0xAD гекс. То, что вы написали, эквивалентно [^\x00-\xAD] где 0xAD - это кодовая точка для SOFT HYPEN. Даже если вы делали это правильно, [^\x00-\xFF] совершенно бессмысленно и неправильно.
Хотя код ценится, у него всегда должно быть сопутствующее объяснение. Это не должно быть долго, но это ожидается.

Chad Birch · Accepted Answer · 2009-03-18T17-27-00.000Z

502

Лучший ответ

Похоже, вы почти знали, что вы хотели сделать, вы в основном определили его как регулярное выражение.

preg_replace("/[^A-Za-z0-9 ]/", '', $string);

Chad Birch 18 март 2009, в 17:27

8

zuk1: regexbuddy - большая помощь в этом
relipse 12 май 2014, в 17:13
2

Вот пример, если вы хотите включить дефис в качестве разрешенного символа. Мне это нужно, потому что мне нужно было удалить запрещенные символы из имени пользователя Moodle на основе адресов электронной почты: preg_replace ("/ [^ a-z0-9 _. @ \ -] /", '', $ string);
Evan Donovan 22 май 2014, в 15:17
1

Будет ли это работать точно так же с апострофами (одинарными кавычками) вокруг регулярного выражения вместо кавычек (двойных кавычек)? Например: preg_replace('/[^A-Za-z0-9 ]/', '', $string);
jtheletter 20 март 2015, в 17:46
2

Мы хотим объяснения по этому поводу :). Люди приходят сюда, чтобы понять, почему это так. Пожалуйста, рассмотрите объяснение Regex тоже! Спасибо
Pratik C Joshi 06 дек. 2015, в 10:44
0

Гораздо лучший ответ ниже.
i-g 04 март 2016, в 11:03
1

Что если мы хотим сохранить подчеркнутых персонажей?
wonzbak 23 июнь 2016, в 09:00
0

Никто не любит регулярные выражения, они наслаждаются результатами и используют его, но никто не любит синтаксис
Mayhem 29 дек. 2016, в 00:09

Показать ещё 5 комментариев