Regex для символов слова на любом языке

Question

Regex для символов слова на любом языке

8

Проверяя механизм регулярного выражения PHP, я вижу, что он считает, что только [0-9A-Za-z_] является символом слова. Буквы не-ASCII-языков, таких как иврит, не соответствуют символам слова с [\w]. Существуют ли какие-либо последовательности escape-кода в PHP или Perl, которые будут соответствовать букве на любом языке? Я мог бы добавлять диапазоны для каждого алфавита, который, как я ожидаю, будет использоваться, но пользователи всегда удивят нас неожиданными языками!

Обратите внимание, что это не для фильтрации безопасности, а для токенизации текста.

dotancohen 27 сен. 2012, в 19:09

Источник

Теги:

php

regex