Как я grep для всех не-ASCII символов?

Question

Как я grep для всех не-ASCII символов?

292

У меня есть несколько очень больших XML файлов, и я пытаюсь найти строки, содержащие не-ASCII-символы. Я пробовал следующее:

grep -e "[\x{00FF}-\x{FFFF}]" file.xml

Но это возвращает каждую строку в файле, независимо от того, содержит ли строка символ в указанном диапазоне.

У меня синтаксис неправильный или я делаю что-то еще неправильно? Я также пробовал:

egrep "[\x{00FF}-\x{FFFF}]" file.xml

(с одиночными и двойными кавычками, окружающими шаблон).

pconrey 08 июнь 2010, в 20:06

Источник

0

Символы ASCII имеют длину только один байт, поэтому, если файл не является юникодом, не должно быть символов выше 0xFF.
zdav 08 июнь 2010, в 20:53
0

Как мы пойдем выше \ xFF? Grep выдает ошибку «grep: диапазон не по порядку в классе символов».
Mudit Jain 08 дек. 2014, в 19:16

Теги:

regex

grep

unix

unicode

10 ответов

88

Вместо того, чтобы делать предположения о байтовом диапазоне символов, отличных от ASCII, как это делает большинство из вышеперечисленных решений, это немного лучше, чем IMO, чтобы явно указывать фактический диапазон байтов символов ASCII.

Итак, первое решение, например, станет:

grep --color='auto' -P -n '[^\x00-\x7F]' file.xml

(который в основном greps для любого символа вне шестнадцатеричного диапазона ASCII: от \x00 до\x7F)

На Mountain Lion, который не будет работать (из-за отсутствия поддержки PCRE в BSD grep), но с pcre, установленным через Homebrew, следующее будет работать так же хорошо:

pcregrep --color='auto' -n '[^\x00-\x7F]' file.xml

Любые плюсы или минусы, которые любой может придумать?

pvandenberk 04 дек. 2012, в 14:19

9

Это на самом деле сработало для меня, где вышеперечисленные решения не удалось. Найти апострофы M $ Word еще проще!
AlbertEngelB 27 апр. 2015, в 20:17
1

Если у вас есть bash-совместимая оболочка, но не работает pcre-grep, LC_COLLATE=C grep $'[^\1-\177]' работает (для файлов без нулевых байтов)
idupree 03 июнь 2015, в 17:48
2

Это решение работает более последовательно, чем приведенные выше.
0xcaff 31 июль 2015, в 16:26
1

Мне пришлось использовать это, чтобы забрать кандзи, кириллицу и традиционный китайский в моем файле UTF8, используя «[\ x80- \ xFF]», пропустив все это.
jpj 13 авг. 2015, в 04:59
1

Профи это работало превосходно, в то время как другие варианты были великолепны, но не так хороши. Никаких минусов пока не найдено.
jwpfox 19 сен. 2016, в 11:03
0

что делает -n?
wide_eyed_pupil 09 май 2018, в 17:09

Показать ещё 4 комментария

68

Для меня работает следующее:

grep -P "[\x80-\xFF]" file.xml

Символы, отличные от ASCII, начинаются с 0x80 и переходят к 0xFF при просмотре байтов. Grep (и семья) не обрабатывают Юникод, чтобы объединить многобайтовые символы в единый объект для соответствия регулярных выражений, как вам кажется. Опция -P в моем grep позволяет использовать \xdd escape-последовательности в классах символов для выполнения того, что вы хотите.

Thelema 08 июнь 2010, в 23:13

1

Для представления, которое может не сразу знать, как вызвать это для нескольких файлов, просто запустите: find. имя * .xml | xargs grep -P "[\ x80- \ xFF]"
David Mohundro 17 нояб. 2010, в 03:30
1

Это возвращает совпадение, но нет никаких указаний на то, что это за персонаж и где он находится. Как увидеть, что это за персонаж и где он?
Faheem Mitha 20 окт. 2011, в 06:25
0

Добавление «-n» даст номер строки, дополнительно невидимые символы будут отображаться в терминале как блок: grep -n -P "[\ x80- \ xFF]" file.xml
fooMonster 20 окт. 2011, в 12:53
4

У меня проблема с хангыль корейским: echo '소녀시대' | grep -P "[\x80-\xFF]" ничего не возвращает для меня - кто-нибудь еще может подтвердить? (GNU grep 2.21)
frabjous 09 янв. 2015, в 02:40
0

@frabjous То же самое здесь, но работает обратное работает: echo '소녀시대' | grep -P "[^\x00-\x7F]" . Или просто используйте the_silver_searcher как указано @slf: echo '소녀시대' | ag "[\x80-\xFF]"
psmith 20 дек. 2016, в 04:30

Показать ещё 3 комментария

43

В perl

perl -ane '{ if(m/[[:^ascii:]]/) { print  } }' fileName > newFile

noquery 18 окт. 2011, в 10:37

0

Около -1 для бесполезного использования кота. См. Patrmaps.org/era/unix/award.html.
tripleee 22 фев. 2012, в 14:06
0

Я согласен с @tripleee. Вы можете редактировать свой ответ
Amit Kumar Gupta 08 фев. 2013, в 02:27
10

Я обнаружил, что это работает лучше для меня на OSX
ryanneufeld 11 дек. 2013, в 17:32
2

Хорошее решение Perl хорош в таких вещах.
MagicLAMP 26 фев. 2015, в 05:29
1

На OSX10.11 мне пришлось попробовать несколько решений grep + regex, прежде чем найти это, которое на самом деле работает
s g 03 дек. 2015, в 02:24
0

Хотите поделиться этим OSX решением @sg ?!
geotheory 04 дек. 2015, в 16:32
0

Сценарий Perl выше - это решение, о котором я говорю
s g 06 дек. 2015, в 01:04
2

perl -lne 'print if /[^[:ascii:]]/' file.xml
Naveed 27 сен. 2016, в 19:13

Показать ещё 6 комментариев

31

Простым способом является определение символа не ASCII... как символ, который не является символом ASCII.

LC_ALL=C grep '[^ -~]' file.xml

При необходимости добавьте вкладку после ^.

Настройка LC_COLLATE=C позволяет избежать неприятных сюрпризов о значении диапазонов символов во многих локалях. Настройка LC_CTYPE=C необходима для соответствия однобайтовых символов, иначе команда будет пропускать недопустимые последовательности байтов в текущей кодировке. Установка LC_ALL=C полностью исключает зависящие от локали эффекты.

Gilles 09 июль 2010, в 01:08

0

На RedHat 6.4 с tcsh мне пришлось использовать <<< env LC_COLLATE = C grep -n '[^ - ~]' file.xml >>>. Я добавил -n, чтобы получить номер строки.
ddevienne 06 фев. 2014, в 09:43
0

Для меня echo "A" | LC_COLLATE=C grep '[^ -~]' возвращает совпадение
frabjous 09 янв. 2015, в 02:54
0

@ frabjous Это не должно. Каковы ваши другие настройки локали (вывод locale )? На какой платформе?
Gilles 09 янв. 2015, в 11:11
0

locale предоставляет en_US.UTF-8 для всех соответствующих переменных, упомянутых на странице руководства grep (LC_ALL, LANG и т. д.). Тестируя немного больше, я вижу, что echo "A" | LC_ALL=C grep '[^ -~]' работает как положено, за исключением того, что если затем отправить символы Юникода в канал, они будут искажены в результате. Я на ArchLinux x86_64.
frabjous 09 янв. 2015, в 15:07
1

@frabjous Если у вас LC_ALL=en_US.UTF-8 , это превосходит настройку LC_COLLATE . Вы не должны иметь это в своей среде! LC_ALL только для того, чтобы заставить определенную задачу использовать конкретную локаль, обычно C Чтобы установить язык по умолчанию для всех категорий, установите LANG .
Gilles 09 янв. 2015, в 16:12
0

Благодарю. У меня был export LC_ALL=en_US.UTF-8 в моем .bashrc по причинам, которые я не могу вспомнить.
frabjous 09 янв. 2015, в 21:38
0

По какой-то причине эта команда занимает у меня в 30 раз больше времени (15 секунд вместо 0,5 секунд), чем у большинства проголосовавших, для файла с 1499863 строками (155 МБ).
gerrit 15 дек. 2015, в 12:35
0

@gerrit Мой хрустальный шар говорит мне, что вы используете GNU grep в многобайтовой локали. Это может быть очень медленно с некоторыми регулярными выражениями. В любом случае мой ответ был неправильным (или, по крайней мере, неполным): он пропустил бы недопустимые последовательности байтов в окружающем языковом стандарте. Попробуйте еще раз с LC_ALL=C
Gilles 15 дек. 2015, в 13:04
0

@ Жиль: Хорошо, теперь это только на 20% медленнее, чем в 30 раз :)
gerrit 15 дек. 2015, в 13:51
0

Сначала я не добавил LC_ALL=C , он ведет себя по-разному в Mac OS X и Ubuntu. После того, как я добавлю этот параметр, они дают тот же результат.
Max Peng 14 июнь 2016, в 07:23
0

Может ли это дать дополнительную выгоду в британских документах LaTeX? Он возвращает много синтаксических символов LaTeX, но я не уверен, являются ли они правильными / неправильными символами LaTeX. Тема здесь unix.stackexchange.com/q/326246/16920
Léo Léopold Hertz 준영 27 нояб. 2016, в 09:23
0

Это работает на Mac, а другие решения на основе grep - нет.
Matthias Fripp 24 окт. 2017, в 21:38

Показать ещё 10 комментариев

16

Вот еще один вариант, который я нашел, который дал совершенно разные результаты поиска grep для [\x80-\xFF] в принятом ответе. Возможно, кому-то будет полезно найти дополнительные символы не-ascii:

grep --color='auto' -P -n "[^[:ascii:]]" myfile.txt

Примечание. У моего компьютера grep (a Mac) не было опции -P, поэтому я сделал brew install grep и начал вызов выше с помощью ggrep вместо grep.

ryanm 23 март 2016, в 18:43

1

Это, безусловно, лучший ответ, поскольку он работает как для Mac, так и для Linux.
tommy.carstensen 12 март 2018, в 11:07

5

Работает следующий код:

find /tmp | perl -ne 'print if /[^[:ascii:]]/'

Замените /tmp именем каталога, который вы хотите выполнить.

user7417071 13 янв. 2017, в 23:07

1

На Mac это работает, а большинство основанных на grep - нет.
Matthias Fripp 24 окт. 2017, в 21:38

1

Странно, я должен был сделать это сегодня! Я закончил использование Perl, потому что я не мог заставить grep/egrep работать (даже в режиме -P). Что-то вроде:

cat blah | perl -en '/\xCA\xFE\xBA\xBE/ && print "found"'

Для символов Unicode (например, \u2212 в примере ниже) используйте это:

find . ... -exec perl -CA -e '$ARGV = @ARGV[0]; open IN, $ARGV; binmode(IN, ":utf8"); binmode(STDOUT, ":utf8"); while (<IN>) { next unless /\N{U+2212}/; print "$ARGV: $&: $_"; exit }' '{}' \;

dty 08 июнь 2010, в 21:49

0

Поиск непечатаемых символов.

Я согласен с Harvey выше, похороненным в комментариях, часто более полезно искать непечатаемые символы или легко думать, что не-ASCII когда вы действительно должны думать о непечатаемой. Harvey предлагает "использовать это:" [^\n - ~] ". Добавить \r для текстовых файлов DOS. Это переводится как" [^\x0A\x020 -\x07E] "и добавьте \x0D для CR"

Кроме того, добавление -c (показать количество сопоставленных шаблонов) в grep полезно при поиске непечатаемых символов, поскольку строки, сопоставленные, могут испортить терминал.

Я обнаружил, что добавление диапазона 0-8 и 0x0e-0x1f (к диапазону 0x80-0xff) является полезным шаблоном. Это исключает TAB, CR и LF и один или два необычных печатаемых символа. Таким образом, IMHO a довольно полезный (хотя и грубый) шаблон grep ЭТО один:

grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" *

пробоя:

\x00-\x08 - non-printable control chars 0 - 7 decimal
\x0E-\x1F - more non-printable control chars 14 - 31 decimal
\x80-1xFF - non-printable chars > 128 decimal
-c - print count of matching lines instead of lines
-P - perl style regexps

Instead of -c you may prefer to use -n (and optionally -b) or -l
-n, --line-number
-b, --byte-offset
-l, --files-with-matches

например. практический пример использования find для grep всех файлов в текущем каталоге:

find . -type f -exec grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" {} +

Иногда вы можете отрегулировать grep. например BS (0x08 - backspace) char используется в некоторых печатных файлах или для исключения VT (0x0B - вертикальная вкладка). Символы BEL (0x07) и ESC (0x1B) также могут считаться пригодными для печати в некоторых случаях.

Non-Printable ASCII Chars
** marks PRINTABLE but CONTROL chars that is useful to exclude sometimes
Dec   Hex Ctrl Char description           Dec Hex Ctrl Char description
0     00  ^@  NULL                        16  10  ^P  DATA LINK ESCAPE (DLE)
1     01  ^A  START OF HEADING (SOH)      17  11  ^Q  DEVICE CONTROL 1 (DC1)
2     02  ^B  START OF TEXT (STX)         18  12  ^R  DEVICE CONTROL 2 (DC2)
3     03  ^C  END OF TEXT (ETX)           19  13  ^S  DEVICE CONTROL 3 (DC3)
4     04  ^D  END OF TRANSMISSION (EOT)   20  14  ^T  DEVICE CONTROL 4 (DC4)
5     05  ^E  END OF QUERY (ENQ)          21  15  ^U  NEGATIVE ACKNOWLEDGEMENT (NAK)
6     06  ^F  ACKNOWLEDGE (ACK)           22  16  ^V  SYNCHRONIZE (SYN)
7     07  ^G  BEEP (BEL)                  23  17  ^W  END OF TRANSMISSION BLOCK (ETB)
8     08  ^H  BACKSPACE (BS)**            24  18  ^X  CANCEL (CAN)
9     09  ^I  HORIZONTAL TAB (HT)**       25  19  ^Y  END OF MEDIUM (EM)
10    0A  ^J  LINE FEED (LF)**            26  1A  ^Z  SUBSTITUTE (SUB)
11    0B  ^K  VERTICAL TAB (VT)**         27  1B  ^[  ESCAPE (ESC)
12    0C  ^L  FF (FORM FEED)**            28  1C  ^\  FILE SEPARATOR (FS) RIGHT ARROW
13    0D  ^M  CR (CARRIAGE RETURN)**      29  1D  ^]  GROUP SEPARATOR (GS) LEFT ARROW
14    0E  ^N  SO (SHIFT OUT)              30  1E  ^^  RECORD SEPARATOR (RS) UP ARROW
15    0F  ^O  SI (SHIFT IN)               31  1F  ^_  UNIT SEPARATOR (US) DOWN ARROW

gaoithe 21 сен. 2017, в 13:16

0

Интересно было бы узнать, как искать один символ Юникода. Эта команда может помочь. Вам нужно только знать код в UTF8

grep -v $'\u200d'

arezae 21 дек. 2016, в 11:11

0

Я не совсем эксперт, но знаю достаточно, чтобы понять, что это не представление UTF8, это UTF16, или, может быть, UTF32 или UCS16. Для двухбайтовой кодовой точки эти три могут быть одинаковыми.
Baxissimo 11 апр. 2018, в 18:01

Ещё вопросы

Символы ASCII имеют длину только один байт, поэтому, если файл не является юникодом, не должно быть символов выше 0xFF.
Как мы пойдем выше \ xFF? Grep выдает ошибку «grep: диапазон не по порядку в классе символов».
Это на самом деле сработало для меня, где вышеперечисленные решения не удалось. Найти апострофы M $ Word еще проще!
Если у вас есть bash-совместимая оболочка, но не работает pcre-grep, LC_COLLATE=C grep $'[^\1-\177]' работает (для файлов без нулевых байтов)
Это решение работает более последовательно, чем приведенные выше.
Мне пришлось использовать это, чтобы забрать кандзи, кириллицу и традиционный китайский в моем файле UTF8, используя «[\ x80- \ xFF]», пропустив все это.
Профи это работало превосходно, в то время как другие варианты были великолепны, но не так хороши. Никаких минусов пока не найдено.
Для представления, которое может не сразу знать, как вызвать это для нескольких файлов, просто запустите: find. имя * .xml | xargs grep -P "[\ x80- \ xFF]"
Это возвращает совпадение, но нет никаких указаний на то, что это за персонаж и где он находится. Как увидеть, что это за персонаж и где он?
Добавление «-n» даст номер строки, дополнительно невидимые символы будут отображаться в терминале как блок: grep -n -P "[\ x80- \ xFF]" file.xml
У меня проблема с хангыль корейским: echo '소녀시대' | grep -P "[\x80-\xFF]" ничего не возвращает для меня - кто-нибудь еще может подтвердить? (GNU grep 2.21)
@frabjous То же самое здесь, но работает обратное работает: echo '소녀시대' | grep -P "[^\x00-\x7F]" . Или просто используйте the_silver_searcher как указано @slf: echo '소녀시대' | ag "[\x80-\xFF]"
Около -1 для бесполезного использования кота. См. Patrmaps.org/era/unix/award.html.
Я согласен с @tripleee. Вы можете редактировать свой ответ
Я обнаружил, что это работает лучше для меня на OSX
Хорошее решение Perl хорош в таких вещах.
На OSX10.11 мне пришлось попробовать несколько решений grep + regex, прежде чем найти это, которое на самом деле работает
Хотите поделиться этим OSX решением @sg ?!
Сценарий Perl выше - это решение, о котором я говорю
На RedHat 6.4 с tcsh мне пришлось использовать <<< env LC_COLLATE = C grep -n '[^ - ~]' file.xml >>>. Я добавил -n, чтобы получить номер строки.
Для меня echo "A" | LC_COLLATE=C grep '[^ -~]' возвращает совпадение
@ frabjous Это не должно. Каковы ваши другие настройки локали (вывод locale )? На какой платформе?
locale предоставляет en_US.UTF-8 для всех соответствующих переменных, упомянутых на странице руководства grep (LC_ALL, LANG и т. д.). Тестируя немного больше, я вижу, что echo "A" | LC_ALL=C grep '[^ -~]' работает как положено, за исключением того, что если затем отправить символы Юникода в канал, они будут искажены в результате. Я на ArchLinux x86_64.
@frabjous Если у вас LC_ALL=en_US.UTF-8 , это превосходит настройку LC_COLLATE . Вы не должны иметь это в своей среде! LC_ALL только для того, чтобы заставить определенную задачу использовать конкретную локаль, обычно C Чтобы установить язык по умолчанию для всех категорий, установите LANG .
Благодарю. У меня был export LC_ALL=en_US.UTF-8 в моем .bashrc по причинам, которые я не могу вспомнить.
По какой-то причине эта команда занимает у меня в 30 раз больше времени (15 секунд вместо 0,5 секунд), чем у большинства проголосовавших, для файла с 1499863 строками (155 МБ).
@gerrit Мой хрустальный шар говорит мне, что вы используете GNU grep в многобайтовой локали. Это может быть очень медленно с некоторыми регулярными выражениями. В любом случае мой ответ был неправильным (или, по крайней мере, неполным): он пропустил бы недопустимые последовательности байтов в окружающем языковом стандарте. Попробуйте еще раз с LC_ALL=C
@ Жиль: Хорошо, теперь это только на 20% медленнее, чем в 30 раз :)
Сначала я не добавил LC_ALL=C , он ведет себя по-разному в Mac OS X и Ubuntu. После того, как я добавлю этот параметр, они дают тот же результат.
Может ли это дать дополнительную выгоду в британских документах LaTeX? Он возвращает много синтаксических символов LaTeX, но я не уверен, являются ли они правильными / неправильными символами LaTeX. Тема здесь unix.stackexchange.com/q/326246/16920
Это работает на Mac, а другие решения на основе grep - нет.
Это, безусловно, лучший ответ, поскольку он работает как для Mac, так и для Linux.
На Mac это работает, а большинство основанных на grep - нет.
Я не совсем эксперт, но знаю достаточно, чтобы понять, что это не представление UTF8, это UTF16, или, может быть, UTF32 или UCS16. Для двухбайтовой кодовой точки эти три могут быть одинаковыми.

jerrymouse · Accepted Answer · 2012-02-22T14-12-00.000Z

387

Лучший ответ

Вы можете использовать команду:

grep --color='auto' -P -n "[\x80-\xFF]" file.xml

Это даст вам номер строки и выделит красные символы не-ascii.

В некоторых системах, в зависимости от ваших настроек, вышеуказанное не будет работать, поэтому вы можете grep с помощью обратного

grep --color='auto' -P -n "[^\x00-\x7F]" file.xml

Обратите внимание, что важным битом является флаг -P, который равен --perl-regexp: поэтому он будет интерпретировать ваш шаблон как регулярное выражение Perl. В нем также говорится, что

это очень экспериментально, и grep -P может предупредить о невыполнении особенности.

jerrymouse 22 фев. 2012, в 14:12

36

Это не будет работать в grep BSD (на OS X 10.8 Mountain Lion), так как он не поддерживает опцию P
Bastiaan M. van de Weerd 22 окт. 2012, в 09:54
20

Чтобы обновить мой последний комментарий, GNU-версия grep доступна в библиотеке dupes Homebrew (включите с помощью brew tap homebrew/dupes ): brew install grep
Bastiaan M. van de Weerd 22 окт. 2012, в 10:03
44

@BastiaanVanDeWeerd правильно, grep в OSX 10.8 больше не поддерживает PCRE («Perl-совместимые регулярные выражения»), так как Дарвин теперь использует BSD grep вместо GNU grep. Альтернативой установке библиотеки dupes является установка вместо этого pcre : brew install pcre ... как часть этого, вы получите утилиту pcregrep , которую вы можете использовать следующим образом: pcregrep --color='auto' -n "[\x80-\xFF]" file.xml
pvandenberk 04 дек. 2012, в 11:24
0

Имейте в виду, что использование флага -n означает снижение производительности. Обычно это не имеет большого значения, но это если вы работаете с очень большими файлами (как вы уже упоминали).
Vinay 31 июль 2013, в 00:10
0

Вы также можете использовать grep -f pattern.txt. Поместите ваш шаблон (не символы в кодировке Unicode, а просто кириллический текст) в pattern.txt. Это работает с кириллицей.
display_name 09 окт. 2013, в 06:02
0

это продолжает быть полезным ответом более года спустя. У меня есть проблема, при которой я запускаю jekyllrb, запускаемый по правилам incron, и когда я вручную запускаю команду jekyll build, все работает нормально, но по какой-то причине, когда команда jekyll build запускается incron, она заканчивается удушением: «ArgumentError: invalid «ошибка в последовательности байтов в US-ASCII», и пока я все еще пытаюсь разобраться с проблемой кодирования так, чтобы все обрабатывалось как UTF-8, этот ответ по крайней мере позволил мне найти оскорбительные символы, чтобы он начал работать в это время.
Stephen Washburn 29 нояб. 2013, в 01:27
15

Для пользователей Mac brew coreutils GNU может быть установлен с помощью brew install coreutils . Это даст вам множество инструментов GNU с префиксом «g» - в этом случае используйте ggrep . Это должно избежать проблем, возникающих при замене системной утилиты, поскольку системные сценарии Mac теперь зависят от grep BSD.
Joel Purra 24 июнь 2014, в 07:37
18

это отлично работает на Mac Mac ag "[\x80-\xFF]" file вам просто нужно установить the_silver_searcher
slf 07 авг. 2014, в 15:52
1

Я обнаружил, что когда большинство людей говорят «не ASCII», они имеют в виду «не для печати». Итак, было бы лучше использовать это: "[^ \ n - ~]". Добавьте \ r для текстовых файлов DOS. Это переводится как «[^ \ x0A \ x020- \ x07E]» и \ x0D для \ r.
Harvey 03 окт. 2014, в 13:18
2

@JoelPurra coreutils, похоже, не включает grep.
mjs 02 нояб. 2014, в 17:06
0

Если у вас нет GNU grep, но есть Perl, может сработать что-то вроде этого: perl -ne 'chomp, printf("%s: %s\n", $ARGV, $_) if /[^\n -~]/' file.xml .
mjs 02 нояб. 2014, в 17:07
0

@mjs: упс Это brew install homebrew/dupes/grep или brew install grep если вы уже сделали brew tap homebrew/dupes . Он установил его через точечные файлы Матиаса Биненса и принял его за программу coreutils.
Joel Purra 03 нояб. 2014, в 21:21
2

У меня проблема с хангыль корейским: echo '소녀시대' | grep -P "[\x80-\xFF]" ничего не возвращает для меня - кто-нибудь еще может подтвердить? (GNU grep 2.21)
frabjous 09 янв. 2015, в 02:39
0

Эта команда не будет включать китайские символы, как упоминалось в @frabjous, корейские символы тоже были исключены. Ответ pvandenberk ниже вполне может решить эту проблему.
Zen 16 апр. 2015, в 03:59
4

Префикс этой команды с LC_ALL=C ! В моей системе (где LANG=en_US.UTF-8 ) только эта команда не может найти в файле UTF-8 фигурный апостроф '( Right single quotation mark / U+2019 ), который очень часто используется программным обеспечением MS вместо ASCII один
calandoa 23 апр. 2015, в 14:29
0

Чтобы добавить к тому, что написал frabjous и calandoa, здесь также не хватает U + 2013: EN DASH в файле UTF-8 и, вероятно, также в UTF-16 (я не тестировал UTF-16). Это было полезно для хорошего поиска первого порядка.
twm 20 дек. 2015, в 16:58
0

Вы можете часто использовать «pcregrep», если ваш системный grep не содержит расширения perl. Тем не менее, это хороший шанс, что у вас не будет pcregrep либо. Но часто проще установить pcregrep, который мог бы упаковать ваш поставщик, чем создать свой собственный grep. :)
dannysauer 01 фев. 2016, в 18:35
0

Как мне grep для U + 2028?
kev 20 окт. 2016, в 23:19
0

@kev Поскольку U + 2028 кодируется как e2 80 a8 вы можете искать его так: ag "\xe2\x80\xa8" . Обратите внимание, что grep -P "\xe2\x80\xa8" не работал для меня с GNU grep 2.27.
psmith 20 дек. 2016, в 04:39
0

Похоже, это работает для файлов Unicode, но не для файлов Iso-latin-1 / Windows-1252 (это 8-битные наборы символов, которые имеют символы не ascii, такие как Ã © (акценты, авторские права) и т. Д. В позициях 128-255).
ttulinsky 05 янв. 2017, в 17:49
1

Обратите внимание, что если символ является неразрывным пробелом (& nbsp), он НЕ будет отображаться красным, поскольку он печатается как пробел. Команда LC_ALL=C grep '[^ -~]' file.xml из LC_ALL=C grep '[^ -~]' file.xml Gilles ниже DOES показывает & nbsp как недопустимый символ (ромб с вопросительным знаком) как для файлов utf-8, так и для файлов Iso-latin-1 / Windows-1252
ttulinsky 05 янв. 2017, в 18:22
0

А для тех, кто хочет / должен обрабатывать много файлов, вы можете объединить команду с командой find ; например, find . -type f | xargs grep --color='auto' -P -n "[^\x00-\x7F]"
code_dredd 05 нояб. 2017, в 03:52
0

В GitBash для Windows, как -n и escape-последовательности, по-видимому, не нужны, так как для меня хорошо работало следующее : grep -P '\d+[А-Яа-я]+' AW.md
Mike Makarov 17 фев. 2018, в 12:52

Показать ещё 21 комментарий