Как я могу наилучшим образом угадать кодировку, когда отсутствует спецификация (метка порядка байтов)?

Question

Как я могу наилучшим образом угадать кодировку, когда отсутствует спецификация (метка порядка байтов)?

27

Моя программа должна читать файлы, которые используют различные кодировки. Они могут быть ANSI, UTF-8 или UTF-16 (большой или маленький конец).

Когда у нас есть спецификация (байтовый порядок), у меня нет проблем. Я знаю, если файл UTF-8 или UTF-16 BE или LE.

Я хотел предположить, когда не было спецификации, что файл был ANSI. Но я обнаружил, что файлы, с которыми я имею дело, часто пропускают их спецификацию. Поэтому никакая спецификация не может означать, что файл ANSI, UTF-8, UTF-16 BE или LE.

Если в файле нет спецификации, какой способ лучше сканировать какой-либо файл и наиболее точно угадать тип кодирования? Я бы хотел быть рядом почти в 100% случаев, если файл ANSI и в высоком 90, если это формат UTF.

Я ищу общий алгоритмический способ определить это. Но я действительно использую Delphi 2009, который знает Unicode и имеет класс TEncoding, поэтому что-то конкретное для этого было бы бонусом.

Ответ:

Ответ ShreevatsaR заставил меня искать в Google "универсальный детектор детекции кодирования", который удивил меня тем, что этот пост был указан в позиции №1 после того, как он был жив всего лишь около 45 минут! Это быстро googlebotting! И также удивительно, что Stackoverflow попадает в первое место так быстро.

Вторая запись в Google была в блоге Fred Eaker на Обнаружение кодировки символов, в котором перечислены алгоритмы на разных языках.

Я нашел упоминание о Delphi на этой странице, и это привело меня прямо к Free Detector ChsDet Charset Detector в SourceForge, написанному на Delphi и на основе компонента Mozilla i18n.

Fantastic! Спасибо всем, кто ответил (все +1), спасибо ShreevatsaR, и еще раз спасибо Stackoverflow, за то, что помогли мне найти мой ответ менее чем за час!

lkessler 16 дек. 2008, в 22:10

Источник

1

Спасибо за редактирование! ChsDet, кажется, работает!
Edwin Yip 22 фев. 2012, в 16:43

Теги:

algorithm

delphi

delphi-2009

encoding

byte-order-mark

4 ответа

4

Вот как это делает блокнот

Существует также python Universal Encoding Detector, который вы можете проверить.

Igal Serban 17 дек. 2008, в 00:06

2

MS скрыл факты
Windows programmer 16 дек. 2008, в 23:20
0

IsTextUnicode - хороший первый шаг. Затем он говорит, что использует ietf.org/rfc/rfc2279.txt?number=2279 для определения UTF-8, но это не говорит о том, что тестировать.
lkessler 16 дек. 2008, в 23:21
0

На самом деле, WP, это en.wikipedia.org/wiki/Bush_hid_the_facts (некоторые шутки нужно объяснить).
Alan Moore 17 дек. 2008, в 00:07
1

На самом деле моя версия "MS скрыл факты" (без кавычек, конечно). Попытайся.
Windows programmer 17 дек. 2008, в 00:22

Показать ещё 2 комментария

3

Мое предположение:

Сначала проверьте, имеет ли файл байтовые значения меньше 32 (кроме полей tab/newlines). Если это так, это не ANSI или UTF-8. Таким образом - UTF-16. Просто нужно разобраться в контенте. Для этого вы, вероятно, должны использовать некоторую таблицу действительных кодов символов Unicode. Если вы столкнулись с недействительными кодами, попробуйте другой аргумент, если это соответствует. Если они подходят (или нет), проверьте, какой из них имеет больший процент буквенно-цифровых кодов. Кроме того, вы можете попробовать найти строки для разрывов строк и определить их сущность. Помимо этого, у меня нет никаких идей, как проверить подлинность.
Если файл не содержит значений меньше 32 (кроме указанного пробела), это, вероятно, ANSI или UTF-8. Попробуйте разобрать его как UTF-8 и посмотреть, есть ли у вас какие-либо недопустимые символы Unicode. Если вы это сделаете, это, вероятно, ANSI.
Если вы ожидаете документы в неанглийских однобайтовых или многобайтовых кодировках, отличных от Юникода, то вам не повезло. Лучшее, что вы можете сделать, это нечто вроде Internet Explorer, которое создает гистограмму символов и сравнивает его с гистограммами известных языков. Он работает довольно часто, но иногда терпит неудачу. И вам нужно будет иметь большую библиотеку гистограмм букв для каждого языка.

Vilx- 17 дек. 2008, в 00:30

2

Хм, я часто вижу байты со значениями меньше 32 в моих текстовых файлах. Такие вещи, как \ n, \ r и \ t. Редко и другие.
Michael Burr 16 дек. 2008, в 23:17
1

ASCII, большинство кодовых страниц ANSI и UTF-8 понимают такие символы, как возврат каретки, перевод строки, горизонтальная табуляция, нулевой символ и т. Д., У которых значения байтов меньше 32.
Windows programmer 16 дек. 2008, в 23:19
0

Честная оценка. Я изменю пост.
Vilx- 16 дек. 2008, в 23:21
0

Я хотел сказать ANSI, а не ASCII в вопросе. Я изменил вопрос сейчас. Вы можете изменить свой ответ, чтобы отразить это.
lkessler 16 дек. 2008, в 23:25

Показать ещё 2 комментария

1

ASCII? Никакая современная ОС не использует ASCII. Все они используют 8-битные коды, по крайней мере, это означает UTF-8, ISOLatinX, WinLatinX, MacRoman, Shift-JIS или что-то еще там.

Единственный тест, который я знаю, - проверить недействительные символы UTF-8. Если вы найдете что-нибудь, тогда вы знаете, что это не может быть UTF-8. То же самое возможно для UTF-16. Но когда он не будет установлен в Unicode, тогда будет сложно определить, какая из кодовых страниц Windows может быть.

Большинство редакторов, с которыми я знаю, справляются с этим, позволяя пользователю выбрать значение по умолчанию из списка всех возможных кодировок.

Существует код для проверки правильности символов UTF.

Thomas Tempelmann 16 дек. 2008, в 23:21

0

Извините, я имею в виду не ANSI, не ASCII. Я отредактирую это.
lkessler 16 дек. 2008, в 23:17
0

В Windows все еще есть драйверы устройств. Если ваш код ядра не 7-битный, вы пожалеете об этом.
Windows programmer 16 дек. 2008, в 23:18
0

@ Windows программист: что значит, что код ядра должен быть 7-битным чистым? Большинство (все?) Драйверов должны иметь дело с Unicode - хотя иногда проблема заключается в правильном преобразовании из MBCS в Unicode (я использую OEM или кодовую страницу по умолчанию? И т. Д.).
Michael Burr 16 дек. 2008, в 23:27
0

ОК, код, который обрабатывает имена файлов, должен копировать и преобразовывать символьные строки в переменные (PUNICODE и т. Д.), Но исходный код все еще должен быть 7-битным чистым для правильной компиляции во время компиляции.
Windows programmer 17 дек. 2008, в 00:21

Показать ещё 2 комментария

Ещё вопросы

Спасибо за редактирование! ChsDet, кажется, работает!
IsTextUnicode - хороший первый шаг. Затем он говорит, что использует ietf.org/rfc/rfc2279.txt?number=2279 для определения UTF-8, но это не говорит о том, что тестировать.
На самом деле, WP, это en.wikipedia.org/wiki/Bush_hid_the_facts (некоторые шутки нужно объяснить).
На самом деле моя версия "MS скрыл факты" (без кавычек, конечно). Попытайся.
Хм, я часто вижу байты со значениями меньше 32 в моих текстовых файлах. Такие вещи, как \ n, \ r и \ t. Редко и другие.
ASCII, большинство кодовых страниц ANSI и UTF-8 понимают такие символы, как возврат каретки, перевод строки, горизонтальная табуляция, нулевой символ и т. Д., У которых значения байтов меньше 32.
Я хотел сказать ANSI, а не ASCII в вопросе. Я изменил вопрос сейчас. Вы можете изменить свой ответ, чтобы отразить это.
Извините, я имею в виду не ANSI, не ASCII. Я отредактирую это.
В Windows все еще есть драйверы устройств. Если ваш код ядра не 7-битный, вы пожалеете об этом.
@ Windows программист: что значит, что код ядра должен быть 7-битным чистым? Большинство (все?) Драйверов должны иметь дело с Unicode - хотя иногда проблема заключается в правильном преобразовании из MBCS в Unicode (я использую OEM или кодовую страницу по умолчанию? И т. Д.).
ОК, код, который обрабатывает имена файлов, должен копировать и преобразовывать символьные строки в переменные (PUNICODE и т. Д.), Но исходный код все еще должен быть 7-битным чистым для правильной компиляции во время компиляции.

ShreevatsaR · Accepted Answer · 2008-12-17T00-06-00.000Z

Возможно, вы можете выложить на Python script, который использует Chardet: универсальный детектор кодирования. Это повторная реализация обнаружения кодировки символов, используемая Firefox, и используется много разных приложений. Полезные ссылки: код Mozilla, исследовательский документ, он основывался на (по иронии судьбы, мой Firefox не смог правильно определить кодировку этой страницы), короткое объяснение, подробное объяснение.

Оооо. Это именно тот тип алгоритма, который я ищу. Теперь, если бы я мог выяснить, как это работает, или просто найти эквивалент Delphi ...
Согласно документации, это Python-порт Mozilla cpp-кода. Последний находится по адресу mxr.mozilla.org/seamonkey/source/extensions/universalchardet/… Не знаю, какое воплощение легче перенести!
(продолжение) Версия CPP, как представляется, более подробно прокомментирована, что может помочь при переносе.
Все ссылки умерли. Можете ли вы попытаться восстановить их?