парсинг строки utf8 из ответа сервера

Question

парсинг строки utf8 из ответа сервера

0

Я реализовал приложение на каком-то устройстве, которое занималось отправкой данных с сервера. Данные с сервера обычно бывают в форме:

"1;username;someInteger;"

Анализ был простым, и я использовал strtok как вы можете себе представить, чтобы получить отдельные значения из этой строки, такие как: 1, username и someInteger.

Но теперь может возникнуть ситуация, когда сервер отправит мне строку unicode в качестве username.

Я думаю, хорошая идея - использовать имя пользователя, закодированное как строка UTF-8 (правильно?). Что вы рекомендуете - как следует разбирать его из строки? Какой символ использовать как разделитель, например (например, вместо ";") или какие функции использовать для извлечения имени username из строки выше?

поскольку это какое-то встроенное устройство, я хочу избежать установки там некоторых сторонних библиотек (что может быть даже невозможно), поэтому более "чистые" способы были бы более желательными.

Some programmer dude 30 окт. 2013, в 10:15

Источник

0

Избегайте strtok . Это не потокобезопасно. Вместо этого используйте boost::split .
rightfold 30 окт. 2013, в 08:52
1

@rightfold Избегайте boost для простой замены strtok() . Это слишком большое. Используйте strtok_r() .
user529758 30 окт. 2013, в 08:52
1

@H2CO3: H2CO3: Да, как я уже говорил, это встроенное устройство - я пока пытаюсь избежать установки там больших сторонних библиотек (не уверен, даже если это возможно)
user2793162 30 окт. 2013, в 08:53
0

@H2CO3 H2CO3 Вы видели исходный код strtok или сгенерированный для него двоичный код? это "маленький" по сравнению с "boost :: split"?
Abyx 30 окт. 2013, в 09:54
0

@Abyx Где все мои комментарии? Что касается вашего вопроса: вот реализация strtok() , а вот iter_split() которую использует boost::algorithm::string::split() iter_split() boost::algorithm::string::split() . В целом, strtok() меньше SLOC, чем утилита boost, но имеет то преимущество, что он 1. стандартный, 2. не требует включения огромных заголовков, 3. он также работает на C.
user529758 30 окт. 2013, в 10:21

Показать ещё 3 комментария

Теги:

c++

c

2 ответа

0

Сама вещь с UTF8 заключается в том, что вам практически ничего не нужно делать. Символы ASCII по-прежнему кодируются как те же ASCII-байты, что и всегда, поэтому, если вы просто продолжаете использовать разделители с запятой, вам вообще не нужно ничего делать.

Dolda2000 30 окт. 2013, в 06:02

0

Я думаю, что strtok может остановиться, если между ними встречается «нулевой завершающий символ» - не может ли быть так, что строка Unicode содержит несколько символов между двумя разделителями (;), что strtok будет интерпретировать как нулевой завершающий символ?
user2793162 30 окт. 2013, в 08:58
0

Нет: единственный "нулевой завершающий символ" - это ASCII 0, он же NUL. Ни одна кодировка UTF-8 не содержит каких-либо символов NUL, кроме как для самого NUL, что, опять же, так же, как и в обычном ASCII.
Dolda2000 31 окт. 2013, в 05:02

Ещё вопросы

Избегайте strtok . Это не потокобезопасно. Вместо этого используйте boost::split .
@rightfold Избегайте boost для простой замены strtok() . Это слишком большое. Используйте strtok_r() .
@H2CO3: H2CO3: Да, как я уже говорил, это встроенное устройство - я пока пытаюсь избежать установки там больших сторонних библиотек (не уверен, даже если это возможно)
@H2CO3 H2CO3 Вы видели исходный код strtok или сгенерированный для него двоичный код? это "маленький" по сравнению с "boost :: split"?
@Abyx Где все мои комментарии? Что касается вашего вопроса: вот реализация strtok() , а вот iter_split() которую использует boost::algorithm::string::split() iter_split() boost::algorithm::string::split() . В целом, strtok() меньше SLOC, чем утилита boost, но имеет то преимущество, что он 1. стандартный, 2. не требует включения огромных заголовков, 3. он также работает на C.
Я думаю, что strtok может остановиться, если между ними встречается «нулевой завершающий символ» - не может ли быть так, что строка Unicode содержит несколько символов между двумя разделителями (;), что strtok будет интерпретировать как нулевой завершающий символ?
Нет: единственный "нулевой завершающий символ" - это ASCII 0, он же NUL. Ни одна кодировка UTF-8 не содержит каких-либо символов NUL, кроме как для самого NUL, что, опять же, так же, как и в обычном ASCII.

Some programmer dude · Accepted Answer · 2013-10-30T06-26-00.000Z

4

Лучший ответ

Персонаж ';' то же самое в UTF-8, как и в ASCII, поскольку 127 первых символов в обоих кодировках одинаковы. Это означает, что вы все еще можете использовать strtok для разделения на ';' ,

Some programmer dude 30 окт. 2013, в 06:26

0

Я слышал, что strtok может "остановиться", если между ними встречается "завершающий нулевой символ" - не может ли быть так, что строка Unicode содержит несколько символов между двумя разделителями (;), что strtok будет интерпретировать как нулевой завершающий символ?
user2793162 30 окт. 2013, в 08:56
2

@dmcr_code no, многобайтовые последовательности содержат только байты со значениями> = 128 (или <0, в зависимости от подписи символа), поэтому любой байт ASCII является точкой кода ASCII. Там нет кодовой точки, кроме нулевого символа, который содержит нулевой байт (см. stackoverflow .com / questions / 6907297 / can-utf-8-содержать нулевой байт ). Другими слова: если strtok встречает нулевые байты, то нулевой ограничитель и ничего другого. То же самое относится к любому другому значению ASCII:
Arne Mertz 30 окт. 2013, в 09:00
0

хорошо, это звучит нормально.
user2793162 30 окт. 2013, в 09:06
2

Значение: ; не может быть найден как часть многобайтовой последовательности, поэтому вы не получите ложных срабатываний.
Arne Mertz 30 окт. 2013, в 09:07
0

@Arne Mertz: хорошо, я понял, мне просто интересно, может быть, в строке есть символы не ascii, кодовое значение которых (например, кодовая точка), например: 45 00 - тогда strtok будет интерпретировать последний байт этого символа как ноль терминатор верно? (но я думаю, что вы сказали, что это не может быть так)
user2793162 30 окт. 2013, в 09:09
3

@ dmcr_code да, этого не может быть. Ни 45, ни 00 не могут быть частью многобайтовой последовательности (не кодовая точка ASCII) - они содержат только значения> 80 (шестнадцатеричный)
Arne Mertz 30 окт. 2013, в 09:15

Показать ещё 4 комментария