std :: wstring VS std :: string

Question

std :: wstring VS std :: string

651

Я не могу понять различия между std::string и std::wstring. Я знаю, что wstring поддерживает широкие символы, такие как символы Unicode. У меня есть следующие вопросы:

Когда следует использовать std::wstring над std::string?
Может ли std::string удерживать весь набор символов ASCII, включая специальные символы?
Поддерживается ли std::wstring всеми популярными компиляторами С++?
Что такое "широкий характер"?

paercebal 31 дек. 2008, в 03:04

Источник

10

Набор символов ASCII не имеет большого количества «специальных» символов, наиболее экзотичным, вероятно, является `(обратная цитата). std :: string может содержать около 0,025% всех символов Unicode (обычно 8-битный символ)
MSalters 02 янв. 2009, в 14:24
1

Если под «специальным» вы подразумеваете символы от 128 до 255, которые зависят от используемой нормы, то да, они поддерживаются.
Zonko 09 июнь 2011, в 23:42
3

Хорошую информацию о широких символах и типе их использования можно найти здесь: programmers.stackexchange.com/questions/102205/…
Yariv 14 март 2012, в 11:19
14

Ну, а так как мы в 2012 году, был написан utf8everywhere.org . Он в значительной степени отвечает на все вопросы о правах и ошибках с C ++ / Windows.
Pavel Radzivilovsky 21 июнь 2012, в 04:19
39

@MSalters: std :: string может содержать 100% всех символов Юникода, даже если CHAR_BIT равен 8. Это зависит от кодировки std :: string, которая может быть UTF-8 на системном уровне (как почти везде, кроме окон ) или на уровне вашего приложения. Родное узкое кодирование не поддерживает Unicode? Нет проблем, просто не используйте его, вместо этого используйте UTF-8.
ybungalobill 22 июнь 2012, в 10:19
1

Что касается приложений на основе WinAPI, очень неудобно использовать std :: string, потому что вы теряете конверсии (UNICODE <-> ANSI), которые происходят очень часто. Конечно, вы можете использовать псевдонимы ANSI функций WinAPI, но они являются только макросами, которые неявно преобразуют ваши закодированные в ANSI аргументы в аргументы UNICODE и вызывают «настоящий» код API на основе ALL UNICODE (см. J.Richter, «Программирование Windows», 5-е издание). .)
DaddyM 17 май 2013, в 16:11
8

Отличное чтение на эту тему: utf8everywhere.org
Timothy Shields 05 авг. 2013, в 18:29

Показать ещё 5 комментариев

Теги:

c++

string

unicode

wstring

c++-faq

12 ответов

Ещё вопросы

Набор символов ASCII не имеет большого количества «специальных» символов, наиболее экзотичным, вероятно, является `(обратная цитата). std :: string может содержать около 0,025% всех символов Unicode (обычно 8-битный символ)
Если под «специальным» вы подразумеваете символы от 128 до 255, которые зависят от используемой нормы, то да, они поддерживаются.
Хорошую информацию о широких символах и типе их использования можно найти здесь: programmers.stackexchange.com/questions/102205/…
Ну, а так как мы в 2012 году, был написан utf8everywhere.org . Он в значительной степени отвечает на все вопросы о правах и ошибках с C ++ / Windows.
@MSalters: std :: string может содержать 100% всех символов Юникода, даже если CHAR_BIT равен 8. Это зависит от кодировки std :: string, которая может быть UTF-8 на системном уровне (как почти везде, кроме окон ) или на уровне вашего приложения. Родное узкое кодирование не поддерживает Unicode? Нет проблем, просто не используйте его, вместо этого используйте UTF-8.
Что касается приложений на основе WinAPI, очень неудобно использовать std :: string, потому что вы теряете конверсии (UNICODE <-> ANSI), которые происходят очень часто. Конечно, вы можете использовать псевдонимы ANSI функций WinAPI, но они являются только макросами, которые неявно преобразуют ваши закодированные в ANSI аргументы в аргументы UNICODE и вызывают «настоящий» код API на основе ALL UNICODE (см. J.Richter, «Программирование Windows», 5-е издание). .)
Отличное чтение на эту тему: utf8everywhere.org

paercebal · Answer 1 · 2008-12-31T13-15-00.000Z

<код > строкакод > ? <Код > wstringкод > ?

std:: string является basic_string на char и std:: wstring на wchar_t.

`char` vs. `wchar_t`

char должен содержать символ, обычно 1-байтовый символ. wchar_t должен содержать широкий символ, а затем все становится сложно: в Linux код wchar_t равен 4 байтам, а в Windows - 2 байта

как насчет Unicode, то?

Проблема заключается в том, что ни char, ни wchar_t напрямую не привязан к unicode.

В Linux?

Давайте возьмем ОС Linux: моя система Ubuntu уже знает о unicode. Когда я работаю с строкой char, она закодирована в UTF-8 (т.е. Unicode строка символов). Следующий код:

  #include <cstring>
#include <iostream>

int main (int argc, char * argv [])
{  const char text [] =    "olé"  ;

  std:: cout < "sizeof (char):" < sizeof (char) < std:: endl;  std:: cout < "текст:" < текст < std:: endl;  std:: cout < "sizeof (текст):" < sizeof (текст) < std:: endl;  std:: cout < "strlen (текст):" < < strlen (текст) < std:: endl;
  std:: cout < "text (bytes):";
  для (size_t я = 0, iMax = strlen (текст); я < iMax; ++ i)  {     std:: cout < "" < static_cast < unsigned int > (                             static_cast < unsigned char > (текст [i])                         );  }
  std:: cout < std:: endl < std:: endl;
  // - - -
  const wchar_t wtext [] = L    "olé"  ;
  std:: cout < "sizeof (wchar_t):" < < sizeof (wchar_t) < std:: endl;  //std:: cout <  "wtext:"  < wtext < std:: endl; < - ошибка  std:: cout < msgstr "wtext: НЕОБХОДИМО СОХРАНЯТЬСЯ." & Л; < std:: endl;  std:: wcout < L  "wtext:"  < wtext < станд:: епсИ;
  std:: cout < "sizeof (wtext):" < < sizeof (wtext) < std:: endl;  std:: cout < "wcslen (wtext):" < < wcslen (wtext) < std:: endl;
  std:: cout < "wtext (bytes):";
  для (size_t я = 0, iMax = wcslen (wtext); я < iMax; ++ i)  {     std:: cout < "" < static_cast < unsigned int > (                             static_cast < unsigned short > (wtext [i])                             );  }
  std:: cout < std:: endl < std:: endl;
  return 0;
}
Код>

выводит следующий текст:

  sizeof (char): 1
текст: olé
sizeof (текст): 5
strlen (текст): 4
текст (байты): 111 108 195 169

sizeof (wchar_t): 4
wtext: НЕОБХОДИМО РАЗРАБОТАТЬСЯ.
wtext: ol  
sizeof (wtext): 16
wcslen (wtext): 3
wtext (bytes): 111 108 233
Код>

Вы увидите, что текст "olé" в char действительно построен четырьмя символами: 110, 108, 195 и 169 (не считая конечного нуля). (Я рассмотрю код wchar_t как упражнение)

Итак, при работе с char в Linux вы обычно должны использовать Unicode, даже не зная об этом. И поскольку std::string работает с char, поэтому std::string уже готов к юникоду.

Обратите внимание, что std:: string, как и API-интерфейс C, рассмотрит строку "olé" , чтобы иметь 4 символа, а не три. Поэтому вы должны быть осторожны при усечении/игре с символами unicode, потому что некоторая комбинация символов запрещена в UTF-8.

В Windows?

В Windows это немного отличается. Win32 должен был поддерживать большое количество приложений, работающих с char и на разных кодировках/кодовые страницы, выпущенные во всем мире, до появления Юникода.

Поэтому их решение было интересным: если приложение работает с char, то символьные строки кодируются/распечатываются/отображаются на ярлыках GUI, используя локальную кодировку/кодировку на машине. Например, "olé" будет "olé" в локализованной на французском языке Windows, но будет что-то особенное на кириллической локализованной Windows ( "olй", если вы используете Windows-1251). Таким образом, "исторические приложения", как правило, все еще работают по-старому.

Для приложений на базе Unicode Windows использует wchar_t, который имеет ширину 2 байта и кодируется в UTF-16, который кодируется в кодировке Unicode на двухбайтовых символах (или, по крайней мере, в основном совместимом UCS-2, что почти то же самое, что и IIRC).

Приложения с использованием char называются "multibyte" (потому что каждый глиф состоит из одного или нескольких символов char s), тогда как приложения, использующие wchar_t называются "широкоформатными" (потому что каждый глиф состоит из одного или двух wchar_t). См. MultiByteToWideChar и WideCharToMultiByte Преобразование Win32 API для получения дополнительной информации.

Таким образом, если вы работаете в Windows, вы плохо хотите использовать wchar_t (если вы не используете фреймворк, скрывающий это, например GTK + или QT...). Дело в том, что за кулисами Windows работает с строками wchar_t, поэтому даже при использовании исторических API в wchar_t строки char будут отображаться символы char) например, SetWindowText (низкоуровневая функция API для установки метки в графическом интерфейсе Win32).

Проблемы с памятью?

UTF-32 имеет 4 байта на каждый символ, поэтому добавлять нечего, если только текст UTF-8 и текст UTF-16 будут всегда использовать меньше или одинаковый объем памяти, чем текст UTF-32 ( и обычно меньше).

Если проблема с памятью, то вы должны знать, чем для большинства западных языков, текст UTF-8 будет использовать меньше памяти, чем тот же самый UTF-16.

Тем не менее, для других языков (китайский, японский и т.д.) используемая память будет либо одинаковой, либо большей для UTF-8, чем для UTF-16.

В общем, UTF-16 будет в основном использовать 2 байта на каждый символ (если вы не имеете дело с какими-то эзотерическими языковыми глифами (Klingon? Elvish?), в то время как UTF-8 будет тратить от 1 до 4 байтов.

См. http://en.wikipedia.org/wiki/UTF-8 # Compared_to_UTF-16 для получения дополнительной информации.

Заключение

<я > 1. Когда я должен использовать std:: wstring над std:: string?

В Linux? Почти никогда (§).
В Windows? Почти всегда (§).
По межплатформенному коду? Зависит от вашего инструментария...

(§): если вы не используете инструментарий/фреймворк, говорящий иначе

2. Может ли std::string удерживать все ASCII-символы, включая специальные символы?

Примечание. std::string подходит для хранения "двоичного" буфера, где std:: wstring не является!

В Linux? Да.
В Windows? Доступны только специальные символы для текущего языка пользователя Windows.

Изменить (после комментария Johann Gerell): a std::string будет достаточно для обработки всех основанных на символах строк (каждый символ имеет число от 0 до 255). Но:

ASCII должен идти от 0 до 127. Высшие символы НЕ ASCII.
символ с 0 по 127 будет корректно проведен.
char от 128 до 255 будет иметь значение в зависимости от вашей кодировки (unicode, non-unicode и т.д.), но он сможет хранить все символы Unicode, если они закодированы в UTF-8.

<я > 3. Является std:: wstring, поддерживаемым почти всеми популярными компиляторами С++?

В основном, за исключением компиляторов на основе GCC, которые переносятся на Windows
Он работает на моем g++ 4.3.2 (под Linux), и я использовал Unicode API на Win32 с Visual С++ 6.

<я > 4. Что такое широкий символ?

В C/С++ это тип символа, написанный wchar_t, который больше, чем простой тип символа char. Предполагается, что он используется для ввода внутри символов, индексы (например, символы Unicode) больше 255 (или 127, в зависимости от...)

Hum. Я не знал, что Windows не соответствует спецификации POSIX в этом отношении. POSIX говорит, что wchar_t должен быть способен представлять «различные коды широких символов для всех членов самого большого набора символов, указанного среди локалей, поддерживаемых средой компиляции».
@gnud: Возможно, wchar_t должно было быть достаточно для обработки всех символов UCS-2 (большинства символов UTF-16) до появления UTF-16 ... Или, возможно, у Microsoft были другие приоритеты, кроме POSIX, например, предоставление простого доступа к Unicode без изменения кодированной страницы с использованием char на Win32.
@gnud: обратите внимание на определение wchar_t, цитируемое в Википедии: en.wikipedia.org/wiki/Wchar_t ... Очевидно, что whcar_t в Windows следует тому, что задал Unicode ... ^ _ ^ ...
Ваш ответ очень хорошо объясняет различия между двумя альтернативами. Примечание: UTF-8 может занимать 1-6 байтов, а не 1-4, как вы написали. Также я хотел бы видеть мнение людей между двумя альтернативами.
@ Сорин Sbarnea: UTF-8 может занимать 1-6 байтов, но, очевидно, стандарт ограничивает его 1-4. Смотрите en.wikipedia.org/wiki/UTF8#Description для получения дополнительной информации.
Компиляция и выполнение вашего кода в Mac OS X дает тот же вывод, что и на вашем компьютере с Linux.
@ Вольфганг Плашг: Спасибо за информацию. Это не является неожиданным, поскольку MacOS X является Unix, так что это кажется естественным, они пошли по пути "char is UTF-8" для поддержки Unicode ... AFAIK, единственные причины, по которым Windows не пошла по тому же пути, заключались в продолжении поддержки для старых приложений на основе кодировки до Unicode.
@paercebal UTF-8 не может занимать 6 байтов. Именно потому, что стандарт ограничивает его до 4 байтов. Стандарт определяет вещи, так что 6 байтов означает, что это больше не UTF-8, по определению.
@ Михай Нита: UTF-8 cannot take 6 bytes. Exactly because the the standard limits it to 4 bytes. , Согласен. Я с вами очень согласен, я уже писал об этом в предыдущем комментарии: @Sorin Sbarnea: UTF-8 could take 1-6 bytes, but apparently the standard limits it to 1-4. ... ^ _ ^ ... Полагаю, смысл моего замечания состоял в том, чтобы напомнить, что ограничение 4 было искусственным, что кодировка, используемая UTF-8, могла поддерживать до 6 байтов для 1-байтового символа, даже если стандарт решил ограничить его до 4.
Я хочу сделать #include <stdlib.h> std :: wstring ws; ws + = wchar (2591); / * 25% символ тени * / std :: wcout << ws; но это дает мне пустой вывод. КАК мне вставить определенное большое число символов Юникода в строку wstring и вывести его?
@ Джим Майклз: Вы пытаетесь вывести символ x0A1F (Гурмухи). wchar_t может содержать этот символ, поэтому ваша строка верна. Если вывод wcout не верен, это может быть связано с тем, что использование шрифта для консоли вывода не готово для символов Гурмухи ( unicode.org/charts/PDF/U0A00.pdf )
В то время как эти примеры дают разные результаты для Linux и Windows, программа на C ++ содержит поведение, определяемое реализацией, относительно того, кодируется ли olè как UTF-8 или нет. Более того, причина, по которой вы не можете напрямую передавать поток wchar_t * в std::cout заключается в том, что типы несовместимы, что приводит к некорректной работе программы и не имеет ничего общего с использованием кодировок. Стоит отметить, что то, используете ли вы std::string или std::wstring зависит от ваших собственных предпочтений кодирования, а не от платформы, особенно если вы хотите, чтобы ваш код был переносимым.
@JohnLeidegren: While this examples produces different results on Linux and Windows the C++ program contains implementation-deﬁned behavior as to whether olè is encoded as UTF-8 or not. : Да. Действительно, смысл был показать это. Further more, the reason you cannot natively stream wchar_t * to std::cout is because the types are incompatible resulting in an ill-formed program and it has nothing to do with the use of encodings. : В самом деле. Я приводил несколько комбинаций, и, если это невозможно, объяснял, почему в коде, для полноты картины, не делая того, что вы предлагаете ...
@John Leidegren: It's worth pointing out that whether you use std::string or std::wstring depends on your own encoding preference rather than the platform : действительно. Но тогда, если ограничения «использовать юникод, не используя 4 байта для каждого символа», платформа в значительной степени ограничивает ваши параметры, то есть std::wstring в Windows и std::string в Linux ... ( Вы можете попытаться использовать UTF-8 std::string в Windows, но тогда ваши строки UTF-8 не будут поняты WinAPI с использованием char * . )
@paercebal Независимо от того, что поддерживает платформа, она совершенно произвольна и, кроме того, важна. Если вы храните все строки внутри себя как UTF-8 в Windows, вам придется конвертировать их в ANSI или UTF-16 и вызывать соответствующую функцию Win32, но если вы знаете, что ваши строки UTF-8 являются просто простыми строками ASCII, вы этого не сделаете надо делать что угодно. Платформа не диктует, как вы используете строки, а обстоятельства.
@Джон Лейдгрен: Конечно, платформа определяет, как вы используете струны. В Windows у вас нет выбора: строки char имеют определенную кодовую страницу / кодировку, поэтому необходимо определить, как вы используете std::string , либо при написании преобразователей, либо с помощью специальных функций кодовой страницы. Что касается std::wstring , если вы не используете интерфейс преобразования, вы знаете, что кодировка должна быть версией UTF-16 для Windows (в прошлый раз, когда я проверял, это была UCS-2), таким образом, как вы интерпретируете символы в этом контексте. Как я понимаю, это « как », а не « обстоятельства ». Но давайте не будем терять время на словарный запас ...
Windows на самом деле использует UTF-16 и уже довольно давно, старые версии Windows использовали UCS-2, но это уже не так. Моя единственная проблема здесь заключается в выводе, что std::wstring следует использовать в Windows, потому что он лучше подходит для Unicode Windows API, который я считаю ошибочным. Если ваша единственная задача - вызывать Unicode Windows API, а не сортировать строки, тогда, конечно, но я не покупаю это как общий случай.
@ Джон Лейдгрен: If your only concern was calling into the Unicode Windows API and not marshalling strings then sure : Тогда мы согласны. Я пишу на C ++, а не JavaScript. В основе этого языка лежит предотвращение бесполезной сортировки или любой другой потенциально дорогостоящей обработки во время выполнения, когда это может быть выполнено во время компиляции. Кодирование с использованием WinAPI и использование std::string - это просто неоправданная трата ресурсов времени выполнения. Вы находите это ошибочным, и это нормально, так как это ваша точка зрения. Мой собственный - я не буду писать код с пессимизацией в Windows только потому, что он выглядит лучше со стороны Linux.
@gnud: посмотрите этот замечательный ответ, чтобы узнать, почему требование POSIX (на самом деле это требование C ++) не нарушает использование кодирования переменной длины.
В качестве небольшой коррекции кодирование UTF-16 может занимать 2 или 4 байта на символ. (см. unicode.org/faq/utf_bom.html#gen6 )
@lfalin: Действительно. В первый раз, когда я говорю о широких символах в Windows, я описываю, как Windows не совсем ясно (по крайней мере, для меня) о том, как она обрабатывает «Unicode» (что такое UCS-2 или UTF-16?). Во второй раз я пишу о размере символа: «В общем, UTF-16 будет в основном использовать 2 байта на символы (если вы не имеете дело с какими-то глифами эзотерического языка (клингон? Эльфийский?), В то время как UTF» -8 потратит от 1 до 4 байт. », Что более или менее соответствует тому, что вы говорите (ключевое слово« в основном »). Я думаю, что в моем ответе следует уточнить позицию Windows по этому вопросу.
Интересно отметить, что если вы выполняете cout перед wcout символы юникода не будут печататься с wcout . Однако, если вы начинаете с wcout , то cout «ы даже не печатает, и весь Юникод печатает правильно печатать. Почти как если бы какое-то внутреннее состояние сохранялось в библиотеках?
@paercebal: Только примечание: один из тех экзотических языков - китайский между прочим. Таким образом, КНР решила сделать поддержку некоторых кодовых точек вне BMP обязательной довольно давно.
«при работе с char в Linux вы должны в конечном итоге использовать Unicode, даже не зная об этом. А так как std :: string работает с char, значит, std :: string уже готов к Unicode». - это должно сопровождаться БОЛЬШИМ предупреждением «никогда не обрезай, ограничивай, возьми символ» в твоих строках. Это можно понять из всего ответа, но должно быть сделано очень ясно.
{0x42, 0x65, 0x6E, 0x6A, 0x61, 0x6D, 0xED, 0x6E, 0x20, 0x70, 0x69, 0x64, 0x69, 0xF3, 0x20, 0x75, 0x6E, 0x61, 0x20, 0x62, 0x65, 0x62, 0x6, 062 , 0x20, 0x64, 0x65, 0x20, 0x6B, 0x69, 0x77, 0x69, 0x20, 0x79, 0x20, 0x66, 0x72, 0x65, 0x73, 0x61, 0x3B, 0x20, 0x4E, 0x6F, 0x6F, 0x69, 0x73C , 0x6E, 0x20, 0x76, 0x65, 0x72, 0x67, 0xFC, 0x65, 0x6E, 0x7A, 0x61, 0x2C, 0x20, 0x6C, 0x61, 0x20, 0x6D, 0xE1, 0x73, 0x20, 0x65, 0x75, 0x75, 0x75 , 0x73, 0x69, 0x74, 0x61, 0x20, 0x63, 0x68, 0x61, 0x6D, 0x70, 0x61, 0xF1, 0x61, 0x20, 0x64, 0x65, 0x6C, 0x20, 0x6D, 0x65, 0x6E, 0x6E, 0xFA, 0xF2, 0x6, 0x0, 0x2, 0x0, 0x2, 0x2, 0x2, 0x2, 0x2, 0x2, 0x2, 0x2, 0x2, 0x2
@ Мишель: Ничего, это просто последовательность байтов. Он не может быть интерпретирован как UTF8, но выглядит интерпретируемым как UTF16. Или любую из тысячи кодовых страниц.
@paercebal Я понимаю, что эта ветка комментариев так же стара, как и само время, но настаивать на совпадении формата строки WinAPI по соображениям производительности просто глупо. Стоимость самих вызовов API приведет к снижению затрат на конвертацию; затраты на производительность дополнительного хранилища, необходимого для строк UTF-16, вероятно, сведут на нет любые потенциальные выгоды, связанные с преобразованием; и если вы общаетесь с другими API, вам, вероятно, все равно придется выполнять преобразования. См. Utf8everywhere.org/#faq.cvt.perf для примера.
Для программы Windows, которая получает свои данные в виде строк в кодировке UTF-8, нет смысла конвертировать все в wchar_t . Конвертировать только по прямому взаимодействию с WinAPI. Пока компилятор работает с кодировкой UTF-8, я не вижу смысла wchar_t предпочтение wchar_t над char . Как обычно, это зависит от требований.
В настоящее время Windows 10, наконец, позволяет UTF-8 в качестве локальной кодировки ...

Pavel Radzivilovsky · Answer 2 · 2009-12-29T16-35-00.000Z

Я рекомендую избегать std::wstring в Windows или в другом месте, за исключением случаев, когда это требуется интерфейсом или где-либо рядом с вызовами Windows API и соответствующими преобразованиями кодировки в качестве синтаксического сахара.

Мое мнение представлено в http://utf8everywhere.org, автором которого я являюсь.

Если ваше приложение не ориентировано на API, например, в основном приложение UI, предложение состоит в том, чтобы хранить строки Unicode в std :: string и кодироваться в UTF-8, выполняя преобразование рядом с вызовами API. Преимущества, изложенные в статье, перевешивают явное раздражение конверсии, особенно в сложных приложениях. Это вдвойне подходит для многоплатформенной и библиотечной разработки.

И теперь, отвечая на ваши вопросы:

Несколько слабых причин. Он существует по историческим причинам, где считается, что широкополосные каналы являются надлежащим способом поддержки Unicode. Теперь он используется для интерфейса API, которые предпочитают строки UTF-16. Я использую их только в непосредственной близости от таких вызовов API.
Это не имеет никакого отношения к std :: string. Он может содержать любую кодировку, которую вы вкладываете в нее. Вопрос только в том, как вы относитесь к этому контенту. Моя рекомендация - UTF-8, поэтому он сможет корректно хранить все символы юникода. Это обычная практика в Linux, но я думаю, что Windows-программы тоже должны это делать.
Нет.
Широкий характер - запутанное имя. В первые дни Unicode существовало убеждение, что символ может быть закодирован в два байта, отсюда и название. Сегодня это означает "любая часть персонажа, длина которой составляет два байта". UTF-16 рассматривается как последовательность таких пар байтов (aka Wide characters). Символ в UTF-16 принимает одну или две пары.

Frunsi · Answer 3 · 2011-11-07T06-47-00.000Z

35

Итак, каждый читатель здесь должен иметь четкое представление о фактах, ситуации. Если нет, то вы должны прочитать paercebal исключительно полный ответ [btw: thanks!].

Мой прагматический вывод потрясающе прост: все, что С++ (и STL) "кодирование символов" существенно нарушено и бесполезно. Обвините его в Microsoft или нет, это все равно не поможет.

Мое решение, после глубокого изучения, много разочарований и последующего опыта заключается в следующем:

соглашайтесь с тем, что вы должны нести ответственность за свои материалы для кодирования и преобразования (и вы увидите, что большая часть его довольно тривиальная)
используйте std::string для любых кодированных строк UTF-8 (всего лишь typedef std::string UTF8String)
согласитесь, что такой объект UTF8String является просто тупым, но дешевым контейнером. Никогда не обращайтесь к ним и/или не манипулируйте ими непосредственно (без поиска, замены и т.д.). Вы могли бы, но вы действительно просто действительно не хотите тратить свое время на написание алгоритмов манипуляции текста для многобайтовых строк! Даже если другие люди уже делали такие глупые вещи, не делайте этого! Будь как будет! (Ну, есть сценарии, где это имеет смысл... просто используйте библиотеку ICU для них).
используйте std:: wstring для кодированных строк UCS-2 (typedef std::wstring UCS2String) - это компромисс и уступка беспорядку, введенная WIN32 API). UCS-2 достаточно для большинства из нас (подробнее об этом позже...).
использовать экземпляры UCS2String всякий раз, когда требуется доступ к символьным символам (чтение, манипулирование и т.д.). Любая обработка на основе символов должна выполняться в N-многобайтовом представлении. Это просто, быстро и легко.
добавить две служебные функции для конвертирования между UTF-8 и UCS-2:
```
UCS2String ConvertToUCS2( const UTF8String &str );
UTF8String ConvertToUTF8( const UCS2String &str );
```

Конверсии просты, google должен помочь здесь...

Что это. Используйте UTF8String везде, где важна память, и для всех входов/выходов UTF-8. Используйте UCS2String везде, где строка должна анализироваться и/или обрабатываться. Вы можете конвертировать между этими двумя представлениями в любое время.

Альтернативы и улучшения

конверсии из однобайтовых кодировок символов (например, ISO-8859-1) могут быть реализованы с помощью простых таблиц перевода, например. const wchar_t tt_iso88951[256] = {0,1,2,...}; и соответствующий код для преобразования в UCS2 и из него.
если UCS-2 недостаточно, чем переключиться на UCS-4 (typedef std::basic_string<uint32_t> UCS2String)

ICU или другие библиотеки Unicode?

Для продвинутых материалов.

Frunsi 07 нояб. 2011, в 06:47

0

Черт, нехорошо знать, что встроенной поддержки Unicode нет.
Mihai Danila 15 дек. 2013, в 16:59
0

@Frunsi, мне любопытно узнать, пробовал ли ты Glib :: ustring и если да, что ты думаешь?
Caroline Beltran 19 сен. 2014, в 19:44
0

@CarolineBeltran: Я знаю Glib, но я никогда не использовал его, и, вероятно, никогда даже не буду его использовать, потому что он довольно ограничен довольно неопределенной целевой платформой (unixoid системы ...). Его порт Windows основан на внешнем уровне win2unix, и, по-моему, там вообще нет уровня совместимости с OSX. Все эти вещи явно направлены в неправильном направлении, по крайней мере, для моего кода (на этом уровне арки ...) ;-) Итак, Glib не вариант
Frunsi 20 сен. 2014, в 05:01
0

Я думаю, что пункты 2 и 3 кричат, чтобы НЕ использовать std :: string для utf8. Если вы все еще хотите сэкономить в памяти, то создайте подкласс std :: string, чтобы вы получали по крайней мере утверждения и предупреждения при использовании substr, concat и length и, в основном, любых функциональных возможностей, влияющих на работу с содержимым. Лично я советую использовать строки wstrings для строк Unicode, независимо от того, используете ли вы utf8, 16 или 32 или ucs-2. Вам будет намного легче проводить IO с ними. В настоящее время даже компоненты пользовательского интерфейса правильно работают со строками Юникода, поэтому преобразование с понижением частоты необходимо только при работе со старыми компонентами.
StarShine 07 окт. 2014, в 14:25
0

@StarShine & @CarolineBeltran: Может быть ... Но создание подкласса std::string приводит к еще одному взгляду на проблему, который является просто еще одним неправильным видом "std :: string", как это уже делает сама std :: string. Комплексное решение будет содержать std::string которая отличается между проблемами расположения памяти и проблемами последовательности символов. Так, для начала, например, std :: string должен иметь метод size() и метод nchars() .
Frunsi 08 окт. 2014, в 01:59
0

Кстати: даже C ++ 11x, C ++ 14x, ни какие-либо будущие стандарты, и никто другой еще не заботился об этой проблеме. Итак, I18N в C ++ все еще остается тем, где решения все еще ожидаются ...
Frunsi 08 окт. 2014, в 02:01
0

Ох и @StarShine: прочитайте полный ответ, пожалуйста. Это не так просто, как вы думаете.
Frunsi 08 окт. 2014, в 02:13
0

@ Фрунси: Ах, может быть, я пропустил это. Как ваша typedef "UTF8String" приводит к комплексному решению, которое отличается между проблемами расположения памяти и проблемами последовательности символов? В лучшем случае это инструмент рефакторинга, но не решение. Во-первых, удачи, заставляющие nchars () войти в стандарт. Во-вторых, как вы можете быть уверены, что сторонние библиотеки не перебивают ваши последовательности utf8? Наконец, utf8 сложнее анализировать и отлаживать. Если вы используете wstring и ucs2 или правильный utf16 с самого начала, ваш отладчик отобразит правильную китайскую строку, без необходимости ломать ее вместе из байт-кодов.
StarShine 08 окт. 2014, в 08:39
0

@StarShine: определение типа UTF8String не является всеобъемлющим решением. Это просто прагматичное решение, которое работает (в большинстве случаев, в большинстве случаев). ИМХО пришло время людям, работающим в области стандартов C ++, предложить лучшее решение. Основы (Unicode и его различные схемы кодирования, такие как UTF8 и UCS-2, здесь и здесь, чтобы остаться), так что сейчас самое время ;-)
Frunsi 10 окт. 2014, в 13:21
0

@StarShine: Обратите также внимание, что мое решение будет иметь те же проблемы, что и UCS-2, например, при работе с китайскими строками! Таким образом, это действительно просто прагматичная вещь, а не комплексное решение.
Frunsi 10 окт. 2014, в 13:25
6

Поиск, замена и т. Д. Прекрасно работает со строками UTF-8 (часть последовательности байтов, представляющая символ, никогда не может быть неверно истолкована как другой символ). На самом деле, UTF-16 и UTF-32 совсем не упрощают этого: на практике все три кодирования являются многобайтовыми кодировками, потому что воспринимаемый пользователем символ (кластер графем) может иметь любое количество кодовых точек юникода! Прагматичное решение - использовать UTF-8 для всего и конвертировать в UTF-16 только при работе с Windows API.
Daniel 17 окт. 2014, в 10:49
0

@ Даниель: Как вы думаете, почему прагматическое решение будет использовать UTF-8 для всего? Однобайтовый код поиска и замены может не навредить последовательности байтов UTF-8, но он также не решит и реальных проблем: P Использование UTF-8 для «всего» - неправильный путь для всех ... Использование UTF-8 для хранения и передачи это хорошо, но использование его для обработки строк приведет к экспоненциальному росту необходимого кода для обработки всех случаев и комбинаций. Может быть. Но, может быть, все символьные операции можно переписать для работы с графемами? Наверное, нет, верно? Так...
Frunsi 22 окт. 2014, в 22:44
0

@Daniel: «Поиск, замена и т. Д.» НЕ будет просто нормально работать со строками UTF-8, к сожалению, это намного сложнее, см., Например, utf8everywhere.org/#myth.strlen - и, конечно, UTF-16 и UTF-32. не делай это проще Так?
Frunsi 23 окт. 2014, в 00:23
3

@Frunsi: Поиск и замена работают так же хорошо с UTF-8, как и с UTF-32. Именно потому, что правильная обработка текста с поддержкой Unicode должна в любом случае иметь дело с «символами» с несколькими кодами, использование кодировки переменной длины, такой как UTF-8, не делает обработку строк более сложной. Так что просто используйте UTF-8 везде. Обычные строковые функции Си будут отлично работать в UTF-8 (и соответствовать порядковым сравнениям в строке Unicode), и если вам нужно что-то более языковое, вам все равно придется вызывать библиотеку Unicode, UTF-16/32 не могу спасти тебя от этого.
Daniel 23 окт. 2014, в 10:16
0

До тех пор, пока это изумительное упущение в языке не будет исправлено, посмотрите Glib::ustring , действительно интеллектуальную оболочку вокруг std::string из проекта glibmm , которая оборачивает обычные string методы с надлежащей осведомленностью о количестве отображаемых символов (не кодируя байты) / char s) в строке.
underscore_d 21 май 2017, в 14:06
0

Как std::string работает с UTF-8? Я думал, что std::string использует char , который составляет всего 1 байт?
Aaron Franke 27 фев. 2019, в 09:50

Показать ещё 14 комментариев

Johannes Schaub - litb · Answer 4 · 2008-12-31T13-36-00.000Z

Если вы хотите иметь широкие символы, хранящиеся в вашей строке. wide зависит от реализации. Visual С++ по умолчанию имеет значение 16 бит, если я правильно помню, в то время как настройки GCC по умолчанию зависят от цели. Здесь 32 бит. Обратите внимание: wchar_t (широкий тип символа) не имеет ничего общего с юникодом. Он просто гарантировал, что он может хранить все элементы самого большого набора символов, поддерживаемые реализацией его локалями, и, по крайней мере, до тех пор, пока char. Строки unicode можно сохранить в std::string с помощью кодировки utf-8. Но это не будет понимать смысл кодов Unicode. Поэтому str.size() не даст вам количество логических символов в вашей строке, а просто количество элементов char или wchar_t, хранящихся в этой строке /wstring. По этой причине пользователи обложек gtk/glib С++ разработали класс Glib::ustring, который может обрабатывать utf-8.

Если ваш wchar_t имеет длину 32 бита, вы можете использовать utf-32 как кодировку Юникода, и вы можете хранить и обрабатывать строки юникода, используя фиксированную (utf-32 фиксированную длину) кодировку. Это означает, что ваша функция wstring s.size() вернет правильное количество элементов wchar_t и логических символов.
Да, char всегда имеет длину не менее 8 бит, что означает, что он может хранить все значения ASCII.
Да, все основные компиляторы поддерживают его.

Мне интересно о # 2. Я думал, что 7 бит будет технически действительным тоже? Или требуется иметь возможность хранить что-либо после 7-битных символов ASCII?
да, Джалф c89 определяет минимальные диапазоны для базовых типов в своей документации limit.h (для unsigned char, это 0..255 мин) и чисто двоичной системы для целочисленных типов. это следует за char, unsigned char и Sign char имеют минимальную длину в 8 бит. C ++ наследует эти правила.
«Это означает, что функция s.size () вашего wstring вернет нужное количество элементов wchar_t и логических символов». Это не совсем точно, даже для Unicode. Было бы точнее сказать кодовую точку, чем «логический символ», даже в UTF-32 данный символ может состоять из нескольких кодовых точек.
Вы, ребята, в сущности говорите, что C ++ не имеет встроенной поддержки набора символов Unicode?
«Но он не поймет значения кодовых точек юникода». На окнах ни std::wstring .
@MihaiDanila Это зависит от того, как вы определяете «нативную поддержку». Может ли он хранить последовательности символов Unicode? Абсолютно. Предоставляет ли он какой-либо стандартный класс, который может работать с такими последовательностями с точки зрения количества отображаемых в них символов, а не просто наивно индексировать / находить / и т. Д. По количеству байтов, тем самым, возможно, разбивая последовательности кодовых точек и получая вещи ужасно неправильно? И это ужасно. Это 2017 год. Я могу только надеяться, что, поскольку мы наконец-то получаем стандартную файловую систему и сетевую поддержку, возможно, реальные строки Unicode слабо видны где-то за горизонтом.
@underscore_d Поддержка хранения закодированных кодовых точек Unicode в байтах едва ли заметна как «поддержка». И, да, я согласен, что отсутствие стандартной поддержки Unicode на этом языке в 21-м веке смешно.
@MihaiDanila, по крайней мере, у нас есть std::codecvt<charNN_t, char> и т. std::codecvt<charNN_t, char> с C ++ 11 для преобразования между UTF-NN и UTF-8. Хотя std::wstring_convert устарела с C ++ 17 ...

Juan · Answer 5 · 2008-12-31T05-22-00.000Z

5

Я часто использую std::string для хранения символов utf-8 без каких-либо проблем. Я сердечно рекомендую это делать, когда взаимодействую с API, который также использует utf-8 как родной тип строки.

Например, я использую utf-8 при взаимодействии моего кода с интерпретатором Tcl.

Основная оговорка - длина std::string, это больше не количество символов в строке.

Juan 31 дек. 2008, в 05:22

1

Хуан: Вы имеете в виду, что std :: string может содержать все символы Юникода, но длина будет сообщаться неправильно? Есть ли причина, по которой он сообщает неверную длину?
Appu 31 дек. 2008, в 04:35
3

При использовании кодировки utf-8 один символ Unicode может состоять из нескольких байтов. Вот почему кодировка utf-8 меньше при использовании в основном символов из стандартного набора ascii. Вам нужно использовать специальные функции (или свернуть свои собственные), чтобы измерить количество символов Юникода.
Juan 31 дек. 2008, в 04:39
2

(Специфично для Windows) Большинство функций ожидают, что строка, использующая байты, является ASCII, а 2 байта - Unicode, более старые версии MBCS. Это означает, что если вы сохраняете 8-битный Unicode, вам придется преобразовать в 16-битный Unicode для вызова стандартной функции Windows (если только вы не используете только часть ASCII).
Greg Domjan 31 дек. 2008, в 04:58
1

Как отмечают Грег и Джоэл (о программном обеспечении), очень важно понять, как работает кодирование с API, с которым вы имеете дело. Постоянное переключение между 8 и 16-битным кодированием в системе Windows может быть неоптимальным.
Juan 31 дек. 2008, в 05:06
2

Мало того, что std :: string сообщит неверную длину, но также выведет неправильную строку. Если какой-либо символ Unicode представлен в UTF-8 в виде нескольких байтов, которые std :: string воспринимает как свои собственные символы, то ваши типичные процедуры манипулирования std :: string будут, вероятно, выводить несколько странных символов, которые являются результатом неправильной интерпретации одного из них. правильный характер.
Mihai Danila 15 дек. 2013, в 17:01
0

Если я хочу создать программу (работающую на окнах), которая будет свободно использовать много разных символов Юникода, таких как японские / китайские символы, польские буквы, кириллица и т. Д., Что я должен использовать? Будет ли достаточно UTF-8?
Kusavil 19 авг. 2014, в 12:50
0

Что сказал @ Михай Данила. Я настоятельно рекомендую не использовать std :: string для utf-8, особенно при выполнении частых строковых операций, таких как конкатенация и подстрока. Widestrings могут занимать много места, но если вы серьезно относитесь к программным продуктам и данным в многоязычном и многокультурном мире, использование std :: string становится архаичным, и попытка использовать его просто засоряет код во всех нечетных случаях места с функциями, которые «выглядят правильно» большую часть времени. Я занимаюсь разработкой игр почти 10 лет, на разных платформах, поэтому я знаю, что говорю.
StarShine 07 окт. 2014, в 09:58
2

Я предлагаю изменить ответ, чтобы указать, что строки должны рассматриваться как только контейнеры байтов, и, если байты представляют собой кодировку Unicode (UTF-8, UTF-16, ...), то вам следует использовать специальные библиотеки, которые понимают тот. Стандартные API на основе строк (длина, substr и т. Д.) Будут с треском проваливаться с многобайтовыми символами. Если это обновление будет сделано, я удалю свое понижение.
Mihai Danila 07 окт. 2014, в 14:19
0

Похоже, в стандарте C ++ нет хороших вариантов для межплатформенного международного использования. Недавно я написал текстовый графический интерфейс для программы, в которой есть пользовательские разрывы строк, семантические теги, международные символы ... После исследования нескольких подходов я выбрал std :: strings, используя UTF-8 для хранения текстовых данных, но при этом писал библиотека функций для отображения между символами и байтами, для выполнения общих строковых функций, таких как вставка текста, извлечение и поиск, а также для выполнения преобразований в другие форматы для ввода / вывода. Я пришел сюда, чтобы посмотреть, был ли сейчас лучший путь, кажется, нет.
QuesterZen 22 июнь 2017, в 01:28

Показать ещё 7 комментариев

ChrisW · Answer 6 · 2008-12-31T06-11-00.000Z

3

Если вы хотите сохранить символы "wide" (Unicode).
Да: 255 из них (исключая 0).
Да.
Здесь вводная статья: http://www.joelonsoftware.com/articles/Unicode.html

ChrisW 31 дек. 2008, в 06:11

10

std :: string может содержать 0 отлично (будьте осторожны, если вы вызываете метод c_str ())
Mr Fooz 31 дек. 2008, в 04:40
3

И, строго говоря, символ не обязательно должен быть 8 битами. :) Ваша ссылка в # 4 является обязательной для прочтения, но я не думаю, что она отвечает на вопрос. Широкий символ не имеет ничего общего с юникодом. Это просто более широкий характер. (Насколько шире зависит от ОС, но обычно 16 или 32 бит)
jalf 31 дек. 2008, в 12:08
12

широкий! = юникод! (особенно на окнах)
Pavel Radzivilovsky 05 янв. 2011, в 12:43

Показать ещё 1 комментарий

Seppo Enarvi · Answer 7 · 2011-09-11T10-49-00.000Z

Приложения, которые не удовлетворяются только 256 различными символами, имеют опции либо с использованием широких символов (более 8 бит), либо с кодировкой переменной длины (многобайтовая кодировка в терминологии С++), например, UTF-8. Широким символам обычно требуется больше места, чем кодирование с переменной длиной, но они быстрее обрабатываются. Многоязычные приложения, которые обрабатывают большие объемы текста, обычно используют широкие символы при обработке текста, но конвертируют его в UTF-8 при хранении на диске.

Единственное различие между string и a wstring - это тип данных сохраняемых символов. Строка хранит char, размер которой не менее 8 бит, поэтому вы можете использовать строки для обработки, например. ASCII, ISO-8859-15 или UTF-8. В стандарте ничего не говорится о наборе символов или кодировке.

Практически каждый компилятор использует набор символов, первые 128 символов которого соответствуют ASCII. Это также относится к компиляторам, использующим кодировку UTF-8. Важно помнить, что при использовании строк в UTF-8 или какой-либо другой кодировке переменной длины индексы и длины измеряются в байтах, а не в символах.

Тип данных wstring равен wchar_t, размер которого не определен в стандарте, за исключением того, что он должен быть как минимум равным char, обычно 16 бит или 32 бита. wstring может использоваться для обработки текста в реализации, определенной широкосимвольной кодировкой. Поскольку кодировка не определена в стандарте, преобразовать между строками и wstrings непросто. Нельзя предположить, что wstrings также имеет кодировку с фиксированной длиной.

Если вам не нужна поддержка нескольких языков, вам может быть хорошо, если вы используете только обычные строки. С другой стороны, если вы пишете графическое приложение, часто бывает, что API поддерживает только широкие символы. Тогда вы, вероятно, захотите использовать те же самые широкие символы при обработке текста. Имейте в виду, что UTF-16 является кодировкой переменной длины, что означает, что вы не можете принять length(), чтобы вернуть количество символов. Если API использует кодировку с фиксированной длиной, такую как UCS-2, обработка становится легкой. Преобразование между широкими символами и UTF-8 сложно сделать переносимым образом, но, опять же, API вашего пользовательского интерфейса, вероятно, поддерживает преобразование.

Итак, перефразируя первый абзац: приложению, требующему более 256 символов, необходимо использовать многобайтовую кодировку или кодирование Maybe_multibyte.
Обычно 16- и 32-битные кодировки, такие как UCS-2 и UCS-4, не называются многобайтовыми. Стандарт C ++ различает многобайтовые кодировки и широкие символы. В широком представлении символов используется фиксированное число (обычно более 8) битов на символ. Кодировки, которые используют один байт для кодирования наиболее распространенных символов и несколько байтов для кодирования остальной части набора символов, называются многобайтовыми кодировками.
Извините, небрежный комментарий. Должен был сказать кодирование переменной длины. UTF-16 - это кодировка переменной длины, как и UTF-8. Притворяться, что это не плохая идея.
Неплохо подмечено. Нет причин, по которым wstrings нельзя было бы использовать для хранения UTF-16 (вместо UCS-2), но тогда удобство кодирования фиксированной длины теряется.

Greg Domjan · Answer 8 · 2008-12-31T06-01-00.000Z

1

когда вы хотите использовать строки Unicode, а не просто ascii, полезно для интернационализации
да, но он не очень хорошо работает с 0
не знает о том, что не делает
Широкий символ - это специфический для компилятора способ обработки представления фиксированной длины символа Юникода, для MSVC это 2-байтовый символ, для gcc я понимаю, что это 4 байта. и +1 для http://www.joelonsoftware.com/articles/Unicode.html

Greg Domjan 31 дек. 2008, в 06:01

1

2. Std :: string может содержать символ NULL просто отлично. Он также может содержать utf-8 и широкие символы.
Juan 31 дек. 2008, в 04:29
0

@Juan: Это снова привело меня в замешательство. Если std :: string может хранить символы Юникода, что особенного в std :: wstring?
Appu 31 дек. 2008, в 04:33
1

@Appu: std :: string может содержать символы Unicode UTF-8. Существует ряд стандартов Unicode, ориентированных на разную ширину символов. UTf8 имеет ширину 8 бит. Также есть UTF-16 и UTF-32 с шириной 16 и 32 бита соответственно.
Greg D 31 дек. 2008, в 04:40
0

С помощью std :: wstring. Каждый символ Юникода может быть одним wchar_t при использовании кодировок фиксированной длины. Например, если вы решите использовать программный подход joel в качестве ссылки на Грега. Тогда длина строки - это точно количество символов Юникода в строке. Но это занимает больше места
Juan 31 дек. 2008, в 04:43
0

Я не говорил, что он не может содержать 0 '\ 0', и то, что я имел в виду, не очень хорошо показывает, что некоторые методы могут не дать ожидаемого результата, содержащего все данные wstring. Столь резкие голоса.
Greg Domjan 31 дек. 2008, в 04:53
0

Я не хотел обидеть. Но я не согласен с вашими ответами на вопросы 1 и 2. Я могу понять из аргумента Джоэла, почему вы можете использовать wchar_t при работе в системе Windows. Тем не менее, обычный символ работает так же хорошо для i18n.
Juan 31 дек. 2008, в 04:59

Показать ещё 4 комментария

Raghu · Answer 9 · 2008-12-31T05-02-00.000Z

1) Как упоминалось Грегом, wstring полезна для интернационализации, когда вы будете выпускать свой продукт на других языках, кроме английского

4) Проверьте это для широкого символа http://en.wikipedia.org/wiki/Wide_character

Phil Rosenberg · Answer 10 · 2018-08-17T14-18-00.000Z

Здесь есть очень хорошие ответы, но я думаю, что есть несколько вещей, которые я могу добавить в отношении Windows/Visual Studio. Это основано на моем опыте с VS2015. В Linux, в основном, ответ заключается в том, что везде используется кодировка std::string UTF-8. В Windows/VS он становится более сложным. Вот почему. Windows ожидает, что строки будут храниться с использованием char который будет закодирован с использованием кодовой страницы локали. Это почти всегда набор символов ASCII, за которым следуют 128 других специальных символов в зависимости от вашего местоположения. Позвольте мне просто сказать, что это не только при использовании Windows API есть три других основных места, где эти строки взаимодействуют со стандартным C++. Это строковые литералы, выводятся в std::cout с помощью << и передача имени файла в std::fstream.

Я буду впереди здесь, что я программист, а не специалист по языку. Я ценю, что USC2 и UTF-16 не совпадают, но для моих целей они достаточно близки, чтобы быть взаимозаменяемыми, и я использую их как таковые здесь. Я не уверен, что Windows использует, но мне вообще не нужно знать. Я сказал UCS2 в этом ответе, поэтому извините заранее, если я расстроил кого-либо своим незнанием этого вопроса, и я счастлив изменить его, если у меня все получится.

Строковые литералы

Если вы вводите строковые литералы, содержащие только символы, которые могут быть представлены вашей кодовой страницей, тогда VS хранит их в вашем файле с 1 байт на кодировку символов на основе вашей кодовой страницы. Обратите внимание: если вы измените свою кодовую страницу или передадите свой источник другому разработчику с использованием другой кодовой страницы, я думаю (но не проверял), что персонаж окажется другим. Если вы запустите свой код на компьютере, используя другую кодовую страницу, я не уверен, изменит ли этот символ.

Если вы введете любые строковые литералы, которые не могут быть представлены вашей кодовой страницей, тогда VS попросит вас сохранить файл как Unicode. Затем файл будет закодирован как UTF-8. Это означает, что все символы без ASCII (включая те, которые находятся на вашей кодовой странице) будут представлены двумя или более байтами. Это означает, что если вы передадите свой источник кому-то другому, источник будет выглядеть одинаково. Однако, прежде чем передать источник компилятору, VS преобразует кодированный текст UTF-8 в кодированный текст кода, и любые символы, отсутствующие на кодовой странице, заменяются на ? ,

Единственный способ гарантировать правильное представление строкового литерала в Юникоде в VS - это предшествовать строковому литералу с помощью L что делает его широким строковым литералом. В этом случае VS преобразует кодированный текст UTF-8 из файла в UCS2. Затем вам нужно передать этот строковый литерал в конструктор std::wstring или вам нужно преобразовать его в utf-8 и поместить его в std::string. Или, если вы хотите, вы можете использовать функции Windows API для его кодирования с помощью кодовой страницы, чтобы поместить его в std::string, но тогда вы также можете не использовать широкоформатный литерал.

станд :: соиЬ

При выводе на консоль с помощью << вы можете использовать только std::string, а не std::wstring и текст должен быть закодирован с использованием вашей кодовой страницы локали. Если у вас есть std::wstring то вы должны преобразовать его, используя одну из функций Windows API, и любые символы, не входящие в вашу кодовую страницу, заменяются ? (возможно, вы можете изменить персонажа, я не помню).

std :: fstream имена файлов

ОС Windows использует UCS2/UTF-16 для своих имен файлов, поэтому независимо от вашей кодовой страницы вы можете иметь файлы с любым символом Unicode. Но это означает, что для доступа или создания файлов с символами, не входящими в вашу кодовую страницу, вы должны использовать std::wstring. Другого пути нет. Это специальное расширение Microsoft для std::fstream поэтому, вероятно, оно не будет компилироваться в других системах. Если вы используете std :: string, вы можете использовать только имена файлов, которые включают только символы в вашей кодовой странице.

Ваши варианты

Если вы просто работаете в Linux, то, вероятно, вы так далеко не дошли. Просто используйте UTF-8 std::string всюду.

Если вы просто работаете с Windows, просто используйте UCS2 std::wstring везде. Некоторые пуристы могут сказать, что использовать UTF8 затем конвертировать, когда это необходимо, но зачем беспокоиться о хлопот.

Если вы - кросс-платформа, то это беспорядок, чтобы быть откровенным. Если вы пытаетесь использовать UTF-8 повсюду в Windows, тогда вам нужно быть очень осторожным с вашими строковыми литералами и выводить на консоль. Вы можете легко повредить свои строки там. Если вы используете std::wstring всюду на Linux, то у вас может не быть доступа к широкой версии std::fstream, поэтому вам нужно сделать преобразование, но нет никакого риска коррупции. Поэтому я считаю, что это лучший вариант. Многие не согласятся, но я не одинок - это путь, который используют wxWidgets, например.

Другим вариантом может быть typedef unicodestring как std::string в Linux и std::wstring в Windows, а также макрос под названием UNI(), который префикс L на Windows и ничего не работает в Linux, затем код

#include <fstream>
#include <string>
#include <iostream>
#include <Windows.h>

#ifdef _WIN32
typedef std::wstring unicodestring;
#define UNI(text) L ## text
std::string formatForConsole(const unicodestring &str)
{
    std::string result;
    //Call WideCharToMultiByte to do the conversion
    return result;
}
#else
typedef std::string unicodestring;
#define UNI(text) text
std::string formatForConsole(const unicodestring &str)
{
    return str;
}
#endif

int main()
{

    unicodestring fileName(UNI("fileName"));
    std::ofstream fout;
    fout.open(fileName);
    std::cout << formatForConsole(fileName) << std::endl;
    return 0;
}

было бы хорошо на любой платформе, я думаю.

ответы

Итак, чтобы ответить на ваши вопросы

1) Если вы программируете для Windows, то все время, если кросс-платформу, возможно, все время, если вы не хотите иметь дело с возможными проблемами с коррупцией в Windows или писать какой-то код с определенными платформенными #ifdefs чтобы обойти различия, если просто используя Linux, то никогда.

2) Да. Кроме того, в Linux вы можете использовать его для всех Unicode. В Windows вы можете использовать его только для всех юникодов, если вы решите вручную кодировать с помощью UTF-8. Но API Windows и стандартные классы C++ ожидают, что std::string будет закодирована с использованием кодовой страницы локали. Это включает в себя все ASCII плюс еще 128 символов, которые меняются в зависимости от кодовой страницы, которую компьютер настроил для использования.

3) Я так считаю, но если нет, то это просто простой typedef из 'std :: basic_string', используя wchar_t вместо char

4) Широкий символ - это тип символа, который больше стандартного char типа 1 байт. В Windows это 2 байта, в Linux - 4 байта.

Что касается «Однако перед передачей исходного кода компилятору VS преобразует кодированный в кодировке UTF-8 текст в кодированный код, а любые символы, отсутствующие в кодовой странице, заменяются символом?». -> Я не думаю, что это так, когда компилятор использует кодировку UTF-8 (используйте /utf-8 ).
Я не знал об этом в качестве варианта. По этой ссылке docs.microsoft.com/en-us/cpp/build/reference/… кажется, что в свойствах проекта нет флажка для выбора, вы должны добавить его в качестве дополнительного параметра командной строки. Хорошее место!

Leiyi.China · Answer 11 · 2013-10-29T11-49-00.000Z

Хороший вопрос! Я думаю, что DATA ENCODING (иногда CHARSET) - это MEMORY EXPRESSION МЕХАНИЗМ, чтобы сохранять данные в файл или передавать данные по сети, поэтому Я отвечаю на этот вопрос следующим образом:

1.Когда я должен использовать std:: wstring над std::string?

Если платформа программирования или функция API являются однобайтными, и мы хотим обрабатывать или анализировать некоторые данные в формате unicode, например, читать из файла Windows.REG или сетевого 2-байтового потока, мы должны объявить std:: wstring переменная, чтобы легко их обрабатывать. например: wstring ws = L "中国 a" (6 октетов: 0x4E2D 0x56FD 0x0061), мы можем использовать ws [0] для получения символов '中' и ws [1] для получения символов '国' и ws [2] получить символ "a" и т.д.

2.Can std::string сохранить весь набор символов ASCII, включая специальные символы?

Да. Но обратите внимание: American ASCII означает, что каждый октет 0x00 ~ 0xFF для одного символа, включая печатный текст, такой как "123abc & * _ &" и вы сказали специальный, в основном напечатайте его как ".". избегайте запутывания редакторов или терминалов. И некоторые другие страны расширяют свою собственную кодировку "ASCII", например. Китайцы, используют 2 октета для обозначения одного персонажа.

3.Is std:: wstring поддерживается всеми популярными компиляторами С++?

Может быть, или в основном. Я использовал: VС++ 6 и GCC 3.3, YES

4.Что такое "широкий символ"?

широкий символ в основном указывает использование 2 октетов или 4 октета для хранения всех символов стран. 2 октета UCS2 представляет собой репрезентативную выборку, а далее, например, Английский 'a', его память составляет 2 октета 0x0061 (vs в ASCII 'память 1 октет 0x61)

dave · Answer 12 · 2009-06-11T00-32-00.000Z

-3

Когда вы НЕ используете широкоформатные символы?

Когда вы пишете код до 1990 года.

Очевидно, я переворачиваюсь, но на самом деле, это 21-й век. 127 символов уже давно перестали быть достаточными. Да, вы можете использовать UTF8, но зачем беспокоиться о головных болях?

dave 11 июнь 2009, в 00:32

16

@dave: я не знаю, какую головную боль создает UTF-8, которая больше, чем у Widechars (UTF-16). в UTF-16 у вас также есть многосимвольные символы.
Pavel Radzivilovsky 29 дек. 2009, в 16:08
0

Проблема в том, что если вы где-нибудь, кроме англоговорящей страны, вы НЕ ДОЛЖНЫ использовать wchar_t. Не говоря уже о том, что в некоторых алфавитах гораздо больше символов, чем вписывается в байт. Мы были там, в DOS. Кодовая страница шизофрении, нет, спасибо, не более ..
Swift - Friday Pie 26 нояб. 2016, в 23:02
0

@Swift Проблема с wchar_t заключается в том, что его размер и значение зависят от ОС. Это просто меняет старые проблемы на новые. В то время как char - это char вне зависимости от ОС (по крайней мере, на похожих платформах). Таким образом, мы могли бы также просто использовать UTF-8, упаковать все в последовательности char и сетовать на то, что C ++ оставляет нас самих по себе без каких-либо стандартных методов измерения, индексации, поиска и т. Д. В таких последовательностях.
underscore_d 21 май 2017, в 14:16
0

@underscore_d То, что вы описываете, является самой маленькой проблемой, если вы пишете на C ++. Широкий символ wchat_t является фундаментальным типом в C ++, но не в C, но его двоичное представление не определяется платформой, как вы описываете, это среда выполнения . Таким образом, символ может быть длиной 1 или 2 байта (как минимум) в зависимости от того, какая строка хранится. Unicode UTF-16 - символы фиксированного размера. Дело в том, что wchar_t - это тип, поддерживаемый для определенной платформы на уровне имен файловой системы (включая windows), в то время как другие платформы используют многобайтовые символы
Swift - Friday Pie 21 май 2017, в 14:34
0

@Swift У тебя, кажется, все в порядке. wchar_t - это тип данных фиксированной ширины, поэтому массив из 10 wchar_t всегда будет занимать sizeof(wchar_t) * 10 байтов платформы. И UTF-16 - это кодирование с переменной шириной, в котором символы могут состоять из 1 или 2 16-битных кодовых точек (и s / 16/8 / g для UTF-8).
underscore_d 21 май 2017, в 14:42
0

@ SteveHollasch вы сохранили в нем utf16, так что вы получите его. это зависимый от компиляции примитивный тип, который не приводит и не ограничивает то, что вы пытаетесь присвоить ему. То, как API и компилятор будут относиться к ist, не определено, в общем случае это не то же самое представление, что и для ЛЮБОГО unicode.wchar_t, как определено в windows api - 16 бит на символ. так что у вас есть суррогат - два символа с кодами 0X00DC и 0x40D8. но код, который будет обрабатывать это как массив юникода, будет работать правильно, вам просто будет трудно определить, является ли он 2 символами или одним. На Linux wchar_t 32-битный, ваш код не вызовет проблем
Swift - Friday Pie 05 нояб. 2017, в 00:25
0

@SteveHollasch wchar_t Представление строки в Windows будет кодировать символы больше, чем FFFF, в качестве специальной суррогатной пары, для другого потребуется только один элемент wchar_t. Таким образом, это представление не будет совместимо с представлением, созданным компилятором gnu (где все символы меньше FFFF будут иметь нулевое слово перед ними). То, что хранится в wchar_t, определяется программистом и компилятором, а не каким-то соглашением
Swift - Friday Pie 05 нояб. 2017, в 00:33

Показать ещё 5 комментариев

std :: wstring VS std :: string

12 ответов

<код > строкакод > ? <Код > wstringкод > ?

char vs. wchar_t

как насчет Unicode, то?

В Linux?

В Windows?

Проблемы с памятью?

Заключение

Строковые литералы

станд :: соиЬ

std :: fstream имена файлов

Ваши варианты

ответы

Ещё вопросы

`char` vs. `wchar_t`