Как получить согласованное байтовое представление строк в C # без указания кодировки вручную?

Question

Как получить согласованное байтовое представление строк в C # без указания кодировки вручную?

2003

Как преобразовать string в byte[] в .NET(С#) без указания конкретной кодировки вручную?

Я собираюсь зашифровать строку. Я могу зашифровать его без преобразования, но мне все равно хотелось бы знать, почему здесь начинается кодирование.

Кроме того, почему кодирование должно учитываться? Не могу ли я просто получить, в каких байтах хранится строка? Почему существует зависимость от кодировок символов?

Agnel Kurian 23 янв. 2009, в 13:49

Источник

0

Ваше замешательство по поводу роли кодирования заставляет меня задуматься, если это правильный вопрос. Почему вы пытаетесь преобразовать строку в байтовый массив? Что вы собираетесь делать с байтовым массивом?
Greg D 23 янв. 2009, в 13:56
0

Я собираюсь зашифровать это. Я могу зашифровать его без конвертации, но я все же хотел бы знать, почему здесь используется кодирование. Просто дай мне байты, это то, что я говорю.
Agnel Kurian 23 янв. 2009, в 13:57
4

Если вы шифруете его, то после дешифрования вам все равно нужно будет знать, что это за кодировка, чтобы вы знали, как заново интерпретировать эти байты обратно в строку.
Greg D 23 янв. 2009, в 14:00
21

Каждая строка хранится как массив байтов, верно? Почему я не могу просто получить эти байты?
Agnel Kurian 23 янв. 2009, в 14:05
1

Посмотрите ответ Джона Скита в посте с точным вопросом . Это объяснит, почему вы зависите от кодировки.
Igal Tabachnik 23 янв. 2009, в 14:15
2

Я думаю, что Энтони пытается устранить фундаментальное несоответствие в <300 символов. Вы предполагаете некоторое последовательное внутреннее представление строки, когда на самом деле это представление может быть чем угодно. Чтобы создать и в конечном итоге декодировать поток байтов, вы должны выбрать используемую кодировку.
Greg D 23 янв. 2009, в 16:38
2

«Строка - это массив символов, где символ не является байтом в мире .Net» Хорошо, но независимо от кодировки каждый символ отображается в один или несколько байтов. Могу ли я иметь эти байты, пожалуйста, без указания кодировки?
Agnel Kurian 04 март 2009, в 05:51
120

Кодировка - это то, что отображает символы в байты. Например, в ASCII буква «А» соответствует номеру 65. В другой кодировке она может отличаться. Однако высокоуровневый подход к строкам, принятым в .NET Framework, делает это в значительной степени неактуальным (за исключением этого случая).
Lucas Jones 13 апр. 2009, в 14:13
2

Вы можете выбрать легкий маршрут и просто использовать UTF-8 с обеих сторон.
Lucas Jones 13 апр. 2009, в 14:14
5

В случае .NET простой маршрут - использование UTF-16 с обеих сторон, поскольку именно это .NET использует внутри.
Alexey Romanov 22 июль 2009, в 11:30
17

Чтобы играть адвокат дьявола: Если вы хотите получить байты строки в памяти (как .NET использует их) и каким-либо образом манипулировать ими (например, CRC32), и НИКОГДА не хотел декодировать его обратно в исходную строку ... это не ясно, почему вы заботитесь о кодировках или о том, какой метод выбрать.
Greg 01 дек. 2009, в 19:47
68

Удивлен, никто еще не дал эту ссылку: joelonsoftware.com/articles/Unicode.html
Bevan 29 июнь 2010, в 02:57
1

@Bevan: от 23 января 2009, вы опоздали на вечеринку ;-) stackoverflow.com/questions/472906/net-string-to-byte-array-c/…
Michael Buen 09 июль 2010, в 00:08
0

Возможный дубликат Как вы преобразуете строку в байтовый массив в .Net
adamjcooper 06 июль 2013, в 11:47
7

@AgnelKurian, А char является struct , которая просто происходит в настоящее время хранения значений в качестве 16-битного числа (UTF-16). То, что вы действительно спрашиваете (получите байты символов), теоретически невозможно, потому что теоретически не существует. У char или string нет кодировки по определению. Что если представление памяти изменилось на UTF-32? Ваши «получить байты, отправить их обратно» потерпят неудачу из- за кодирования, потому что вы избежали кодирования . Так "Почему эта зависимость от кодирования? !!!" Зависит от кодирования, чтобы ваш код был надежным.
Travis 05 авг. 2013, в 22:04
0

@Bevan, потому что необходимые ошибки, чтобы пойти с той ссылкой, не вписываются в комментарий на 600 символов, и были бы не по теме в качестве ответа?
Jon Hanna 06 янв. 2014, в 14:04
0

@JonHanna просветить нас. Сообщение в блоге не будет неуместным в этом случае.
Agnel Kurian 07 янв. 2014, в 10:48
1

@AgnelKurian он видел, что цитируемые неправильные вещи были одной из моих причин для написания hackcraft.net/xmlUnicode, хотя я стремился сделать его полезным для себя, а не просто спорить о мифах о клингоне или указывать, что EBCDIC все еще встречается в дикой природе ,
Jon Hanna 07 янв. 2014, в 10:58
22

Символ не является байтом, а байт - не символ. Символ - это и ключ к таблице шрифтов, и лексическая традиция. Строка - это последовательность символов. (Слова, абзацы, предложения и названия также имеют свои собственные лексические традиции, которые оправдывают их собственные определения типов - но я отвлекся). Как и целые числа, числа с плавающей точкой и все остальное, символы кодируются в байты. Было время, когда кодировка была проста один в один: ASCII. Однако, чтобы приспособить всю человеческую символику, 256 перестановок байта были недостаточны, и были разработаны кодировки, чтобы выборочно использовать больше байтов.
George 28 авг. 2014, в 15:43
0

@usr: вы только что сделали недействительными почти все ответы с помощью своего редактирования, а также затруднили людям поиск этого вопроса с помощью их естественного поискового запроса (но вы, вероятно, сделали это намеренно).
Mehrdad 03 нояб. 2014, в 21:37
0

@ Mehrdad существующие ответы уже были недействительными (не то, что спросили). Ваш - в значительной степени единственный ответ, который фактически отвечает только на то, что спросили. (Тем не менее, я рекомендую вам отредактировать свой ответ, включив в него несколько предупреждений о том, что этот подход практически никогда не является лучшим.)
usr 03 нояб. 2014, в 21:50
6

Четыре года спустя я поддерживаю свой первоначальный комментарий по этому вопросу. Это в корне неверно, потому что тот факт, что мы говорим о строке, подразумевает интерпретацию . Кодирование этой строки является неявной частью сериализованного контракта, в противном случае это просто набор бессмысленных битов. Если вам нужны бессмысленные биты, зачем вообще генерировать их из строки? Просто напишите связку 0 и покончите с этим.
Greg D 12 дек. 2014, в 22:44
0

@ Грег Д, Допустим, у моего клиента есть некоторые числа с плавающей запятой в каком-то экзотическом формате, используемом для хранения астрономических расстояний. Он использует только этот формат. Он хочет, чтобы я позаботился о написании и чтении этих цифр. Я не интерпретирую их. Мой клиент интерпретирует числа, и все, что ему нужно, - это байты, которые мне нужно написать. При чтении все, что ему нужно от меня - это байты, которые я написал. Хранение флага формата каждый раз в дополнение к байтам является пустой тратой пространства, когда он использует только один формат для всех чисел.
Agnel Kurian 13 дек. 2014, в 03:36
2

@Annel Kurian: Если вы пишете произвольные двоичные данные, пишите двоичные данные. Это не имеет ничего общего с первоначальным вопросом (который в основном касается сериализации строки).
Greg D 15 дек. 2014, в 18:28
0

@GregD, так что вы хотите хранить одну и ту же кодировку 1000 раз для 1000 разных строк?
Agnel Kurian 17 дек. 2014, в 02:42
5

@AgnelKurian: Ты меня троллишь? Этот вопрос не имеет смысла. Я могу заключить, что вы имели в виду что-то вроде: «... хранить информацию о кодировке, которая использовалась 1000 раз для 1000 различных строк». Никто никогда не говорил ничего о том, чтобы сделать это, и это было явно отрицано ранее, когда я заявил: «Кодирование этой строки является неявной частью сериализованного контракта ...», так что вы не могли этого иметь в виду.
Greg D 17 дек. 2014, в 21:23
0

@GregD: есть ли какой-либо встроенный тип, представляющий неизменяемую последовательность байтов? Я могу легко оценить, что использование строк для хранения двоичных данных ужасно, но я не уверен, что лучше? Использование Byte[] часто требует защитных копий каждый раз, когда данные передаются; напротив, поскольку String является неизменяемой, ссылки можно безопасно передавать без необходимости копировать какие-либо данные.
supercat 27 фев. 2015, в 23:34
0

MemoryStream w / Writable = false ( msdn.microsoft.com/en-us/library/1167fw72%28v=vs.110%29.aspx ) будет моей первой мыслью. В зависимости от сценария, передача его так же, как простой поток, также даст больше возможности компоновки. У меня не было возможности использовать его, но старый класс Buffer ( msdn.microsoft.com/en-us/library/… ) также может быть приемлемым вариантом, если производительность важна, хотя я не думаю, что это поддерживает доступ только для чтения. (Я мог бы усомниться в том, что вы передаете байт [] тому, чему вы не доверяете - может помочь ReadOnlyCollection <T>)
Greg D 27 фев. 2015, в 23:43
0

supercat - почему бы не использовать строку в кодировке base64? Это строка, и , таким образом , является неизменным , и каждый из символов отображения удобно. И есть простое преобразование из одного в другое (не уверен, что это метод расширения, связанный с веб или что).
Gerard ONeill 18 авг. 2015, в 15:07
0

@AgnelKurian «Он хочет, чтобы я позаботился о написании и чтении этих цифр. Я не интерпретирую их». - Если бы вы их не интерпретировали, у вас были бы байты, а не «цифры». Тогда ваш вопрос исчезнет. Если у вас есть «числа», это означает, что вы уже интерпретировали / расшифровали их и выбросили исходные байтовые данные. И теперь вы хотите попробовать и восстановить данные (кодировать), что может быть даже невозможно. Каковы были цифры на самом деле Base-10, и, запихав их в поплавки Base-2, вы уничтожили их навсегда? Не хотите кодировать? Не декодируйте тогда. Хотите байты? Тогда используйте байты.
Ark-kun 20 апр. 2017, в 08:36
1

Вы предполагаете, что System.Text.Encoding.Unicode.GetBytes(); делает какое-то дорогостоящее преобразование, которое вы хотите избежать? Если это так, ваше предположение неверно.
Kris Vandermotten 28 апр. 2017, в 13:59
3

Ваш первый комментарий (цитата): каждая строка хранится в виде массива байтов, верно? Почему я не могу просто получить эти байты? Нет, каждая строка (более или менее) хранится в виде массива 16-битных кодовых единиц, которые соответствуют UTF-16. Там будут суррогатные пары, если ваша строка содержит символы Юникода вне плоскости 0. Вы можете легко получить это представление: var array1 = yourString.ToCharArray(); Если по какой-то причине вы хотите, чтобы единицы кода UInt16 значениями UInt16 , выполните var array2 = Array.ConvertAll<char, ushort>(array1, x => x); , Это ushort[] там.
Jeppe Stig Nielsen 24 июль 2017, в 09:36
0

@AgnelKurian «Мой клиент интерпретирует числа, и все, что ему нужно, это дать мне байты, которые мне нужно написать». Тогда пусть клиент даст вам байтовый массив, а не строку! Как только они помещают его в строку, они уже определились с кодировкой (будь то ASCII, UTF-8 или иным образом). Также, пожалуйста, поместите предложение, которое я цитировал, в текст вопроса, чтобы пример использования вопроса был более понятным.
NH. 08 нояб. 2017, в 18:13
0

Кодирование необходимо, потому что от него зависит размер (в байтах) представляемых символов, и не только потому, что sizeof (char) различается для ASCII (1 байт) и WideString (2 байта), но и потому, что он может даже варьироваться - в в случае UTF-8 символ представлен от 1 до 4 байтов
mg30rg 05 дек. 2017, в 16:23
2

Не беспокоиться о кодировании это одно. Нежелание указывать кодировку - это совсем другое. Если вас разочаровывает то, какую кодировку вам следует использовать, просто выберите одну и используйте ее все время для преобразования между строкой в байтовый массив и байтовым массивом в строку. Например, всегда используйте Unicode или UTF-8. Твой выбор. После того, как вы выбрали кодировку, вам больше не нужно беспокоиться, и ваша проблема решена. Но если ваше разочарование вызвано необходимостью указать кодировку, то вам лучше привыкнуть к ней, потому что, нравится вам это или нет, происходит кодировка.
Thanasis Ioannidis 27 июнь 2018, в 11:16
2

Вы всегда должны беспокоиться о том, какая кодировка вашей строки представлена в байтовом массиве. Предположение, что строка представлена в памяти байтовым массивом, является произвольным. Так происходит в нынешней реализации .net. Никто не может гарантировать вам, что он не изменится на реализацию связанного списка в будущем (или любую другую экзотическую структуру данных). Даже если вы используете одну и ту же систему и ту же программу для чтения зашифрованных данных, всегда есть вероятность, что будущий патч .net сломает все на части, потому что вы не указали, в какой кодировке вы работаете.
Thanasis Ioannidis 27 июнь 2018, в 11:21

Показать ещё 34 комментария

Теги:

c#

string

.net

character-encoding

38 ответов

1119

Это зависит от кодировки вашей строки (ASCII, UTF-8,...).

Например:

byte[] b1 = System.Text.Encoding.UTF8.GetBytes (myString);
byte[] b2 = System.Text.Encoding.ASCII.GetBytes (myString);

Небольшая выборка, почему кодирование имеет значение:

string pi = "\u03a0";
byte[] ascii = System.Text.Encoding.ASCII.GetBytes (pi);
byte[] utf8 = System.Text.Encoding.UTF8.GetBytes (pi);

Console.WriteLine (ascii.Length); //Will print 1
Console.WriteLine (utf8.Length); //Will print 2
Console.WriteLine (System.Text.Encoding.ASCII.GetString (ascii)); //Will print '?'

ASCII просто не оборудован для обработки специальных символов.

Внутри платформа .NET использует UTF-16 для представления строк, поэтому, если вы просто хотите получить точные байты, которые использует .NET, используйте System.Text.Encoding.Unicode.GetBytes (...).

Для получения дополнительной информации см. Кодировка символов в .NET Framework (MSDN).

bmotmans 23 янв. 2009, в 15:18

14

Но почему следует учитывать кодировку? Почему я не могу просто получить байты, не видя, какая кодировка используется? Даже если бы это было необходимо, разве сам объект String не должен знать, какая кодировка используется, и просто выгружать то, что находится в памяти?
Agnel Kurian 23 янв. 2009, в 13:48
53

Строки .NET всегда кодируются как Unicode. Так что используйте System.Text.Encoding.Unicode.GetBytes (); чтобы получить набор байтов, который .NET использовал бы для представления символов. Однако зачем вам это? Я рекомендую UTF-8, особенно когда большинство символов в западном латинском наборе.
AnthonyWJones 23 янв. 2009, в 14:33
1

Там также System.Text.Encoding.Default
Joel Coehoorn 23 янв. 2009, в 15:39
7

Кроме того: точные байты, используемые внутри строки, не имеют значения, если система, которая их извлекает, не обрабатывает эту кодировку или обрабатывает ее как неправильную кодировку. Если это все в .Net, зачем вообще конвертировать в массив байтов. В противном случае лучше указывать кодировку
Joel Coehoorn 23 янв. 2009, в 15:42
8

@Joel, будьте осторожны с System.Text.Encoding.Default, так как он может отличаться на каждой машине, на которой он запущен. Вот почему рекомендуется всегда указывать кодировку, например UTF-8.
Ash 28 янв. 2010, в 09:01
25

Вам не нужны кодировки, если только вы (или кто-то еще) на самом деле не намерены интерпретировать данные вместо того, чтобы рассматривать их как общий «блок байтов». Для таких вещей, как сжатие, шифрование и т. Д., Беспокоиться о кодировке не имеет смысла. Смотрите мой ответ, чтобы узнать, как это сделать, не беспокоясь о кодировке. (Я мог бы дать -1 за то, что сказал, что тебе нужно беспокоиться о кодировках, когда ты этого не делаешь, но сегодня я не чувствую себя особенно злым.: P)
Mehrdad 30 апр. 2012, в 07:55
2

Хорошая дискуссия, иногда мне нужна одна из вышеуказанных альтернатив. Но также выглядит так: «Один дурак может спросить, что могут ответить более семи мудрецов» :-)
Roland 26 март 2013, в 14:49
6

+1; @Mehrdad: GetString метод и интерпретация выхода GetBytes метода. Вот почему вы должны беспокоиться об использовании одинаковой кодировки в обоих методах.
chiccodoro 17 июль 2013, в 07:57
3

Я думаю, что важно отметить, что это не «зависит от кодировки вашей строки» . .NET скрывает это от вас. Из того, что я могу сказать, String представлена последовательностью System.Chars, которая представлена как UTF-16. Важно то, что вы должны хранить байты в некоторой кодировке и знать, чтобы получить их с той же кодировкой . Это не то же самое, что защита паролем ваших файлов и попытка использовать другой пароль для их снятия защиты.
Millie Smith 05 фев. 2016, в 23:39

Показать ещё 7 комментариев

247

Принятый ответ очень, очень сложный. Используйте включенные классы .NET для этого:

const string data = "A string with international characters: Norwegian: ÆØÅæøå, Chinese: 喂 谢谢";
var bytes = System.Text.Encoding.UTF8.GetBytes(data);
var decoded = System.Text.Encoding.UTF8.GetString(bytes);

Не изобретайте велосипед, если вам не нужно...

Erik A. Brandstadmoen 30 апр. 2012, в 08:22

85

Принятый ответ не только очень сложный, но и рецепт катастрофы.
Konamiman 13 июнь 2013, в 08:40
12

В случае, если принятый ответ будет изменен, для целей записи, это ответ Mehrdad в это время и дату. Надеемся, что ОП еще раз займется этим и примет лучшее решение.
Thomas Eding 27 сен. 2013, в 18:20
5

в принципе хорошо, но кодировка должна быть System.Text.Encoding.Unicode чтобы быть эквивалентной ответу Мерадада.
Jodrell 25 нояб. 2014, в 09:08
4

Вопрос был отредактирован несколько раз с момента первоначального ответа, так что, возможно, мой ответ немного устарел. Я никогда не намеревался дать преувеличение, эквивалентное ответу Мердада, но дать разумный способ сделать это. Но вы можете быть правы. Однако фраза «получить, в каких байтах была сохранена строка» в исходном вопросе очень неточна. Хранится где? В памяти? На диске? Если бы в памяти, System.Text.Encoding.Unicode.GetBytes , вероятно, был бы более точным.
Erik A. Brandstadmoen 26 нояб. 2014, в 11:36
0

После просмотра всех ответов, многочисленных комментариев и моего осмотра памяти (не забывайте, Visual Studio допускает осмотр памяти), что правильный ответ - Encoding.Default.GetBytes .
AMissico 10 фев. 2016, в 21:37
6

@AMissico, ваше предложение содержит ошибки, если только вы не уверены, что ваша строка совместима с кодировкой вашей системы по умолчанию (строка, содержащая только символы ASCII в вашей стандартной системной кодировке по умолчанию). Но нигде ОП не заявляет об этом.
Frédéric 06 апр. 2016, в 20:53
0

@Фредерик; Я просто высказываю свое мнение после просмотра всей информации и запуска тестовых сценариев с символами Unicode. Я также использовал TextPad, HexEdit, WinHex и Visual Studio для просмотра этих байтов. Результаты Encoding.Default.GetBytes такие же, как у этих приложений. Я не даю ответ на вопрос ОП.
AMissico 07 апр. 2016, в 18:24
4

@AMissico Это может привести к тому, что программа будет давать разные результаты в разных системах . Это никогда не хорошо. Даже если это для создания хэша или чего-то еще (я полагаю, это означает, что OP означает «шифровать»), одна и та же строка всегда должна давать один и тот же хэш.
Nyerguds 22 апр. 2016, в 10:33
0

+1 за UTF-8. Это то, что предполагают те, кто говорит, что кодирование не имеет значения. UTF-8 является строгим значением для кодирования значения беззнакового символа (BYTE). Все остальное ... нет.
jinzai 22 июнь 2016, в 15:11
1

@jinzai, а как насчет UTF-16, который .NET использует внутри себя?
NH. 08 нояб. 2017, в 17:02
0

UTF-16 является частью «всего остального», о котором я говорил. Первоначальный вопрос - имел в виду «представления байтов». Что касается UTF-16 - значения отображаются одинаково для ASCII, но - это слова, а не байты. Я вполне уверен, что все знают, что .NET использует UTF-16 внутри, однако - я всегда использую UTF-8 для таких вещей, как XML. .NET теперь уважает это, по крайней мере.
jinzai 10 нояб. 2017, в 15:13

Показать ещё 9 комментариев

112

BinaryFormatter bf = new BinaryFormatter();
byte[] bytes;
MemoryStream ms = new MemoryStream();

string orig = "喂 Hello 谢谢 Thank You";
bf.Serialize(ms, orig);
ms.Seek(0, 0);
bytes = ms.ToArray();

MessageBox.Show("Original bytes Length: " + bytes.Length.ToString());

MessageBox.Show("Original string Length: " + orig.Length.ToString());

for (int i = 0; i < bytes.Length; ++i) bytes[i] ^= 168; // pseudo encrypt
for (int i = 0; i < bytes.Length; ++i) bytes[i] ^= 168; // pseudo decrypt

BinaryFormatter bfx = new BinaryFormatter();
MemoryStream msx = new MemoryStream();            
msx.Write(bytes, 0, bytes.Length);
msx.Seek(0, 0);
string sx = (string)bfx.Deserialize(msx);

MessageBox.Show("Still intact :" + sx);

MessageBox.Show("Deserialize string Length(still intact): " 
    + sx.Length.ToString());

BinaryFormatter bfy = new BinaryFormatter();
MemoryStream msy = new MemoryStream();
bfy.Serialize(msy, sx);
msy.Seek(0, 0);
byte[] bytesy = msy.ToArray();

MessageBox.Show("Deserialize bytes Length(still intact): " 
   + bytesy.Length.ToString());

Michael Buen 23 янв. 2009, в 17:44

2

Вы можете использовать один и тот же экземпляр BinaryFormatter для всех этих операций
Joel Coehoorn 23 янв. 2009, в 17:25
3

Очень интересно. По-видимому, это исключит любой высокий суррогатный символ Unicode. Смотрите документацию по [BinaryFormatter ]
John Robertson 18 нояб. 2010, в 18:51
1

@ ErikA.Brandstadmoen Смотрите мои тесты здесь: stackoverflow.com/a/10384024
Michael Buen 13 май 2012, в 11:12

Показать ещё 1 комментарий

88

Вам нужно учитывать кодировку, потому что 1 символ может быть представлен 1 или более байтами (до 6), а разные кодировки будут обрабатывать эти байты по-разному.

У Джоэля есть проводка по этому поводу:

Абсолютный минимум Каждый разработчик программного обеспечения Абсолютно, положительно должен знать о Unicode и наборах символов (нет оправданий!)

Zhaph - Ben Duguid 23 янв. 2009, в 14:26

5

«1 символ может быть представлен 1 или более байтами» Я согласен. Я просто хочу эти байты независимо от того, в какой кодировке находится строка. Единственный способ сохранить строку в памяти - это байты. Четные символы хранятся как 1 или более байтов. Я просто хочу заполучить их байты.
Agnel Kurian 23 янв. 2009, в 14:07
15

Вам не нужны кодировки, если только вы (или кто-то еще) на самом деле не намерены интерпретировать данные вместо того, чтобы рассматривать их как общий «блок байтов». Для таких вещей, как сжатие, шифрование и т. Д., Беспокоиться о кодировке не имеет смысла. Смотрите мой ответ, чтобы узнать, как это сделать, не беспокоясь о кодировке.
Mehrdad 30 апр. 2012, в 07:54
7

@Mehrdad - В общем, но первоначальный вопрос, как было сказано, когда я первоначально ответил, не уточнил, что OP будет происходить с этими байтами после того, как они преобразовали их, и для будущих поисковиков информация, которая уместна - это довольно хорошо охвачен ответом Джоэла - и, как вы заявляете в своем ответе: при условии, что вы остаетесь в мире .NET и используете свои методы для конвертации в / из, вы счастливы. Как только вы выйдете за пределы этого, кодирование будет иметь значение.
Zhaph - Ben Duguid 30 апр. 2012, в 10:48
0

Одна кодовая точка может быть представлена до 4 байтов. (Одна единица кода UTF-32, суррогатная пара UTF-16 или 4 байта UTF-8.) Значения, для которых UTF-8 потребуется более 4 байтов, находятся вне диапазона Unixode 0x0..0x10FFFF. ;-)
DevSolar 08 окт. 2018, в 15:05

Показать ещё 2 комментария

79

Это популярный вопрос. Важно понять, что задает автор вопроса, и что он отличается от того, что, скорее всего, является наиболее распространенной потребностью. Чтобы препятствовать неправильному использованию кода, в котором он не нужен, я ответил позже.

Общая потребность

Каждая строка имеет набор символов и кодировку. Когда вы конвертируете объект System.String в массив System.Byte, у вас все еще есть набор символов и кодировка. Для большинства случаев использования вы должны знать, какой набор символов и кодировка вам нужен, и .NET упрощает "копирование с преобразованием". Просто выберите подходящий класс Encoding.

// using System.Text;
Encoding.UTF8.GetBytes(".NET String to byte array")

Для преобразования, возможно, потребуется обработать случаи, когда целевой набор символов или кодировка не поддерживают символ, который находится в источнике. У вас есть выбор: исключение, замещение или пропуски. Политика по умолчанию заключается в замене "?".

// using System.Text;
var text = Encoding.ASCII.GetString(Encoding.ASCII.GetBytes("You win €100")); 
                                                      // -> "You win ?100"

Очевидно, что преобразования не обязательно без потерь!

Примечание. Для System.String исходный набор символов - Unicode.

Единственное непонятное, что .NET использует имя набора символов для имени одной конкретной кодировки этого набора символов. Encoding.Unicode следует называть Encoding.UTF16.

Что это для большинства обычаев. Если это вам нужно, перестаньте читать здесь. См. Статью статья Джоэл Спольски, если вы не понимаете, что такое кодировка.

Особая потребность

Теперь автор вопроса спрашивает: "Каждая строка хранится как массив байтов, правильно? Почему я не могу просто иметь эти байты?"

Он не хочет конверсии.

Из С# spec:

Обработка символов и строк в С# использует кодировку Unicode. charтип представляет собой кодовый блок UTF-16, а тип строки представляет собой последовательность кодовых блоков UTF-16.

Итак, мы знаем, что если мы попросим нулевое преобразование (т.е. от UTF-16 до UTF-16), мы получим желаемый результат:

Encoding.Unicode.GetBytes(".NET String to byte array")

Но чтобы избежать упоминания кодировок, мы должны сделать это по-другому. Если допустим промежуточный тип данных, для этого есть концептуальный ярлык:

".NET String to byte array".ToCharArray()

Это не дает нам желаемого типа данных, но Ответ Mehrdad показывает, как преобразовать этот массив Char в массив байтов, используя BlockCopy. Однако это копирует строку дважды! И он слишком явно использует кодирующий код: тип данных System.Char.

Единственный способ получить фактические байты, в которых хранится String, - это использовать указатель. Оператор fixed позволяет принимать адрес значений. Из спецификации С#:

[Для] выражения строки типа... инициализатор вычисляет адрес первого символа в строке.

Для этого компилятор пишет код, пропускающий другие части строкового объекта с помощью RuntimeHelpers.OffsetToStringData. Итак, чтобы получить необработанные байты, просто создайте указатель на строку и скопируйте необходимое количество байтов.

// using System.Runtime.InteropServices
unsafe byte[] GetRawBytes(String s)
{
    if (s == null) return null;
    var codeunitCount = s.Length;
    /* We know that String is a sequence of UTF-16 codeunits 
       and such codeunits are 2 bytes */
    var byteCount = codeunitCount * 2; 
    var bytes = new byte[byteCount];
    fixed(void* pRaw = s)
    {
        Marshal.Copy((IntPtr)pRaw, bytes, 0, byteCount);
    }
    return bytes;
}

Как отметил @CodesInChaos, результат зависит от точности машины. Но автор вопроса не заинтересован в этом.

Tom Blodget 02 дек. 2013, в 04:44

0

В общем случае некорректно устанавливать byteCount в два раза больше длины строки. Для кодовых точек Unicode вне Базовой многоязычной плоскости для каждого символа будут использоваться две 16-битные кодовые единицы.
Jan Hettich 04 фев. 2014, в 02:33
2

@Jan Это правильно, но длина строки уже дает количество кодовых единиц (не кодовых точек).
Tom Blodget 04 фев. 2014, в 02:35
0

Спасибо что подметил это! Из MSDN: «Свойство Length [of String ] возвращает количество объектов Char в этом экземпляре, а не количество символов Unicode». Ваш пример кода, следовательно, является правильным, как написано.
Jan Hettich 04 фев. 2014, в 05:42
0

Я не думаю, что Char на самом деле является "специфичным для кодирования" типом; из того, что я могу сказать, существует определенное соотношение 1: 1 между значениями Char значениями UInt16 , любой Char[] может быть преобразован в строку одинаковой длины, и любая такая строка может быть преобразована в Char[] равный оригинал, независимо от того, формировала ли когда-либо последовательность значений Char действительную строку UTF-16 .
supercat 12 нояб. 2014, в 22:29
0

@supercat "Тип char представляет кодовую единицу UTF-16, а строковый тип представляет последовательность кодовых единиц UTF-16." new String(new []{'\uD800', '\u0030'})
Tom Blodget 13 нояб. 2014, в 00:15
0

@TomBlodget: я не могу найти ничего, что указывало бы, что все значения 0x0000-0xFFFF могут рассматриваться как «единицы кода», но термин «последовательность единиц кода» подразумевал бы, что тип может содержать последовательности единиц кода, которые не представляют последовательности кодовых точек . Я действительно не знаю ни одного типа, кроме String который лучше бы включал в себя понятие «неизменяемая последовательность 16-битных значений»; Поскольку System.String имеет специальную поддержку времени выполнения, которая недоступна для любого другого типа, она может предложить лучшую производительность для многих операций, чем это было бы возможно для любого другого типа.
supercat 13 нояб. 2014, в 17:50
1

@TomBlodget: Интересно, что если взять экземпляры Globalization.SortKey , извлечь KeyData и KeyData полученные байты из каждого в String [два байта на символ, сначала MSB ], вызывая String.CompareOrdinal для полученных строк, будет значительно быстрее. чем вызывать SortKey.Compare для экземпляров SortKey или даже вызывать memcmp для этих экземпляров. Учитывая это, мне интересно, почему KeyData возвращает Byte[] а не String ?
supercat 13 нояб. 2014, в 17:56
0

@ TomBlodget +1 отличный ответ! Ради полноты, было бы неплохо добавить, как вернуться обратно. Это сработало для меня: unsafe string GetString(byte[] bytes) { fixed (byte* bptr = bytes) { char* cptr = (char*)(bptr); var result = new string(cptr, 0, bytes.Length / 2); return result; } }
vexe 14 март 2015, в 13:55
0

Увы, правильный ответ, но слишком поздно, никогда не будет иметь столько голосов, сколько принято. Благодаря TL; DR люди будут думать, что принятый ответ ошеломляет. скопировать и проголосовать.
Martin Capodici 30 июнь 2015, в 02:38
0

Люблю этот ответ из-за подхода, но он неправильный - суррогатная пара будет представлять собой единицу кода, но будет 4 байта. Так что codeunitcount * 2 не правильно.
Gerard ONeill 18 авг. 2015, в 15:59
0

@GerardONeill Спасибо за отзыв. В соответствии со спецификацией C #, строка .NET считается последовательностью кодовых единиц UTF-16. Кодовая точка кодируется в одной или нескольких кодовых единицах. В случае UTF-16 это один или два. Когда два, они - "высокий" суррогат, сопровождаемый "низким" суррогатом. Итак, codeunitcount * 2 - это правильное количество байтов для единицы кода. Код не учитывается на всех кодовых.
Tom Blodget 18 авг. 2015, в 19:19
0

Извините, я не знал семантику «Code Unit». Не осознавал ужаса String.Length с суррогатами; казалось очевидным, что длина будет рассчитывать на полномасштабные символы (кодовые точки). Так что да, то, что у вас здесь, будет работать. Это также объясняет, почему и как допускаются непревзойденные суррогаты в строках.
Gerard ONeill 18 авг. 2015, в 19:47
0

@GerardONeill Да, ужас. Я предполагал, что строки должны соответствовать Unicode (включая соответствующие суррогаты), но, увы, ничто не говорит о том, что это должно быть правдой.
Tom Blodget 19 авг. 2015, в 23:59
1

@TomBlodget: вам не нужен fixed или unsafe код, вы также можете сделать это var gch = GCHandle.Alloc("foo", GCHandleType.Pinned); var arr = new byte[sizeof(char) * ((string)gch.Target).Length]; Marshal.Copy(gch.AddrOfPinnedObject(), arr, 0, arr.Length); gch.Free();
Mehrdad 28 янв. 2018, в 04:27
0

@ Mehrdad Да, это также хороший ответ, который отвечает довольно ограничивающим нефункциональным ограничениям задающего вопрос. Я думаю, что закрепленные и фиксированные суммы одинаковы, но это устраняет необходимость в небезопасных.
Tom Blodget 28 янв. 2018, в 19:05

Показать ещё 13 комментариев

40

Первая часть вашего вопроса (как получить байты) уже была отвечена другими: посмотрите в пространстве имен System.Text.Encoding.

Я рассмотрю ваш следующий вопрос: почему вам нужно выбрать кодировку? Почему вы не можете получить это из самого класса строк?

Ответ состоит из двух частей.

Прежде всего, байты, используемые внутри класса string, не имеют значения, и всякий раз, когда вы предполагаете, что это так, вы, вероятно, вводите ошибку.

Если ваша программа полностью находится в мире .Net, вам не нужно беспокоиться о том, чтобы получить байт-массивы для строк вообще, даже если вы отправляете данные по сети. Вместо этого используйте .Net Serialization, чтобы беспокоиться о передаче данных. Вы больше не беспокоитесь о фактических байтах: форматте Serialization делает это для вас.

С другой стороны, что, если вы отправляете эти байты где-то, что вы не можете гарантировать, будут извлекать данные из сериализованного потока .Net? В этом случае вам определенно нужно беспокоиться о кодировании, потому что, очевидно, эта внешняя система заботится. Таким образом, внутренние байты, используемые строкой, не имеют значения: вам нужно выбрать кодировку, чтобы вы могли явно указывать эту кодировку на принимающей стороне, даже если она использует ту же самую кодировку, которая используется внутри .Net.

Я понимаю, что в этом случае вы можете предпочесть использовать фактические байты, хранящиеся в строковой переменной в памяти, где это возможно, с идеей, что она может сэкономить некоторую работу, создав поток байтов. Тем не менее, я полагаю, что это просто не важно по сравнению с тем, чтобы убедиться, что ваш вывод понимается на другом конце, и гарантировать, что вы должны быть явным с вашей кодировкой. Кроме того, если вы действительно хотите совместить свои внутренние байты, вы уже можете просто выбрать кодировку Unicode и получить эту экономию производительности.

Что приводит меня ко второй части... выбор Unicode encoding говорит .Net использовать базовые байты. Вам нужно выбрать эту кодировку, потому что, когда появляется какой-то новый Unicode-Plus, среда исполнения .Net должна быть свободной, чтобы использовать эту новую, лучшую модель кодирования, не нарушая вашу программу. Но, на данный момент (и в будущем), просто выбор кодировки Unicode дает вам то, что вы хотите.

Также важно понять, что ваша строка должна быть переписана на провод, и это предполагает, по крайней мере, некоторый перевод битового шаблона, даже если вы используете подходящую кодировку. Компьютер должен учитывать такие вещи, как Big vs Little Endian, порядок сетевого байта, пакетирование, информацию о сеансе и т.д.

Joel Coehoorn 23 янв. 2009, в 17:05

8

В .NET есть области, где вам нужно получить байтовые массивы для строк. Многие из классов .NET Cryptrography содержат такие методы, как ComputeHash (), которые принимают байтовый массив или поток. У вас нет другого выбора, кроме как сначала преобразовать строку в байтовый массив (выбирая кодировку), а затем при желании обернуть ее в поток. Однако до тех пор, пока вы выбираете кодировку (т.е. UTF8), придерживайтесь ее, с этим проблем не возникает.
Ash 28 янв. 2010, в 09:33

39

Просто чтобы продемонстрировать, что звуковой ответ Mehrdrad работает, его подход может даже сохранить непарные суррогатные символы (из которых многие выровнялись против моего ответа, но в которых все одинаково виновны, например, System.Text.Encoding.UTF8.GetBytes, System.Text.Encoding.Unicode.GetBytes, эти методы кодирования не могут сохранять старшие суррогатные символы d800, а просто заменяют старшие суррогатные символы значением fffd):

using System;

class Program
{     
    static void Main(string[] args)
    {
        string t = "爱虫";            
        string s = "Test\ud800Test"; 

        byte[] dumpToBytes = GetBytes(s);
        string getItBack = GetString(dumpToBytes);

        foreach (char item in getItBack)
        {
            Console.WriteLine("{0} {1}", item, ((ushort)item).ToString("x"));
        }    
    }

    static byte[] GetBytes(string str)
    {
        byte[] bytes = new byte[str.Length * sizeof(char)];
        System.Buffer.BlockCopy(str.ToCharArray(), 0, bytes, 0, bytes.Length);
        return bytes;
    }

    static string GetString(byte[] bytes)
    {
        char[] chars = new char[bytes.Length / sizeof(char)];
        System.Buffer.BlockCopy(bytes, 0, chars, 0, bytes.Length);
        return new string(chars);
    }        
}

Выход:

T 54
e 65
s 73
t 74
? d800
T 54
e 65
s 73
t 74

Попробуйте это с System.Text.Encoding.UTF8.GetBytes или System.Text.Encoding.Unicode.GetBytes, они просто заменят старшие суррогатные символы значением fffd

Каждый раз, когда в этом вопросе возникает движение, я все еще думаю о сериализаторе (будь то от Microsoft или от стороннего компонента), который может сохранять строки, даже если он содержит непарные суррогатные символы; Я гуглю это время от времени: сериализация непарного суррогатного персонажа .NET. Это не заставляет меня терять сон, но это немного раздражает, когда время от времени кто-то комментирует мой ответ, что он ошибочен, но их ответы одинаково несовершенны, когда речь идет о непарных суррогатных персонажах.

Черт, Microsoft должна была просто использовать System.Buffer.BlockCopy в своем BinaryFormatterツ

谢谢!

Michael Buen 30 апр. 2012, в 14:12

3

Разве суррогаты не должны появляться в парах, чтобы сформировать правильные кодовые точки? Если это так, я могу понять, почему данные будут искажены.
dtanders 14 июнь 2012, в 14:27
1

@dtanders Да, это тоже мои мысли, они должны появляться в парах, непарные суррогатные символы просто случаются, если вы намеренно ставите их в строку и делаете их непарными. Чего я не знаю, так это того, почему другие разработчики продолжают настаивать на том, что вместо этого мы должны использовать подход, учитывающий кодирование, поскольку они считают, что подход сериализации ( мой ответ , который был принят более 3 лет) не оставляет непарных суррогатный персонаж нетронут. Но они забыли проверить, что их решения, поддерживающие кодирование, не сохраняют непарный суррогатный характер, ирония судьбы ツ
Michael Buen 14 июнь 2012, в 23:23
0

Если есть библиотека сериализации, которая использует System.Buffer.BlockCopy внутри, все аргументы сторонников кодирования будут спорными
Michael Buen 14 июнь 2012, в 23:23
0

Проблема с вашим тестом заключается в том, что вы сделали неверную строку. «В UTF-16 они всегда должны появляться в парах, как высокий суррогат, за которым следует низкий суррогат, таким образом используя 32 бита для обозначения одной кодовой точки». , Если вы используете / uD800 с / uDC00, тогда он отлично работает во всех форматах Unicode. Важно отметить, что это строка, а не массив символов, поэтому определенные ограничения имеют смысл. Кроме того, он отлично работает даже без / uDC00 в UTF7.
Trisped 11 нояб. 2014, в 19:58
0

@MichaelBuen Мне кажется, что главная проблема в том, что вы пишете большими жирными буквами, говоря, что что-то не имеет значения, а не говорите, что это не имеет значения в их случае. В результате вы поощряете людей, которые смотрят на ваш ответ, совершать базовые ошибки в программировании, которые в будущем вызовут разочарование других. Непарные суррогаты недопустимы в строке. Это не массив символов, поэтому имеет смысл, что преобразование строки в другой формат приведет к ошибке FFFD для этого символа. Если вы хотите выполнять ручные манипуляции со строками, используйте символ [] в соответствии с рекомендациями.
Trisped 11 нояб. 2014, в 20:06
0

@Trisped: Если кто-то захочет преобразовать байтовые массивы в форму, которая позволит проводить быстрое лексикографическое сравнение (с ранжированием сравнения по первому несоответствующему байту), будет ли что-либо быстрее, чем String.CompareOrdinal , использоваться без "небезопасного" кода? Преобразование массивов Char[] с непревзойденными суррогатами в String для использования на них String.CompareOrdinal является мерзким, но какой подход будет лучше?
supercat 12 нояб. 2014, в 21:37
2

@dtanders: System.String - это неизменяемая последовательность Char ; .NET всегда позволяла создавать объект String из любого Char[] и экспортировать его содержимое в Char[] содержащее те же значения, даже если оригинальный Char[] содержит непарные суррогаты.
supercat 12 нояб. 2014, в 21:57
0

@supercat Ну, доктора говорят, что Char должен быть UTF-16, поэтому непревзойденные суррогаты тоже запрещены в Чарсе. Читая все это снова два года спустя, я думаю, что что-то, вероятно, должно выдать ошибку, а не искажать недопустимую последовательность байтов в символе, но что угодно.
dtanders 13 нояб. 2014, в 21:11
0

@dtanders: Нет, совершенно законно иметь непревзойденные суррогаты, но вы делаете вывод иначе, потому что терминология Unicode вас смущает. Там нет такого понятия , как (п) «(в) действительный UTF-16 char ». Если вы читаете спецификацию языка C #, он говорит, что «тип char представляет кодовую единицу UTF-16, а строковый тип представляет последовательность кодовых блоков UTF-16» . Обратите внимание, что в нем не говорится, что string должна быть правильно сформированной «строкой Юникода» (и обратите внимание, что даже «Строка Юникода» явно разрешена быть неправильно сформированной в глоссарии).
Mehrdad 28 янв. 2018, в 04:36
0

@MichaelBuen: Возможно, было бы неплохо отредактировать заметку, о которой я упоминал выше ^, в свой ответ, чтобы люди понимали, что неправильно сформированные строки Юникода на самом деле являются абсолютно допустимыми «строками Юникода» (и совершенно правильными string ).
Mehrdad 28 янв. 2018, в 04:43

Показать ещё 8 комментариев

36

Попробуйте это, намного меньше кода:

System.Text.Encoding.UTF8.GetBytes("TEST String");

Nathan 25 июль 2011, в 23:47

0

Затем попробуйте этот System.Text.Encoding.UTF8.GetBytes("Árvíztűrő tükörfúrógép); и плачьте! Это будет работать, но System.Text.Encoding.UTF8.GetBytes("Árvíztűrő tükörfúrógép").Length != System.Text.Encoding.UTF8.GetBytes("Arvizturo tukorfurogep").Length пока "Árvíztűrő tükörfúrógép".Length == "Arvizturo tukorfurogep".Length
mg30rg 05 дек. 2017, в 16:30
3

@ mg30rg: Как вы думаете, почему ваш пример странный? Конечно, в кодировке с переменной шириной не все символы имеют одинаковые байтовые длины. Что с этим не так?
Vlad 25 фев. 2018, в 01:18

22

Хорошо, я прочитал все ответы, и они говорили об использовании кодировки или о сериализации, которая бросает непарные суррогаты.

Плохо, когда строка, например, исходит из SQL Server, где она была построена из массива байтов, например, хэш пароля. Если мы отбросим что-нибудь от него, он будет хранить недопустимый хеш, и если мы хотим сохранить его в XML, мы хотим оставить его неповрежденным (потому что писатель XML исключает исключение для любого непарного суррогата, который он находит).

Поэтому я использую Base64 кодировку байтовых массивов в таких случаях, но, впрочем, в Интернете есть только одно решение для этого в С#, и в нем есть ошибка, и это только один способ, поэтому я исправил ошибку и выполнил процедуру записи. Вот вы, будущие гуглеры:

public static byte[] StringToBytes(string str)
{
    byte[] data = new byte[str.Length * 2];
    for (int i = 0; i < str.Length; ++i)
    {
        char ch = str[i];
        data[i * 2] = (byte)(ch & 0xFF);
        data[i * 2 + 1] = (byte)((ch & 0xFF00) >> 8);
    }

    return data;
}

public static string StringFromBytes(byte[] arr)
{
    char[] ch = new char[arr.Length / 2];
    for (int i = 0; i < ch.Length; ++i)
    {
        ch[i] = (char)((int)arr[i * 2] + (((int)arr[i * 2 + 1]) << 8));
    }
    return new String(ch);
}

Gman 10 март 2011, в 09:19

0

Вместо того, чтобы использовать ваш собственный метод для преобразования байтового массива в base64, все, что вам нужно было сделать, это использовать встроенный конвертер: Convert.ToBase64String (arr);
Makotosan 10 фев. 2012, в 15:53
0

@Makotosan спасибо, но я использовал Convert.ToBase64String(arr); для byte[] (data) <-> string (serialized data to store in XML file) преобразования base64 byte[] (data) <-> string (serialized data to store in XML file) . Но чтобы получить начальный byte[] (data) мне нужно было что-то сделать со String , содержащей двоичные данные (именно так MSSQL и возвращает их мне). Поэтому приведенные выше функции предназначены для String (binary data) <-> byte[] (easy accessible binary data) .
Gman 06 март 2012, в 19:15

20

Также объясните, почему кодирование следует принимать во внимание. Не могу ли я просто получить, в каких байтах хранится строка? Почему эта зависимость от кодировки?!!!

Потому что нет такой вещи, как "байты строки".

Строка (или более общий текст) состоит из символов: букв, цифр и других символов. Все это. Компьютеры, однако, ничего не знают о персонажах; они могут обрабатывать только байты. Поэтому, если вы хотите сохранить или передать текст с помощью компьютера, вам необходимо преобразовать символы в байты. Как ты это делаешь? Здесь, где на сцену выходят кодировки.

Кодировка - это не что иное, как соглашение о переводе логических символов на физические байты. Простейшей и самой известной кодировкой является ASCII, и это все, что вам нужно, если вы пишете на английском языке. Для других языков вам понадобятся более полные кодировки, поскольку любой из Unicode - самый безопасный выбор в настоящее время.

Итак, короче говоря, попытка "получить байты строки без использования кодировок" столь же невозможна, как "запись текста без использования какого-либо языка".

Кстати, я настоятельно рекомендую вам (и всем, если на то пошло) прочитать эту небольшую часть мудрости: Абсолютный минимум Каждый разработчик программного обеспечения Абсолютно, Положительно должен знать о Unicode и наборах символов (без отговорок!)

Konamiman 16 июль 2009, в 13:38

2

Позвольте мне уточнить: кодировка была использована для перевода «привет» в физические байты. Поскольку строка хранится на моем компьютере, я уверен, что она должна храниться в байтах. Я просто хочу получить доступ к этим байтам, чтобы сохранить их на диске или по любой другой причине. Я не хочу интерпретировать эти байты. Поскольку я не хочу интерпретировать эти байты, необходимость в кодировании на этом этапе столь же неуместна, как и необходимость в телефонной линии для вызова printf.
Agnel Kurian 16 июль 2009, в 15:30
2

Но опять же, нет концепции преобразования текста в физические байты, если только вы не используете кодировку. Конечно, компилятор каким-то образом хранит строки в памяти - но он просто использует внутреннюю кодировку, которую вы (или кто-либо, кроме разработчика компилятора) не знаете. Итак, что бы вы ни делали, вам нужна кодировка для получения физических байтов из строки.
Konamiman 22 июль 2009, в 08:35
0

@Agnel Kurian: Конечно, у строки есть куча байтов, в которых хранится ее содержимое (UTF-16 в воздухе). Но есть веская причина помешать вам получить к нему доступ: строки неизменяемы, и если вы можете получить внутренний массив byte [], вы также можете изменить его. Это нарушает неизменность, что очень важно, поскольку несколько строк могут совместно использовать одни и те же данные. Использование кодировки UTF-16 для получения строки, вероятно, просто скопирует данные.
ollb 14 май 2011, в 00:06
2

@ Gnafoo, копия байтов подойдет.
Agnel Kurian 14 май 2011, в 05:06

Показать ещё 2 комментария

19

С# для преобразования массива string в byte:

public static byte[] StrToByteArray(string str)
{
   System.Text.UTF8Encoding  encoding=new System.Text.UTF8Encoding();
   return encoding.GetBytes(str);
}

Shyam sundar shah 05 июнь 2013, в 11:34

15

Вы можете использовать следующий код для преобразования между массивом строк и байтов.

string s = "Hello World";

// String to Byte[]

byte[] byte1 = System.Text.Encoding.Default.GetBytes(s);

// OR

byte[] byte2 = System.Text.ASCIIEncoding.Default.GetBytes(s);

// Byte[] to string

string str = System.Text.Encoding.UTF8.GetString(byte1);

Jarvis Stark 09 сен. 2014, в 11:58

0

VUP это один решил мою проблему (byte [] ff = ASCIIEncoding.ASCII.GetBytes (barcodetxt.Text);)
r.hamd 09 сен. 2015, в 13:19

15

byte[] strToByteArray(string str)
{
    System.Text.ASCIIEncoding enc = new System.Text.ASCIIEncoding();
    return enc.GetBytes(str);
}

gkrogers 23 янв. 2009, в 14:52

0

Но почему следует учитывать кодировку? Почему я не могу просто получить байты, не видя, какая кодировка используется? Даже если бы это было необходимо, разве сам объект String не должен знать, какая кодировка используется, и просто выгружать то, что находится в памяти?
Agnel Kurian 23 янв. 2009, в 13:46
5

Это не всегда работает. Некоторые специальные символы могут быть потеряны при использовании такого метода, который я нашел трудным путем.
JB King 23 янв. 2009, в 17:14
1

если бы кодировка была utf, она бы не сработала!
ahmadali shafiee 18 сен. 2012, в 06:27

Показать ещё 1 комментарий

11

Я не уверен, но я думаю, что строка сохраняет свою информацию как массив Chars, который неэффективен с байтами. В частности, определение Char означает "Представляет символ Unicode".

возьмите этот пример:

String str = "asdf éß";
String str2 = "asdf gh";
EncodingInfo[] info =  Encoding.GetEncodings();
foreach (EncodingInfo enc in info)
{
    System.Console.WriteLine(enc.Name + " - " 
      + enc.GetEncoding().GetByteCount(str)
      + enc.GetEncoding().GetByteCount(str2));
}

Обратите внимание, что ответ Unicode равен 14 байтам в обоих случаях, тогда как ответ UTF-8 составляет только 9 байтов для первого и только 7 для второго.

Итак, если вы просто хотите использовать байты, используемые строкой, просто используйте Encoding.Unicode, но это будет неэффективно с объемом памяти.

Ed Marty 23 янв. 2009, в 14:55

10

Ключевой проблемой является то, что глиф в строке принимает 32 бита (16 бит для символьного кода), но у байта всего 8 бит. Индивидуальное сопоставление не существует, если вы не ограничиваете себя строками, которые содержат только символы ASCII. System.Text.Encoding имеет множество способов сопоставления строки с байтом [], вам нужно выбрать ту, которая позволяет избежать потери информации, и которая проста в использовании вашим клиентом, когда ей нужно сопоставить байт [] назад к строке.

Utf8 - популярная кодировка, компактная и не потеряющая.

Hans Passant 23 янв. 2009, в 15:27

3

UTF-8 компактен, только если большинство ваших символов в наборе символов английского языка (ASCII). Если бы у вас была длинная строка китайских символов, UTF-16 была бы более компактной кодировкой, чем UTF-8 для этой строки. Это связано с тем, что UTF-8 использует один байт для кодирования ASCII и 3 (или, возможно, 4) в противном случае.
Joel Mueller 23 янв. 2009, в 20:40
7

Правда. Но как вы можете не знать о кодировании, если вы знакомы с обработкой китайского текста?
Hans Passant 24 янв. 2009, в 03:40

8

С появлением Span<T> выпущенного в С# 7.2, канонический метод захвата основного представления памяти в строке в массив управляемых байтов:

byte[] bytes = "rubbish_\u9999_string".AsSpan().AsBytes().ToArray();

Преобразование обратно должно быть непростым, потому что это означает, что вы на самом деле интерпретируете данные как-то, но ради полноты:

string s;
unsafe
{
    fixed (char* f = &bytes.AsSpan().NonPortableCast<byte, char>().DangerousGetPinnableReference())
    {
        s = new string(f);
    }
}

Имена NonPortableCast и DangerousGetPinnableReference должны NonPortableCast аргумент, что вы, вероятно, не должны этого делать.

Обратите внимание, что для работы с Span<T> требуется установить пакет System.Memory NuGet.

Несмотря на это, фактический исходный вопрос и последующие комментарии подразумевают, что базовая память не "интерпретируется" (что, как я полагаю, означает, что она не изменена и не считана за исключением необходимости записывать ее как есть), что указывает на некоторую реализацию Stream класс должен использоваться вместо рассуждения о данных как о строках вообще.

John Rasch 10 янв. 2018, в 21:52

7

Использование:

    string text = "string";
    byte[] array = System.Text.Encoding.UTF8.GetBytes(text);

Результат:

[0] = 115
[1] = 116
[2] = 114
[3] = 105
[4] = 110
[5] = 103

mashet 22 окт. 2013, в 13:45

0

ОП специально просит НЕ указывать кодировку ... "без указания конкретной кодировки вручную"
Ferdz 30 авг. 2018, в 13:40

7

Самый быстрый способ

public static byte[] GetBytes(string text)
{
    return System.Text.ASCIIEncoding.UTF8.GetBytes(text);
}

ИЗМЕНИТЬ как прокомментировал Макотосан, теперь это лучший способ:

Encoding.UTF8.GetBytes(text)

Sunrising 22 март 2010, в 09:45

8

ASCIIEncoding ..... не требуется. Простое использование Encoding.UTF8.GetBytes (текст) является предпочтительным.
Makotosan 17 фев. 2012, в 20:40

5

Как преобразовать строку в byte [] в .NET (С#) без указания конкретной кодировки вручную?

Строка в .NET представляет текст как последовательность кодовых единиц UTF-16, поэтому байты кодируются в памяти уже в UTF-16.

Mehrdad Ответ

Вы можете использовать ответ Mehrdad, но на самом деле он использует кодировку, потому что символы UTF-16. Он вызывает ToCharArray, который, глядя на источник, создает char[] и напрямую копирует в него память. Затем он копирует данные в байтовый массив, который также выделяется. Таким образом, он скрывает два байта и выделяет массив символов, который не используется после вызова.

Том Блоджетт Ответ

Ответ Tom Blodget на 20-30% быстрее, чем Mehrdad, поскольку он пропускает промежуточный этап выделения массива char и копирования в него байтов, но требует компиляции с параметром /unsafe. Если вы абсолютно не хотите использовать кодирование, я думаю, что это путь. Если вы поместите свой логин шифрования в fixed блок, вам даже не нужно выделять отдельный массив байтов и копировать в него байты.

Кроме того, почему кодирование должно быть принято во внимание? Разве я не могу просто получить, в каких байтах хранится строка? Почему существует зависимость от кодировки символов?

Потому что это правильный способ сделать это. string - это абстракция.

Использование кодировки может создать проблемы, если у вас есть "строки" с недопустимыми символами, но этого не должно происходить. Если вы вводите данные в строку с недопустимыми символами, вы делаете это неправильно. Вы, вероятно, должны использовать байтовый массив или кодировку Base64 для начала.

Если вы используете System.Text.Encoding.Unicode, ваш код будет более устойчивым. Вам не нужно беспокоиться о порядке работы системы, в которой будет выполняться ваш код. Вам не нужно беспокоиться, если в следующей версии CLR будет использоваться другая внутренняя кодировка символов.

Я думаю, вопрос не в том, почему вы хотите беспокоиться о кодировке, а в том, почему вы хотите игнорировать ее и использовать что-то еще. Кодирование предназначено для представления абстракции строки в последовательности байтов. System.Text.Encoding.Unicode предоставит вам немного порядковый порядок кодирования байтов и будет выполнять то же самое в каждой системе, сейчас и в будущем.

Jason Goemaat 02 июль 2018, в 21:57

5

Ближайшим подходом к вопросу OP является Tom Blodget, который фактически входит в объект и извлекает байты. Я говорю ближе, потому что это зависит от реализации объекта String.

"Can't I simply get what bytes the string has been stored in?"

Конечно, но там, где возникает фундаментальная ошибка в вопросе. Строка - это объект, который может иметь интересную структуру данных. Мы уже знаем, что это происходит, потому что это позволяет хранить непарных суррогатов. Он может хранить длину. Он может содержать указатель на каждый из "парных" суррогатов, позволяющий быстро подсчитывать. И т.д. Все эти дополнительные байты не являются частью символьных данных.

То, что вы хотите, это каждый символ байтов в массиве. И именно здесь происходит "кодирование". По умолчанию вы получите UTF-16LE. Если вы сами не заботитесь о самих байтах, за исключением поездки туда и обратно, вы можете выбрать любую кодировку, включая "по умолчанию", и преобразовать ее позже (при условии, что те же параметры, что и кодировка по умолчанию, кодовые точки, исправления ошибок, разрешенные вещи, такие как непарные суррогаты и т.д.

Но зачем оставлять "кодировку" до магии? Почему бы не указать кодировку, чтобы вы знали, какие байты вы получите?

"Why is there a dependency on character encodings?"

Кодирование (в этом контексте) просто означает байты, которые представляют вашу строку. Не байты строкового объекта. Вам нужны байты, в которые была сохранена строка, - вот где вопрос был задан наивно. Вам нужны байты строки в смежном массиве, которые представляют строку, а не все другие двоичные данные, которые могут содержать строковый объект.

Это означает, что сохранение строки не имеет значения. Вы хотите, чтобы строка "закодирована" в байты в массиве байтов.

Мне нравится ответ Tom Bloget, потому что он взял вас к направлению "байтов строкового объекта". Это зависит от реализации, и, поскольку он заглядывает внутрь, может быть трудно восстановить копию строки.

Ответ Mehrdad неверен, поскольку он вводит в заблуждение на концептуальном уровне. У вас все еще есть список байтов, закодированных. Его особое решение позволяет сохранить непарные суррогаты - это зависит от реализации. Его конкретное решение не создавало бы строковых байтов точно, если GetBytes по умолчанию возвратил строку в UTF-8.

Я изменил свое мнение об этом (решение Mehrdad) - это не получает байты строки; скорее, он получает байты массива символов, которые были созданы из строки. Независимо от кодирования, тип данных char в С# является фиксированным размером. Это позволяет создать массив байтов с последовательной длиной, и он позволяет воспроизводить массив символов на основе размера массива байтов. Поэтому, если кодировка была UTF-8, но каждый char составлял 6 байтов для размещения наибольшего значения utf8, он все равно работал бы. Так что действительно - кодирование персонажа не имеет значения.

Но использовалось преобразование - каждый символ помещался в поле фиксированного размера (тип символа С#). Однако какое это представление не имеет значения, что технически является ответом на ОП. Итак - если вы все равно собираетесь конвертировать... Почему бы не "закодировать"?

Gerard ONeill 18 авг. 2015, в 17:34

0

Raymon, символы уже представлены некоторым значением Unicode - и все значения Unicode могут быть представлены всеми UTF. Есть более длинное объяснение того, о чем ты говоришь? В какой кодировке существуют эти два значения (или 3 ..)?
Gerard ONeill 11 фев. 2016, в 20:47
0

Это недопустимые символы, которые не поддерживаются никакими диапазонами кодирования. Это не значит, что они на 100% бесполезны. Код, который преобразует любой тип строки в эквивалент байтового массива независимо от кодировок, вовсе не является неправильным решением и в некоторых случаях имеет свои собственные применения.
Mojtaba Rezaeian 11 фев. 2016, в 21:02
0

Хорошо, тогда я думаю, что вы не понимаете проблему. Мы знаем, что это массив, совместимый с юникодом - фактически, потому что это .net, мы знаем, что это UTF-16. Так что этих персонажей там не будет. Вы также не полностью прочитали мой комментарий об изменении внутренних представлений. String - это объект, а не кодированный байтовый массив. Поэтому я не согласен с вашим последним утверждением. Вы хотите, чтобы код преобразовывал все строки Unicode в любую кодировку UTF. Это делает то, что вы хотите, правильно.
Gerard ONeill 11 фев. 2016, в 22:17
0

Объекты представляют собой последовательность данных, первоначально последовательность битов, которые описывают объект в его текущем состоянии. Таким образом, все данные в языках программирования могут быть преобразованы в массив байтов (каждый байт определяет 8 бит), так как вам может потребоваться сохранить некоторое состояние любого объекта в памяти. Вы можете сохранить и сохранить последовательность байтов в файле или памяти и преобразовать ее как целое число, bigint, изображение, строку Ascii, строку UTF-8, зашифрованную строку или свой собственный определенный тип данных после чтения его с диска. Таким образом, вы не можете сказать, что объекты являются чем-то отличным от последовательности байтов.
Mojtaba Rezaeian 11 фев. 2016, в 23:00
0

Мойтаба - я обновил свой ответ с умом на клавиатуре. Однако то, что вы сказали, не подходит для объектов, которые имеют другие объектные зависимости. Но решение Mehrdad, преобразовав его в массив char, устраняет это, делая возможным то, что вы сказали. Все еще пытаюсь решить, стоит ли заменить весь мой ответ ... Но, возможно, мой учебный процесс будет иметь какую-то ценность.
Gerard ONeill 01 нояб. 2017, в 19:49

Показать ещё 3 комментария

5

Вы можете использовать следующий код для преобразования string в byte array в .NET

string s_unicode = "abcéabc";
byte[] utf8Bytes = System.Text.Encoding.UTF8.GetBytes(s_unicode);

Shyam sundar shah 02 сен. 2013, в 12:47

3

Вот моя небезопасная реализация преобразования String в Byte[]:

public static unsafe Byte[] GetBytes(String s)
{
    Int32 length = s.Length * sizeof(Char);
    Byte[] bytes = new Byte[length];

    fixed (Char* pInput = s)
    fixed (Byte* pBytes = bytes)
    {
        Byte* source = (Byte*)pInput;
        Byte* destination = pBytes;

        if (length >= 16)
        {
            do
            {
                *((Int64*)destination) = *((Int64*)source);
                *((Int64*)(destination + 8)) = *((Int64*)(source + 8));

                source += 16;
                destination += 16;
            }
            while ((length -= 16) >= 16);
        }

        if (length > 0)
        {
            if ((length & 8) != 0)
            {
                *((Int64*)destination) = *((Int64*)source);

                source += 8;
                destination += 8;
            }

            if ((length & 4) != 0)
            {
                *((Int32*)destination) = *((Int32*)source);

                source += 4;
                destination += 4;
            }

            if ((length & 2) != 0)
            {
                *((Int16*)destination) = *((Int16*)source);

                source += 2;
                destination += 2;
            }

            if ((length & 1) != 0)
            {
                ++source;
                ++destination;

                destination[0] = source[0];
            }
        }
    }

    return bytes;
}

Это намного быстрее, чем принятый anwser, даже если он не такой элегантный, как есть. Вот мои тесты секундомера более 10000000 итераций:

[Second String: Length 20]
Buffer.BlockCopy: 746ms
Unsafe: 557ms

[Second String: Length 50]
Buffer.BlockCopy: 861ms
Unsafe: 753ms

[Third String: Length 100]
Buffer.BlockCopy: 1250ms
Unsafe: 1063ms

Чтобы использовать его, вы должны отметить "Разрешить небезопасный код" в своих свойствах построения проекта. В соответствии с .NET Framework 3.5 этот метод также можно использовать как расширение строки:

public static unsafe class StringExtensions
{
    public static Byte[] ToByteArray(this String s)
    {
        // Method Code
    }
}

Tommaso Belluzzo 15 янв. 2013, в 13:41

0

Является ли значение RuntimeHelpers.OffsetToStringData кратным 8 в версиях .NET для Itanium? Потому что в противном случае это не удастся из-за невыровненных чтений.
Jon Hanna 06 янв. 2014, в 14:09
0

не будет ли проще вызвать memcpy ? stackoverflow.com/a/27124232/659190
Jodrell 25 нояб. 2014, в 10:33

2

Просто используйте это:

byte[] myByte= System.Text.ASCIIEncoding.Default.GetBytes(myString);

alireza amini 30 июнь 2015, в 15:50

0

... и потерять всех персонажей со скоростью прыжка выше 127. На моем родном языке совершенно правильно написать «Árvíztűrő tükörfúrógópé.». System.Text.ASCIIEncoding.Default.GetBytes("Árvíztűrő tükörfúrógép.").ToString(); вернется "Árvizturo tukörfurogép." потерять информацию, которую невозможно восстановить. (И я еще не упомянул азиатские языки, где вы потеряете все символы.)
mg30rg 11 янв. 2018, в 15:09

2

Если вам действительно нужна копия базовых байтов строки, вы можете использовать такую функцию, как следующая. Однако вы не должны читать, чтобы узнать, почему.

[DllImport(
        "msvcrt.dll",
        EntryPoint = "memcpy",
        CallingConvention = CallingConvention.Cdecl,
        SetLastError = false)]
private static extern unsafe void* UnsafeMemoryCopy(
    void* destination,
    void* source,
    uint count);

public static byte[] GetUnderlyingBytes(string source)
{
    var length = source.Length * sizeof(char);
    var result = new byte[length];
    unsafe
    {
        fixed (char* firstSourceChar = source)
        fixed (byte* firstDestination = result)
        {
            var firstSource = (byte*)firstSourceChar;
            UnsafeMemoryCopy(
                firstDestination,
                firstSource,
                (uint)length);
        }
    }

    return result;
}

Эта функция быстро доставит вам копию байтов, лежащих в основе вашей строки. Вы получите эти байты любым способом, который они кодируют в вашей системе. Эта кодировка почти наверняка является UTF-16LE, но это деталь реализации, которую вам не нужно заботиться.

Чтобы просто позвонить, безопаснее, проще и надежнее,

System.Text.Encoding.Unicode.GetBytes()

По всей вероятности, это даст тот же результат, проще набрать, и байты всегда будут округлены с вызовом

System.Text.Encoding.Unicode.GetString()

Jodrell 25 нояб. 2014, в 11:41

2

простой код с LINQ

string s = "abc"
byte[] b = s.Select(e => (byte)e).ToArray();

EDIT: как указано ниже, это не очень хорошо.

но вы все равно можете использовать его для понимания LINQ с более подходящим кодированием:

string s = "abc"
byte[] b = s.Cast<byte>().ToArray();

Avlin 11 окт. 2012, в 11:32

2

Это чуть быстрее , не говоря уже о самом быстром . Это, безусловно, интересная альтернатива, но по сути она такая же, как Encoding.Default.GetBytes(s) которая, кстати, намного быстрее . Быстрое тестирование показывает, что Encoding.Default.GetBytes(s) работает как минимум на 79% быстрее. YMMV.
WynandB 25 окт. 2013, в 04:36
4

Попробуйте это с € . Этот код не завершится с ошибкой , но вернет неправильный результат (что еще хуже). Попробуйте привести к short вместо byte чтобы увидеть разницу.
Hans Keﬆing 18 дек. 2013, в 08:57

2

bytes[] buffer = UnicodeEncoding.UTF8.GetBytes(string something); //for converting to UTF then get its bytes

bytes[] buffer = ASCIIEncoding.ASCII.GetBytes(string something); //for converting to ascii then get its bytes

user1120193 02 янв. 2012, в 12:18

2

Два способа:

public static byte[] StrToByteArray(this string s)
{
    List<byte> value = new List<byte>();
    foreach (char c in s.ToCharArray())
        value.Add(c.ToByte());
    return value.ToArray();
}

и

public static byte[] StrToByteArray(this string s)
{
    s = s.Replace(" ", string.Empty);
    byte[] buffer = new byte[s.Length / 2];
    for (int i = 0; i < s.Length; i += 2)
        buffer[i / 2] = (byte)Convert.ToByte(s.Substring(i, 2), 16);
    return buffer;
}

Я предпочитаю использовать нижнюю часть чаще, чем верхнюю, не сравнивая их по скорости.

harmonik 19 фев. 2009, в 22:41

4

А как насчет многобайтовых символов?
Agnel Kurian 23 фев. 2009, в 09:57
0

c.ToByte () является частным: S
Khodor 20 июнь 2011, в 08:41
0

@AgnelKurian Msdn говорит: «Этот метод возвращает значение байта без знака, которое представляет числовой код объекта Char, переданного ему. В .NET Framework объект Char является 16-разрядным значением. Это означает, что метод подходит для возврата числовые коды символов в диапазоне символов ASCII или в элементах управления Unicode C0 и базовой латинице, а также диапазонах управления C1 и Latin-1, от U + 0000 до U + 00FF. "
mg30rg 11 янв. 2018, в 11:30

Показать ещё 1 комментарий

1

Это зависит от того, что вы хотите байтов FOR

Это потому, что, поскольку Тайлер так метко сказал, "Строки не являются чистыми данными, у них также есть information." В этом случае информация представляет собой кодировку, которая была принята при создании строки.

Предполагая, что у вас есть двоичные данные (а не текст), хранящиеся в строке

Это основано на комментариях OP по его собственному вопросу, и это правильный вопрос, если я понимаю подсказки OP в прецеденте.

Сохранение двоичных данных в строках, вероятно, является неправильным подходом из-за предполагаемого кодирования, упомянутого выше! Независимо от того, какая программа или библиотека хранит эти двоичные данные в string (вместо массива byte[], который был бы более уместным), он уже проиграл битву до ее начала. Если они отправляют вам байты в запросе/ответе REST или что-либо, что должно передавать строки, Base64 будет правильным подходом.

Если у вас есть текстовая строка с неизвестной кодировкой

Все остальные неверно ответили на этот неправильный вопрос.

Если строка выглядит хорошо как-есть, просто выберите кодировку (желательно, начиная с UTF), используйте соответствующую функцию System.Text.Encoding.???.GetBytes() и сообщите, кто бы вы ни отправили байты, в которые вы выбрали кодировку.

NH. 08 нояб. 2017, в 19:38

1

Строка может быть преобразована в массив байтов несколькими способами, из-за следующего факта:.NET поддерживает Unicode, а Unicode стандартизирует несколько разностных кодировок, называемых UTF. Они имеют различную длину байтового представления, но эквивалентны в этом смысле, что при кодировании строки он может быть закодирован обратно в строку, но если строка кодируется одним UTF и декодируется в предположении о разном UTF, если его можно навинтить вверх.

Кроме того,.NET поддерживает кодировки, отличные от Unicode, но они недействительны в общем случае (будут действительны только в том случае, если ограниченный подмножество кодовой точки Unicode используется в реальной строке, такой как ASCII). Внутренне .NET поддерживает UTF-16, но для представления потока обычно используется UTF-8. Это также стандартно-де-факто для Интернета.

Неудивительно, что сериализация строки в массив байтов и десериализация поддерживается классом System.Text.Encoding, который является абстрактным классом; его производные классы поддерживают конкретные кодировки: ASCIIEncoding и четыре UTF (System.Text.UnicodeEncoding поддерживает UTF-16)

Ref эта ссылка.

Для сериализации массива байтов с помощью System.Text.Encoding.GetBytes. Для обратной операции используйте System.Text.Encoding.GetChars. Эта функция возвращает массив символов, поэтому для получения строки используйте конструктор строк System.String(char[]).
Ссылка на эту страницу.

Пример:

string myString = //... some string

System.Text.Encoding encoding = System.Text.Encoding.UTF8; //or some other, but prefer some UTF is Unicode is used
byte[] bytes = encoding.GetBytes(myString);

//next lines are written in response to a follow-up questions:

myString = new string(encoding.GetChars(bytes));
byte[] bytes = encoding.GetBytes(myString);
myString = new string(encoding.GetChars(bytes));
byte[] bytes = encoding.GetBytes(myString);

//how many times shall I repeat it to show there is a round-trip? :-)

Vijay Singh Rana 11 июнь 2014, в 12:02

0

Я написал расширение Visual Basic, подобное принятому ответу, но напрямую использую память .NET и Marshalling для преобразования, и он поддерживает диапазоны символов, не поддерживаемые другими способами, например UnicodeEncoding.UTF8.GetString или UnicodeEncoding.UTF32.GetString или даже MemoryStream and BinaryFormatter (недопустимые символы: ? и ChrW(55906) и ChrW(55655)):

<Extension> _
Public Function ToBytesMarshal(ByRef str As String) As Byte()
    Dim gch As GCHandle = GCHandle.Alloc(str, GCHandleType.Pinned)
    Dim handle As IntPtr = gch.AddrOfPinnedObject
    ToBytesMarshal = New Byte(str.Length * 2 - 1) {}
    Try
        For i As Integer = 0 To ToBytesMarshal.Length - 1
            ToBytesMarshal.SetValue(Marshal.ReadByte(IntPtr.Add(handle, i)), i)
        Next
    Finally
        gch.Free()
    End Try
End Function

<Extension> _
Public Function ToStringMarshal(ByRef arr As Byte()) As String
    Dim gch As GCHandle = GCHandle.Alloc(arr, GCHandleType.Pinned)
    Try
        ToStringMarshal = Marshal.PtrToStringAuto(gch.AddrOfPinnedObject)
    Finally
        gch.Free()
    End Try
End Function

Mojtaba Rezaeian 11 фев. 2016, в 20:53

0

Символ - это ключ поиска в таблице шрифтов и лексические традиции, такие как заказы, версии верхнего и нижнего регистра и т.д.

Следовательно, символ не является байтом (8 бит), а байт не является символом. В частности, 256 перестановок байта не могут разместить тысячи символов на некоторых письменных языках, а тем более на всех языках. Следовательно, были разработаны различные методы кодирования символов. Некоторые кодируют для определенного класса языков (ASCII-кодирование); несколько языков с использованием кодовых страниц (Extended ASCII); или, амбициозно, все языки, выборочно включающие дополнительные байты по мере необходимости, Unicode.

В рамках системы, такой как .NET framework, String подразумевает конкретную кодировку символов. В .NET это кодирование Unicode. Поскольку структура читает и записывает Unicode по умолчанию, обращение к кодировке символов обычно не требуется в .NET.

Однако, как правило, для загрузки символьной строки в систему из потока байтов вам нужно знать исходную кодировку, чтобы поэтому интерпретировать и впоследствии правильно ее переводить (иначе коды будут считаться уже находящимися в системной кодировке по умолчанию и, таким образом, делают тарабарщину). Аналогично, когда строка записывается во внешний источник, она будет записана в определенной кодировке.

George 28 авг. 2014, в 16:46

1

Юникод не является кодировкой. Юникод - это абстрактное сопоставление символов с кодовыми точками. Есть несколько способов кодирования Unicode; в частности, UTF-8 и UTF-16 являются наиболее распространенными. .NET использует UTF-16, хотя я не уверен, что это UTF-16 LE или UTF-16 BE.
Kevin 26 авг. 2017, в 03:22

-1

От byte[] до string:

        return BitConverter.ToString(bytes);

Piero Alberto 21 янв. 2015, в 14:14

1

Это не то, о чем просил ОП ...
ZX9 23 нояб. 2016, в 13:22

-1

Чтобы преобразовать строку в байт [], используйте следующее решение:

string s = "abcdefghijklmnopqrstuvwxyz";
byte[] b = System.Text.UTF32Encoding.GetBytes(s);

Я надеюсь, что это помогает.

Knickerless-Noggins 09 апр. 2014, в 14:07

0

это не решение проблемы!
Sebastian 12 апр. 2014, в 17:12
0

Почему ты так говоришь?
Knickerless-Noggins 13 апр. 2014, в 03:20
0

Перед вашим редактированием это было: s.Select(e => (byte)e) это работает только для символов ASCII. Но тип char предназначен для хранения единиц UTF16. Теперь после вашего редактирования код, по крайней мере, правильный, но он меняется от среды к среде, что делает его практически бесполезным. IMHO Encoding.Default следует использовать только для взаимодействия с устаревшим кодом Windows «Ansi codepage».
Sebastian 13 апр. 2014, в 08:04
0

Хорошая точка зрения. Как вы относитесь к byte [] b = new System.Text.UTF32Encoding (). GetBytes (s); ?
Knickerless-Noggins 14 апр. 2014, в 08:30
0

use byte[] b = System.Text.UTF32Encoding.GetBytes(s); , UTF8 одинаково хорошо.
Sebastian 14 апр. 2014, в 09:12

Показать ещё 3 комментария

-3

// C# to convert a string to a byte array.
public static byte[] StrToByteArray(string str)
{
    System.Text.ASCIIEncoding  encoding=new System.Text.ASCIIEncoding();
    return encoding.GetBytes(str);
}


// C# to convert a byte array to a string.
byte [] dBytes = ...
string str;
System.Text.ASCIIEncoding enc = new System.Text.ASCIIEncoding();
str = enc.GetString(dBytes);

cyberbobcat 23 янв. 2009, в 14:13

6

1) Это приведет к потере данных из-за использования ASCII в качестве кодировки. 2) Нет смысла создавать новое ASCIIEncoding - просто используйте свойство Encoding.ASCII.
Jon Skeet 27 янв. 2009, в 06:35

-5

Вот код:

// Input string.
const string input = "Dot Net Perls";

// Invoke GetBytes method.
// ... You can store this array as a field!
byte[] array = Encoding.ASCII.GetBytes(input);

// Loop through contents of the array.
foreach (byte element in array)
{
    Console.WriteLine("{0} = {1}", element, (char)element);
}

sagardhavale 23 янв. 2013, в 06:54

4

Может не работать, если строка не ASCII.
Agnel Kurian 24 янв. 2013, в 13:38

-7

Мне пришлось преобразовать строку в массив байтов для проекта последовательной связи - мне приходилось обрабатывать 8-битные символы, и мне не удалось найти метод с использованием конвертеров фреймворка, чтобы сделать это, чтобы не добавлять двух -байтные записи или неверный перевод байтов с восьмым битом. Поэтому я сделал следующее, которое работает:

string message = "This is a message.";
byte[] bytes = new byte[message.Length];
for (int i = 0; i < message.Length; i++)
    bytes[i] = (byte)message[i];

IgnusFast 21 янв. 2016, в 18:49

3

Это небезопасно, и вы потеряете исходные данные, если входная строка содержит символы диапазона Юникод.
Mojtaba Rezaeian 11 фев. 2016, в 19:43
0

Это было для проекта последовательной связи, который все равно не мог обрабатывать юникод. Конечно, это был чрезвычайно узкий случай.
IgnusFast 06 фев. 2017, в 20:55

-15

Вопрос OP: "Как преобразовать массив string в byte в .NET(С#)?" [Так в оригинале]

Вы можете использовать следующий код:

static byte[] ConvertString (string s) {
    return new byte[0];
}

В качестве преимущества кодирование не имеет значения! Ой, подождите, это обычное кодирование... это просто тривиально и очень сильно.

Thomas Eding 28 сен. 2013, в 01:07

0

Это не обращение. Это новый байтовый массив. ОП действительно нуждался в указателе и memcpy. Или приведение: byte [] b = (byte []) s ;.
Lodewijk 28 апр. 2014, в 12:44
1

Кроме того, "s" здесь даже не используется. Определенно не решение.
TechNyquist 14 окт. 2014, в 07:18

Ещё вопросы

Ваше замешательство по поводу роли кодирования заставляет меня задуматься, если это правильный вопрос. Почему вы пытаетесь преобразовать строку в байтовый массив? Что вы собираетесь делать с байтовым массивом?
Я собираюсь зашифровать это. Я могу зашифровать его без конвертации, но я все же хотел бы знать, почему здесь используется кодирование. Просто дай мне байты, это то, что я говорю.
Если вы шифруете его, то после дешифрования вам все равно нужно будет знать, что это за кодировка, чтобы вы знали, как заново интерпретировать эти байты обратно в строку.
Каждая строка хранится как массив байтов, верно? Почему я не могу просто получить эти байты?
Посмотрите ответ Джона Скита в посте с точным вопросом . Это объяснит, почему вы зависите от кодировки.
Я думаю, что Энтони пытается устранить фундаментальное несоответствие в <300 символов. Вы предполагаете некоторое последовательное внутреннее представление строки, когда на самом деле это представление может быть чем угодно. Чтобы создать и в конечном итоге декодировать поток байтов, вы должны выбрать используемую кодировку.
«Строка - это массив символов, где символ не является байтом в мире .Net» Хорошо, но независимо от кодировки каждый символ отображается в один или несколько байтов. Могу ли я иметь эти байты, пожалуйста, без указания кодировки?
Кодировка - это то, что отображает символы в байты. Например, в ASCII буква «А» соответствует номеру 65. В другой кодировке она может отличаться. Однако высокоуровневый подход к строкам, принятым в .NET Framework, делает это в значительной степени неактуальным (за исключением этого случая).
Вы можете выбрать легкий маршрут и просто использовать UTF-8 с обеих сторон.
В случае .NET простой маршрут - использование UTF-16 с обеих сторон, поскольку именно это .NET использует внутри.
Чтобы играть адвокат дьявола: Если вы хотите получить байты строки в памяти (как .NET использует их) и каким-либо образом манипулировать ими (например, CRC32), и НИКОГДА не хотел декодировать его обратно в исходную строку ... это не ясно, почему вы заботитесь о кодировках или о том, какой метод выбрать.
Удивлен, никто еще не дал эту ссылку: joelonsoftware.com/articles/Unicode.html
@Bevan: от 23 января 2009, вы опоздали на вечеринку ;-) stackoverflow.com/questions/472906/net-string-to-byte-array-c/…
Возможный дубликат Как вы преобразуете строку в байтовый массив в .Net
@AgnelKurian, А char является struct , которая просто происходит в настоящее время хранения значений в качестве 16-битного числа (UTF-16). То, что вы действительно спрашиваете (получите байты символов), теоретически невозможно, потому что теоретически не существует. У char или string нет кодировки по определению. Что если представление памяти изменилось на UTF-32? Ваши «получить байты, отправить их обратно» потерпят неудачу из- за кодирования, потому что вы избежали кодирования . Так "Почему эта зависимость от кодирования? !!!" Зависит от кодирования, чтобы ваш код был надежным.
@Bevan, потому что необходимые ошибки, чтобы пойти с той ссылкой, не вписываются в комментарий на 600 символов, и были бы не по теме в качестве ответа?
@JonHanna просветить нас. Сообщение в блоге не будет неуместным в этом случае.
@AgnelKurian он видел, что цитируемые неправильные вещи были одной из моих причин для написания hackcraft.net/xmlUnicode, хотя я стремился сделать его полезным для себя, а не просто спорить о мифах о клингоне или указывать, что EBCDIC все еще встречается в дикой природе ,
Символ не является байтом, а байт - не символ. Символ - это и ключ к таблице шрифтов, и лексическая традиция. Строка - это последовательность символов. (Слова, абзацы, предложения и названия также имеют свои собственные лексические традиции, которые оправдывают их собственные определения типов - но я отвлекся). Как и целые числа, числа с плавающей точкой и все остальное, символы кодируются в байты. Было время, когда кодировка была проста один в один: ASCII. Однако, чтобы приспособить всю человеческую символику, 256 перестановок байта были недостаточны, и были разработаны кодировки, чтобы выборочно использовать больше байтов.
@usr: вы только что сделали недействительными почти все ответы с помощью своего редактирования, а также затруднили людям поиск этого вопроса с помощью их естественного поискового запроса (но вы, вероятно, сделали это намеренно).
@ Mehrdad существующие ответы уже были недействительными (не то, что спросили). Ваш - в значительной степени единственный ответ, который фактически отвечает только на то, что спросили. (Тем не менее, я рекомендую вам отредактировать свой ответ, включив в него несколько предупреждений о том, что этот подход практически никогда не является лучшим.)
Четыре года спустя я поддерживаю свой первоначальный комментарий по этому вопросу. Это в корне неверно, потому что тот факт, что мы говорим о строке, подразумевает интерпретацию . Кодирование этой строки является неявной частью сериализованного контракта, в противном случае это просто набор бессмысленных битов. Если вам нужны бессмысленные биты, зачем вообще генерировать их из строки? Просто напишите связку 0 и покончите с этим.
@ Грег Д, Допустим, у моего клиента есть некоторые числа с плавающей запятой в каком-то экзотическом формате, используемом для хранения астрономических расстояний. Он использует только этот формат. Он хочет, чтобы я позаботился о написании и чтении этих цифр. Я не интерпретирую их. Мой клиент интерпретирует числа, и все, что ему нужно, - это байты, которые мне нужно написать. При чтении все, что ему нужно от меня - это байты, которые я написал. Хранение флага формата каждый раз в дополнение к байтам является пустой тратой пространства, когда он использует только один формат для всех чисел.
@Annel Kurian: Если вы пишете произвольные двоичные данные, пишите двоичные данные. Это не имеет ничего общего с первоначальным вопросом (который в основном касается сериализации строки).
@GregD, так что вы хотите хранить одну и ту же кодировку 1000 раз для 1000 разных строк?
@AgnelKurian: Ты меня троллишь? Этот вопрос не имеет смысла. Я могу заключить, что вы имели в виду что-то вроде: «... хранить информацию о кодировке, которая использовалась 1000 раз для 1000 различных строк». Никто никогда не говорил ничего о том, чтобы сделать это, и это было явно отрицано ранее, когда я заявил: «Кодирование этой строки является неявной частью сериализованного контракта ...», так что вы не могли этого иметь в виду.
@GregD: есть ли какой-либо встроенный тип, представляющий неизменяемую последовательность байтов? Я могу легко оценить, что использование строк для хранения двоичных данных ужасно, но я не уверен, что лучше? Использование Byte[] часто требует защитных копий каждый раз, когда данные передаются; напротив, поскольку String является неизменяемой, ссылки можно безопасно передавать без необходимости копировать какие-либо данные.
MemoryStream w / Writable = false ( msdn.microsoft.com/en-us/library/1167fw72%28v=vs.110%29.aspx ) будет моей первой мыслью. В зависимости от сценария, передача его так же, как простой поток, также даст больше возможности компоновки. У меня не было возможности использовать его, но старый класс Buffer ( msdn.microsoft.com/en-us/library/… ) также может быть приемлемым вариантом, если производительность важна, хотя я не думаю, что это поддерживает доступ только для чтения. (Я мог бы усомниться в том, что вы передаете байт [] тому, чему вы не доверяете - может помочь ReadOnlyCollection <T>)
supercat - почему бы не использовать строку в кодировке base64? Это строка, и , таким образом , является неизменным , и каждый из символов отображения удобно. И есть простое преобразование из одного в другое (не уверен, что это метод расширения, связанный с веб или что).
@AgnelKurian «Он хочет, чтобы я позаботился о написании и чтении этих цифр. Я не интерпретирую их». - Если бы вы их не интерпретировали, у вас были бы байты, а не «цифры». Тогда ваш вопрос исчезнет. Если у вас есть «числа», это означает, что вы уже интерпретировали / расшифровали их и выбросили исходные байтовые данные. И теперь вы хотите попробовать и восстановить данные (кодировать), что может быть даже невозможно. Каковы были цифры на самом деле Base-10, и, запихав их в поплавки Base-2, вы уничтожили их навсегда? Не хотите кодировать? Не декодируйте тогда. Хотите байты? Тогда используйте байты.
Вы предполагаете, что System.Text.Encoding.Unicode.GetBytes(); делает какое-то дорогостоящее преобразование, которое вы хотите избежать? Если это так, ваше предположение неверно.
Ваш первый комментарий (цитата): каждая строка хранится в виде массива байтов, верно? Почему я не могу просто получить эти байты? Нет, каждая строка (более или менее) хранится в виде массива 16-битных кодовых единиц, которые соответствуют UTF-16. Там будут суррогатные пары, если ваша строка содержит символы Юникода вне плоскости 0. Вы можете легко получить это представление: var array1 = yourString.ToCharArray(); Если по какой-то причине вы хотите, чтобы единицы кода UInt16 значениями UInt16 , выполните var array2 = Array.ConvertAll<char, ushort>(array1, x => x); , Это ushort[] там.
@AgnelKurian «Мой клиент интерпретирует числа, и все, что ему нужно, это дать мне байты, которые мне нужно написать». Тогда пусть клиент даст вам байтовый массив, а не строку! Как только они помещают его в строку, они уже определились с кодировкой (будь то ASCII, UTF-8 или иным образом). Также, пожалуйста, поместите предложение, которое я цитировал, в текст вопроса, чтобы пример использования вопроса был более понятным.
Кодирование необходимо, потому что от него зависит размер (в байтах) представляемых символов, и не только потому, что sizeof (char) различается для ASCII (1 байт) и WideString (2 байта), но и потому, что он может даже варьироваться - в в случае UTF-8 символ представлен от 1 до 4 байтов
Не беспокоиться о кодировании это одно. Нежелание указывать кодировку - это совсем другое. Если вас разочаровывает то, какую кодировку вам следует использовать, просто выберите одну и используйте ее все время для преобразования между строкой в байтовый массив и байтовым массивом в строку. Например, всегда используйте Unicode или UTF-8. Твой выбор. После того, как вы выбрали кодировку, вам больше не нужно беспокоиться, и ваша проблема решена. Но если ваше разочарование вызвано необходимостью указать кодировку, то вам лучше привыкнуть к ней, потому что, нравится вам это или нет, происходит кодировка.
Вы всегда должны беспокоиться о том, какая кодировка вашей строки представлена в байтовом массиве. Предположение, что строка представлена в памяти байтовым массивом, является произвольным. Так происходит в нынешней реализации .net. Никто не может гарантировать вам, что он не изменится на реализацию связанного списка в будущем (или любую другую экзотическую структуру данных). Даже если вы используете одну и ту же систему и ту же программу для чтения зашифрованных данных, всегда есть вероятность, что будущий патч .net сломает все на части, потому что вы не указали, в какой кодировке вы работаете.
Но почему следует учитывать кодировку? Почему я не могу просто получить байты, не видя, какая кодировка используется? Даже если бы это было необходимо, разве сам объект String не должен знать, какая кодировка используется, и просто выгружать то, что находится в памяти?
Строки .NET всегда кодируются как Unicode. Так что используйте System.Text.Encoding.Unicode.GetBytes (); чтобы получить набор байтов, который .NET использовал бы для представления символов. Однако зачем вам это? Я рекомендую UTF-8, особенно когда большинство символов в западном латинском наборе.
Кроме того: точные байты, используемые внутри строки, не имеют значения, если система, которая их извлекает, не обрабатывает эту кодировку или обрабатывает ее как неправильную кодировку. Если это все в .Net, зачем вообще конвертировать в массив байтов. В противном случае лучше указывать кодировку
@Joel, будьте осторожны с System.Text.Encoding.Default, так как он может отличаться на каждой машине, на которой он запущен. Вот почему рекомендуется всегда указывать кодировку, например UTF-8.
Вам не нужны кодировки, если только вы (или кто-то еще) на самом деле не намерены интерпретировать данные вместо того, чтобы рассматривать их как общий «блок байтов». Для таких вещей, как сжатие, шифрование и т. Д., Беспокоиться о кодировке не имеет смысла. Смотрите мой ответ, чтобы узнать, как это сделать, не беспокоясь о кодировке. (Я мог бы дать -1 за то, что сказал, что тебе нужно беспокоиться о кодировках, когда ты этого не делаешь, но сегодня я не чувствую себя особенно злым.: P)
Хорошая дискуссия, иногда мне нужна одна из вышеуказанных альтернатив. Но также выглядит так: «Один дурак может спросить, что могут ответить более семи мудрецов» :-)
+1; @Mehrdad: GetString метод и интерпретация выхода GetBytes метода. Вот почему вы должны беспокоиться об использовании одинаковой кодировки в обоих методах.
Я думаю, что важно отметить, что это не «зависит от кодировки вашей строки» . .NET скрывает это от вас. Из того, что я могу сказать, String представлена последовательностью System.Chars, которая представлена как UTF-16. Важно то, что вы должны хранить байты в некоторой кодировке и знать, чтобы получить их с той же кодировкой . Это не то же самое, что защита паролем ваших файлов и попытка использовать другой пароль для их снятия защиты.
Принятый ответ не только очень сложный, но и рецепт катастрофы.
В случае, если принятый ответ будет изменен, для целей записи, это ответ Mehrdad в это время и дату. Надеемся, что ОП еще раз займется этим и примет лучшее решение.
в принципе хорошо, но кодировка должна быть System.Text.Encoding.Unicode чтобы быть эквивалентной ответу Мерадада.
Вопрос был отредактирован несколько раз с момента первоначального ответа, так что, возможно, мой ответ немного устарел. Я никогда не намеревался дать преувеличение, эквивалентное ответу Мердада, но дать разумный способ сделать это. Но вы можете быть правы. Однако фраза «получить, в каких байтах была сохранена строка» в исходном вопросе очень неточна. Хранится где? В памяти? На диске? Если бы в памяти, System.Text.Encoding.Unicode.GetBytes , вероятно, был бы более точным.
После просмотра всех ответов, многочисленных комментариев и моего осмотра памяти (не забывайте, Visual Studio допускает осмотр памяти), что правильный ответ - Encoding.Default.GetBytes .
@AMissico, ваше предложение содержит ошибки, если только вы не уверены, что ваша строка совместима с кодировкой вашей системы по умолчанию (строка, содержащая только символы ASCII в вашей стандартной системной кодировке по умолчанию). Но нигде ОП не заявляет об этом.
@Фредерик; Я просто высказываю свое мнение после просмотра всей информации и запуска тестовых сценариев с символами Unicode. Я также использовал TextPad, HexEdit, WinHex и Visual Studio для просмотра этих байтов. Результаты Encoding.Default.GetBytes такие же, как у этих приложений. Я не даю ответ на вопрос ОП.
@AMissico Это может привести к тому, что программа будет давать разные результаты в разных системах . Это никогда не хорошо. Даже если это для создания хэша или чего-то еще (я полагаю, это означает, что OP означает «шифровать»), одна и та же строка всегда должна давать один и тот же хэш.
+1 за UTF-8. Это то, что предполагают те, кто говорит, что кодирование не имеет значения. UTF-8 является строгим значением для кодирования значения беззнакового символа (BYTE). Все остальное ... нет.
@jinzai, а как насчет UTF-16, который .NET использует внутри себя?
UTF-16 является частью «всего остального», о котором я говорил. Первоначальный вопрос - имел в виду «представления байтов». Что касается UTF-16 - значения отображаются одинаково для ASCII, но - это слова, а не байты. Я вполне уверен, что все знают, что .NET использует UTF-16 внутри, однако - я всегда использую UTF-8 для таких вещей, как XML. .NET теперь уважает это, по крайней мере.
Вы можете использовать один и тот же экземпляр BinaryFormatter для всех этих операций
Очень интересно. По-видимому, это исключит любой высокий суррогатный символ Unicode. Смотрите документацию по [BinaryFormatter ]
@ ErikA.Brandstadmoen Смотрите мои тесты здесь: stackoverflow.com/a/10384024
«1 символ может быть представлен 1 или более байтами» Я согласен. Я просто хочу эти байты независимо от того, в какой кодировке находится строка. Единственный способ сохранить строку в памяти - это байты. Четные символы хранятся как 1 или более байтов. Я просто хочу заполучить их байты.
Вам не нужны кодировки, если только вы (или кто-то еще) на самом деле не намерены интерпретировать данные вместо того, чтобы рассматривать их как общий «блок байтов». Для таких вещей, как сжатие, шифрование и т. Д., Беспокоиться о кодировке не имеет смысла. Смотрите мой ответ, чтобы узнать, как это сделать, не беспокоясь о кодировке.
@Mehrdad - В общем, но первоначальный вопрос, как было сказано, когда я первоначально ответил, не уточнил, что OP будет происходить с этими байтами после того, как они преобразовали их, и для будущих поисковиков информация, которая уместна - это довольно хорошо охвачен ответом Джоэла - и, как вы заявляете в своем ответе: при условии, что вы остаетесь в мире .NET и используете свои методы для конвертации в / из, вы счастливы. Как только вы выйдете за пределы этого, кодирование будет иметь значение.
Одна кодовая точка может быть представлена до 4 байтов. (Одна единица кода UTF-32, суррогатная пара UTF-16 или 4 байта UTF-8.) Значения, для которых UTF-8 потребуется более 4 байтов, находятся вне диапазона Unixode 0x0..0x10FFFF. ;-)
В общем случае некорректно устанавливать byteCount в два раза больше длины строки. Для кодовых точек Unicode вне Базовой многоязычной плоскости для каждого символа будут использоваться две 16-битные кодовые единицы.
@Jan Это правильно, но длина строки уже дает количество кодовых единиц (не кодовых точек).
Спасибо что подметил это! Из MSDN: «Свойство Length [of String ] возвращает количество объектов Char в этом экземпляре, а не количество символов Unicode». Ваш пример кода, следовательно, является правильным, как написано.
Я не думаю, что Char на самом деле является "специфичным для кодирования" типом; из того, что я могу сказать, существует определенное соотношение 1: 1 между значениями Char значениями UInt16 , любой Char[] может быть преобразован в строку одинаковой длины, и любая такая строка может быть преобразована в Char[] равный оригинал, независимо от того, формировала ли когда-либо последовательность значений Char действительную строку UTF-16 .
@supercat "Тип char представляет кодовую единицу UTF-16, а строковый тип представляет последовательность кодовых единиц UTF-16." new String(new []{'\uD800', '\u0030'})
@TomBlodget: я не могу найти ничего, что указывало бы, что все значения 0x0000-0xFFFF могут рассматриваться как «единицы кода», но термин «последовательность единиц кода» подразумевал бы, что тип может содержать последовательности единиц кода, которые не представляют последовательности кодовых точек . Я действительно не знаю ни одного типа, кроме String который лучше бы включал в себя понятие «неизменяемая последовательность 16-битных значений»; Поскольку System.String имеет специальную поддержку времени выполнения, которая недоступна для любого другого типа, она может предложить лучшую производительность для многих операций, чем это было бы возможно для любого другого типа.
@TomBlodget: Интересно, что если взять экземпляры Globalization.SortKey , извлечь KeyData и KeyData полученные байты из каждого в String [два байта на символ, сначала MSB ], вызывая String.CompareOrdinal для полученных строк, будет значительно быстрее. чем вызывать SortKey.Compare для экземпляров SortKey или даже вызывать memcmp для этих экземпляров. Учитывая это, мне интересно, почему KeyData возвращает Byte[] а не String ?
@ TomBlodget +1 отличный ответ! Ради полноты, было бы неплохо добавить, как вернуться обратно. Это сработало для меня: unsafe string GetString(byte[] bytes) { fixed (byte* bptr = bytes) { char* cptr = (char*)(bptr); var result = new string(cptr, 0, bytes.Length / 2); return result; } }
Увы, правильный ответ, но слишком поздно, никогда не будет иметь столько голосов, сколько принято. Благодаря TL; DR люди будут думать, что принятый ответ ошеломляет. скопировать и проголосовать.
Люблю этот ответ из-за подхода, но он неправильный - суррогатная пара будет представлять собой единицу кода, но будет 4 байта. Так что codeunitcount * 2 не правильно.
@GerardONeill Спасибо за отзыв. В соответствии со спецификацией C #, строка .NET считается последовательностью кодовых единиц UTF-16. Кодовая точка кодируется в одной или нескольких кодовых единицах. В случае UTF-16 это один или два. Когда два, они - "высокий" суррогат, сопровождаемый "низким" суррогатом. Итак, codeunitcount * 2 - это правильное количество байтов для единицы кода. Код не учитывается на всех кодовых.
Извините, я не знал семантику «Code Unit». Не осознавал ужаса String.Length с суррогатами; казалось очевидным, что длина будет рассчитывать на полномасштабные символы (кодовые точки). Так что да, то, что у вас здесь, будет работать. Это также объясняет, почему и как допускаются непревзойденные суррогаты в строках.
@GerardONeill Да, ужас. Я предполагал, что строки должны соответствовать Unicode (включая соответствующие суррогаты), но, увы, ничто не говорит о том, что это должно быть правдой.
@TomBlodget: вам не нужен fixed или unsafe код, вы также можете сделать это var gch = GCHandle.Alloc("foo", GCHandleType.Pinned); var arr = new byte[sizeof(char) * ((string)gch.Target).Length]; Marshal.Copy(gch.AddrOfPinnedObject(), arr, 0, arr.Length); gch.Free();
@ Mehrdad Да, это также хороший ответ, который отвечает довольно ограничивающим нефункциональным ограничениям задающего вопрос. Я думаю, что закрепленные и фиксированные суммы одинаковы, но это устраняет необходимость в небезопасных.
В .NET есть области, где вам нужно получить байтовые массивы для строк. Многие из классов .NET Cryptrography содержат такие методы, как ComputeHash (), которые принимают байтовый массив или поток. У вас нет другого выбора, кроме как сначала преобразовать строку в байтовый массив (выбирая кодировку), а затем при желании обернуть ее в поток. Однако до тех пор, пока вы выбираете кодировку (т.е. UTF8), придерживайтесь ее, с этим проблем не возникает.
Разве суррогаты не должны появляться в парах, чтобы сформировать правильные кодовые точки? Если это так, я могу понять, почему данные будут искажены.
@dtanders Да, это тоже мои мысли, они должны появляться в парах, непарные суррогатные символы просто случаются, если вы намеренно ставите их в строку и делаете их непарными. Чего я не знаю, так это того, почему другие разработчики продолжают настаивать на том, что вместо этого мы должны использовать подход, учитывающий кодирование, поскольку они считают, что подход сериализации ( мой ответ , который был принят более 3 лет) не оставляет непарных суррогатный персонаж нетронут. Но они забыли проверить, что их решения, поддерживающие кодирование, не сохраняют непарный суррогатный характер, ирония судьбы ツ
Если есть библиотека сериализации, которая использует System.Buffer.BlockCopy внутри, все аргументы сторонников кодирования будут спорными
Проблема с вашим тестом заключается в том, что вы сделали неверную строку. «В UTF-16 они всегда должны появляться в парах, как высокий суррогат, за которым следует низкий суррогат, таким образом используя 32 бита для обозначения одной кодовой точки». , Если вы используете / uD800 с / uDC00, тогда он отлично работает во всех форматах Unicode. Важно отметить, что это строка, а не массив символов, поэтому определенные ограничения имеют смысл. Кроме того, он отлично работает даже без / uDC00 в UTF7.
@MichaelBuen Мне кажется, что главная проблема в том, что вы пишете большими жирными буквами, говоря, что что-то не имеет значения, а не говорите, что это не имеет значения в их случае. В результате вы поощряете людей, которые смотрят на ваш ответ, совершать базовые ошибки в программировании, которые в будущем вызовут разочарование других. Непарные суррогаты недопустимы в строке. Это не массив символов, поэтому имеет смысл, что преобразование строки в другой формат приведет к ошибке FFFD для этого символа. Если вы хотите выполнять ручные манипуляции со строками, используйте символ [] в соответствии с рекомендациями.
@Trisped: Если кто-то захочет преобразовать байтовые массивы в форму, которая позволит проводить быстрое лексикографическое сравнение (с ранжированием сравнения по первому несоответствующему байту), будет ли что-либо быстрее, чем String.CompareOrdinal , использоваться без "небезопасного" кода? Преобразование массивов Char[] с непревзойденными суррогатами в String для использования на них String.CompareOrdinal является мерзким, но какой подход будет лучше?
@dtanders: System.String - это неизменяемая последовательность Char ; .NET всегда позволяла создавать объект String из любого Char[] и экспортировать его содержимое в Char[] содержащее те же значения, даже если оригинальный Char[] содержит непарные суррогаты.
@supercat Ну, доктора говорят, что Char должен быть UTF-16, поэтому непревзойденные суррогаты тоже запрещены в Чарсе. Читая все это снова два года спустя, я думаю, что что-то, вероятно, должно выдать ошибку, а не искажать недопустимую последовательность байтов в символе, но что угодно.
@dtanders: Нет, совершенно законно иметь непревзойденные суррогаты, но вы делаете вывод иначе, потому что терминология Unicode вас смущает. Там нет такого понятия , как (п) «(в) действительный UTF-16 char ». Если вы читаете спецификацию языка C #, он говорит, что «тип char представляет кодовую единицу UTF-16, а строковый тип представляет последовательность кодовых блоков UTF-16» . Обратите внимание, что в нем не говорится, что string должна быть правильно сформированной «строкой Юникода» (и обратите внимание, что даже «Строка Юникода» явно разрешена быть неправильно сформированной в глоссарии).
@MichaelBuen: Возможно, было бы неплохо отредактировать заметку, о которой я упоминал выше ^, в свой ответ, чтобы люди понимали, что неправильно сформированные строки Юникода на самом деле являются абсолютно допустимыми «строками Юникода» (и совершенно правильными string ).
Затем попробуйте этот System.Text.Encoding.UTF8.GetBytes("Árvíztűrő tükörfúrógép); и плачьте! Это будет работать, но System.Text.Encoding.UTF8.GetBytes("Árvíztűrő tükörfúrógép").Length != System.Text.Encoding.UTF8.GetBytes("Arvizturo tukorfurogep").Length пока "Árvíztűrő tükörfúrógép".Length == "Arvizturo tukorfurogep".Length
@ mg30rg: Как вы думаете, почему ваш пример странный? Конечно, в кодировке с переменной шириной не все символы имеют одинаковые байтовые длины. Что с этим не так?
Вместо того, чтобы использовать ваш собственный метод для преобразования байтового массива в base64, все, что вам нужно было сделать, это использовать встроенный конвертер: Convert.ToBase64String (arr);
@Makotosan спасибо, но я использовал Convert.ToBase64String(arr); для byte[] (data) <-> string (serialized data to store in XML file) преобразования base64 byte[] (data) <-> string (serialized data to store in XML file) . Но чтобы получить начальный byte[] (data) мне нужно было что-то сделать со String , содержащей двоичные данные (именно так MSSQL и возвращает их мне). Поэтому приведенные выше функции предназначены для String (binary data) <-> byte[] (easy accessible binary data) .
Позвольте мне уточнить: кодировка была использована для перевода «привет» в физические байты. Поскольку строка хранится на моем компьютере, я уверен, что она должна храниться в байтах. Я просто хочу получить доступ к этим байтам, чтобы сохранить их на диске или по любой другой причине. Я не хочу интерпретировать эти байты. Поскольку я не хочу интерпретировать эти байты, необходимость в кодировании на этом этапе столь же неуместна, как и необходимость в телефонной линии для вызова printf.
Но опять же, нет концепции преобразования текста в физические байты, если только вы не используете кодировку. Конечно, компилятор каким-то образом хранит строки в памяти - но он просто использует внутреннюю кодировку, которую вы (или кто-либо, кроме разработчика компилятора) не знаете. Итак, что бы вы ни делали, вам нужна кодировка для получения физических байтов из строки.
@Agnel Kurian: Конечно, у строки есть куча байтов, в которых хранится ее содержимое (UTF-16 в воздухе). Но есть веская причина помешать вам получить к нему доступ: строки неизменяемы, и если вы можете получить внутренний массив byte [], вы также можете изменить его. Это нарушает неизменность, что очень важно, поскольку несколько строк могут совместно использовать одни и те же данные. Использование кодировки UTF-16 для получения строки, вероятно, просто скопирует данные.
VUP это один решил мою проблему (byte [] ff = ASCIIEncoding.ASCII.GetBytes (barcodetxt.Text);)
Но почему следует учитывать кодировку? Почему я не могу просто получить байты, не видя, какая кодировка используется? Даже если бы это было необходимо, разве сам объект String не должен знать, какая кодировка используется, и просто выгружать то, что находится в памяти?
Это не всегда работает. Некоторые специальные символы могут быть потеряны при использовании такого метода, который я нашел трудным путем.
если бы кодировка была utf, она бы не сработала!
UTF-8 компактен, только если большинство ваших символов в наборе символов английского языка (ASCII). Если бы у вас была длинная строка китайских символов, UTF-16 была бы более компактной кодировкой, чем UTF-8 для этой строки. Это связано с тем, что UTF-8 использует один байт для кодирования ASCII и 3 (или, возможно, 4) в противном случае.
Правда. Но как вы можете не знать о кодировании, если вы знакомы с обработкой китайского текста?
ОП специально просит НЕ указывать кодировку ... "без указания конкретной кодировки вручную"
ASCIIEncoding ..... не требуется. Простое использование Encoding.UTF8.GetBytes (текст) является предпочтительным.
Raymon, символы уже представлены некоторым значением Unicode - и все значения Unicode могут быть представлены всеми UTF. Есть более длинное объяснение того, о чем ты говоришь? В какой кодировке существуют эти два значения (или 3 ..)?
Это недопустимые символы, которые не поддерживаются никакими диапазонами кодирования. Это не значит, что они на 100% бесполезны. Код, который преобразует любой тип строки в эквивалент байтового массива независимо от кодировок, вовсе не является неправильным решением и в некоторых случаях имеет свои собственные применения.
Хорошо, тогда я думаю, что вы не понимаете проблему. Мы знаем, что это массив, совместимый с юникодом - фактически, потому что это .net, мы знаем, что это UTF-16. Так что этих персонажей там не будет. Вы также не полностью прочитали мой комментарий об изменении внутренних представлений. String - это объект, а не кодированный байтовый массив. Поэтому я не согласен с вашим последним утверждением. Вы хотите, чтобы код преобразовывал все строки Unicode в любую кодировку UTF. Это делает то, что вы хотите, правильно.
Объекты представляют собой последовательность данных, первоначально последовательность битов, которые описывают объект в его текущем состоянии. Таким образом, все данные в языках программирования могут быть преобразованы в массив байтов (каждый байт определяет 8 бит), так как вам может потребоваться сохранить некоторое состояние любого объекта в памяти. Вы можете сохранить и сохранить последовательность байтов в файле или памяти и преобразовать ее как целое число, bigint, изображение, строку Ascii, строку UTF-8, зашифрованную строку или свой собственный определенный тип данных после чтения его с диска. Таким образом, вы не можете сказать, что объекты являются чем-то отличным от последовательности байтов.
Мойтаба - я обновил свой ответ с умом на клавиатуре. Однако то, что вы сказали, не подходит для объектов, которые имеют другие объектные зависимости. Но решение Mehrdad, преобразовав его в массив char, устраняет это, делая возможным то, что вы сказали. Все еще пытаюсь решить, стоит ли заменить весь мой ответ ... Но, возможно, мой учебный процесс будет иметь какую-то ценность.
Является ли значение RuntimeHelpers.OffsetToStringData кратным 8 в версиях .NET для Itanium? Потому что в противном случае это не удастся из-за невыровненных чтений.
не будет ли проще вызвать memcpy ? stackoverflow.com/a/27124232/659190
... и потерять всех персонажей со скоростью прыжка выше 127. На моем родном языке совершенно правильно написать «Árvíztűrő tükörfúrógópé.». System.Text.ASCIIEncoding.Default.GetBytes("Árvíztűrő tükörfúrógép.").ToString(); вернется "Árvizturo tukörfurogép." потерять информацию, которую невозможно восстановить. (И я еще не упомянул азиатские языки, где вы потеряете все символы.)
Это чуть быстрее , не говоря уже о самом быстром . Это, безусловно, интересная альтернатива, но по сути она такая же, как Encoding.Default.GetBytes(s) которая, кстати, намного быстрее . Быстрое тестирование показывает, что Encoding.Default.GetBytes(s) работает как минимум на 79% быстрее. YMMV.
Попробуйте это с € . Этот код не завершится с ошибкой , но вернет неправильный результат (что еще хуже). Попробуйте привести к short вместо byte чтобы увидеть разницу.
А как насчет многобайтовых символов?
@AgnelKurian Msdn говорит: «Этот метод возвращает значение байта без знака, которое представляет числовой код объекта Char, переданного ему. В .NET Framework объект Char является 16-разрядным значением. Это означает, что метод подходит для возврата числовые коды символов в диапазоне символов ASCII или в элементах управления Unicode C0 и базовой латинице, а также диапазонах управления C1 и Latin-1, от U + 0000 до U + 00FF. "
Юникод не является кодировкой. Юникод - это абстрактное сопоставление символов с кодовыми точками. Есть несколько способов кодирования Unicode; в частности, UTF-8 и UTF-16 являются наиболее распространенными. .NET использует UTF-16, хотя я не уверен, что это UTF-16 LE или UTF-16 BE.
Перед вашим редактированием это было: s.Select(e => (byte)e) это работает только для символов ASCII. Но тип char предназначен для хранения единиц UTF16. Теперь после вашего редактирования код, по крайней мере, правильный, но он меняется от среды к среде, что делает его практически бесполезным. IMHO Encoding.Default следует использовать только для взаимодействия с устаревшим кодом Windows «Ansi codepage».
Хорошая точка зрения. Как вы относитесь к byte [] b = new System.Text.UTF32Encoding (). GetBytes (s); ?
use byte[] b = System.Text.UTF32Encoding.GetBytes(s); , UTF8 одинаково хорошо.
1) Это приведет к потере данных из-за использования ASCII в качестве кодировки. 2) Нет смысла создавать новое ASCIIEncoding - просто используйте свойство Encoding.ASCII.
Может не работать, если строка не ASCII.
Это небезопасно, и вы потеряете исходные данные, если входная строка содержит символы диапазона Юникод.
Это было для проекта последовательной связи, который все равно не мог обрабатывать юникод. Конечно, это был чрезвычайно узкий случай.
Это не обращение. Это новый байтовый массив. ОП действительно нуждался в указателе и memcpy. Или приведение: byte [] b = (byte []) s ;.
Кроме того, "s" здесь даже не используется. Определенно не решение.

Mehrdad · Accepted Answer · 2012-04-30T07-48-00.000Z

1853

Лучший ответ

В отличие от ответов здесь вам НЕ нужно беспокоиться о кодировании , если, байты не нужно интерпретировать!

Как вы уже упоминали, ваша цель состоит в том, чтобы просто "получить, какие байты хранится в строке".
(И, конечно, чтобы иметь возможность перестроить строку из байтов.)

Для этих целей я честно не понимаю, почему люди продолжают говорить вам, что вам нужны кодировки. Вы, конечно, НЕ должны беспокоиться об кодировании для этого.

Просто сделайте это вместо:

static byte[] GetBytes(string str)
{
    byte[] bytes = new byte[str.Length * sizeof(char)];
    System.Buffer.BlockCopy(str.ToCharArray(), 0, bytes, 0, bytes.Length);
    return bytes;
}

static string GetString(byte[] bytes)
{
    char[] chars = new char[bytes.Length / sizeof(char)];
    System.Buffer.BlockCopy(bytes, 0, chars, 0, bytes.Length);
    return new string(chars);
}

Пока ваша программа (или другие программы) не пытается каким-то образом интерпретировать байты, о которых вы, очевидно, не упомянули, вы намереваетесь сделать, тогда в этом подходе есть nothing! Беспокойство по поводу кодировок просто делает вашу жизнь более сложной без какой-либо реальной причины.

Дополнительное преимущество для этого подхода:

Не имеет значения, содержит ли строка недопустимые символы, потому что вы все равно можете получить данные и восстановить исходную строку!

Он будет закодирован и декодирован точно так же, потому что вы просто смотрите на байты.

Если вы использовали конкретную кодировку, это могло бы вызвать проблемы с кодированием/расшифровкой недопустимых символов.

Mehrdad 30 апр. 2012, в 07:48

5

+1 Точно мои мысли, я не знаю настойчивости некоторых заглядываний здесь о кодировании. Просто нужно сделать дамп памяти / сериализацию (хотя библиотека по умолчанию для сериализации от Microsoft имеет недостатки). Я надеюсь, что знаю этот BlockCopy API раньше :-)
Michael Buen 30 апр. 2012, в 09:11
3

@MichaelBuen: Да. Пока ваши дампы памяти / сериализации не пытаются интерпретировать данные, все в порядке. GetBytes запомнить следующее правило: если вашей программе (или другой программе) необходимо преобразовать выходные данные GetBytes обратно в одну и ту же строку, она может использовать для этого только GetString . Пока вы не нарушаете это, вы можете полностью игнорировать концепцию кодирования.
Mehrdad 30 апр. 2012, в 09:20
0

@ Mehrdad Я согласен с вашей логикой, но я был удивлен, когда проверил, что метод кодирования немного быстрее. Я думаю, я ожидал, что ваш метод будет быстрее (хотя в этом нет ничего особенного)
Ian1971 11 май 2012, в 11:16
1

@ Ian1971: Может быть, потому, что ToCharArray() выделяет новый массив, который впоследствии отбрасывается?
Mehrdad 11 май 2012, в 13:29
1

@ Ian1971 У методов кодирования есть свои недостатки, но они не могут сохранить копию изображения исходной строки; в частности, старшие суррогатные символы нельзя сохранить методом кодирования. Проверьте этот тест: stackoverflow.com/a/10384024
Michael Buen 13 май 2012, в 11:06
227

Что уродливо в этом, так это то, что GetString и GetBytes должны выполняться в системе с одинаковым порядком байтов для работы. Таким образом, вы не можете использовать это, чтобы получить байты, которые вы хотите превратить в строку в другом месте. Поэтому мне трудно придумывать ситуации, в которых я хотел бы использовать это.
CodesInChaos 13 май 2012, в 11:14
1

@CodeInChaos просто префикс BOM перед этими байтами, чтобы указать, что она пришла из мира .NET (то есть UTF-16), затем mindprod.com/jgloss/utf.html
Michael Buen 13 май 2012, в 11:25
67

@CodeInChaos: Как я уже сказал, весь смысл в том, что если вы хотите использовать его в той же системе, с тем же набором функций. Если нет, то вы не должны его использовать.
Mehrdad 13 май 2012, в 18:00
181

-1 Я гарантирую, что кто-то (кто не понимает байты против символов) захочет преобразовать свою строку в байтовый массив, он будет гуглить и читать этот ответ, и он будет делать не то, потому что почти во всех случаи, кодирование актуальны.
artbristol 15 июнь 2012, в 11:07
378

@artbristol: Если они не могут потрудиться прочитать ответ (или другие ответы ...), то извините, но для меня нет лучшего способа с ними общаться. Обычно я предпочитаю отвечать на ФП, а не пытаться угадать, что другие могут сделать с моим ответом - ФП имеет право знать, и то, что кто-то может злоупотреблять ножом, не означает, что нам нужно спрятать все ножи в мире. для себя. Хотя, если вы не согласны, это тоже хорошо.
Mehrdad 15 июнь 2012, в 14:04
10

Вопрос был задан 3 года назад и совершенно неоднозначен. У вас нет доказательств того, как OP собирался использовать байты. У других людей будет точно такой же вопрос , но они планируют использовать байты в ситуации, когда кодирование имеет значение, и ваш ответ в этом случае будет совершенно неверным.
artbristol 15 июнь 2012, в 14:25
35

Ну, я думаю об этом так: я не судья. Я не прошу «доказательства» у ФП, чтобы попытаться доказать его правоту, прежде чем я отвечу ему (вопреки тому, что другие могут попытаться сделать). Он ясно сказал: «Разве я не могу просто получить, в каких байтах хранится строка? Почему эта зависимость от кодирования?», На что мой ответ точен на 100%, больше, чем другие на этой странице IMO. И ИМО, он уже понял предостережения. Кроме того, тот факт, что ответ был от 3 лет назад, не имеет значения. Но опять же, если вы сначала попросите «доказательства», то это ваш стиль, и не стесняйтесь сдерживать голосование…
Mehrdad 15 июнь 2012, в 14:32
174

Этот ответ неверен на многих уровнях, но в первую очередь из-за того, что он гласит: «Вам не нужно беспокоиться о кодировании!». Два метода, GetBytes и GetString, являются излишними, поскольку они являются просто повторными реализациями того, что уже делают Encoding.Unicode.GetBytes () и Encoding.Unicode.GetString (). Утверждение «Пока ваша программа (или другие программы) не пытаются интерпретировать байты» также в корне неверно, поскольку неявно они означают, что байты должны интерпретироваться как Unicode.
David 11 июль 2012, в 12:36
12

@David: «... поскольку неявно они означают, что байты должны интерпретироваться», я понятия не имею, как вы читаете ответ, но это «неявно» означает, что они могут быть любой кодировкой. Кроме того, если вы думаете, что методы являются «просто повторными реализациями» Encoding.Unicode только потому, что они делают одно и то же, то кажется, что вы неправильно понимаете уровни абстракции.
Mehrdad 11 июль 2012, в 15:04
3

@Mehrdad ... это "неявно" означает, что они могут быть любой кодировкой " Я не понимаю это утверждение, что именно вы подразумеваете под этим? Насколько я вижу, ваш GetBytes() вернет Unicode закодированный байтовый массив строки и ваш GetString() (если вы передадите представление строки байтового массива в кодировке Unicode) вернут читаемую строку и в любой другой кодировке вернут мусор. Хуже того, хотя GetString() завершится GetString() , если вы передайте ему UTF-8 кодированный байтовый массив строки, содержащей нечетное количество символов.
David 11 июль 2012, в 15:42
22

@David: Да, происходит сбой на данных UTF-8, потому что GetBytes никогда не возвращает данные UTF-8. Кажется, что уровень абстракции, который вы ожидаете, отличается от того, который на самом деле существует. Если вы не уверены, как правильно его использовать, не делайте этого; ответ, вероятно, не предназначен для вашего варианта использования. Тем не менее, я на 100% верю своему ответу, что он подходит для использования по назначению , что я постарался сделать совершенно ясно.
Mehrdad 11 июль 2012, в 16:08
9

@Mehrdad: Тогда мы прошли полный круг. GetBytes и GetString являются повторными реализациями Encoding.Unicode.GetBytes()\GetString() . Вы перефразируете свой аргумент, чтобы отступить от первоначального утверждения о «любой кодировке» . Я не оспариваю код, который вы предоставили, OP не будет работать (по крайней мере, для Unicode), я просто не думаю, что это способствует его пониманию кодировки, которую он использует, как бы вы ни пытались это скрыть.
David 11 июль 2012, в 16:33
17

@David: Вздох, да, они случаются быть заново реализованными , но это не имеет значения на этом уровне абстракции. Если вы даже заботитесь об этом факте, значит, вы используете его неправильно . Если вы не знаете, что я имею в виду, пожалуйста, не используйте его, но он на 100% действителен для варианта использования / уровня абстракции OP.
Mehrdad 11 июль 2012, в 16:36
13

Мне просто нужны байты, чтобы моя криптография заработала, я думаю, что вы отвечаете до сих пор!
k.c. 29 окт. 2012, в 10:27
32

-1 за ответ. +1 за комментарии Дэвида и Артбристола выше. Конечно, в .NET есть представление строк в памяти. Это происходит с прямым порядком байтов UTF-16. Когда вы получаете байтовый массив, вы получаете их в этой кодировке. Если все, что вы когда-либо захотите сделать, это преобразовать байтовый массив обратно в строку, то ответа будет достаточно. Но ответ ограничен и опасен. Например, если байты должны быть включены в HTTP-запрос, вам необходимо знать кодировку для общего запроса. Если вы занимаетесь преобразованием символов в байты, вы должны понимать кодировку.
Concrete Gannet 25 фев. 2013, в 01:05
10

-1 за ответ, +1 за комментарии Дэвида, Артбристола и Бетон ... Этот ответ никоим образом не упоминает, что он работает, только если вы выполняете оба метода на одной платформе. Кроме того, это не добавляет никакой ценности. Аргумент ответа состоит в том, чтобы дать простой ответ на простой вопрос, но ответ намного сложнее, чем просто использование Encoding.Unicode . Вам не нужно беспокоиться о кодировании, если вы просто используете эти методы, но они безопасны независимо от того, на какой платформе вы их запускаете.
chiccodoro 17 июль 2013, в 07:54
21

@ConcreteGannet: Я рад, что мы оба согласны с тем, что «если все, что вы когда-либо захотите сделать, - это преобразовать байтовый массив обратно в строку, ответа будет достаточно». Вот и весь смысл моего ответа.
Mehrdad 01 авг. 2013, в 08:15
16

@chiccodoro: Безопасность не единственная проблема здесь. В вашей (гипотетической?) Системе, где UTF-16 не является внутренним представлением, Encoding.Unicode будет работать медленнее, без каких-либо преимуществ для тех сценариев использования, для которых он был предназначен (что понял OP). Более того, безопасность - это проблема, только если вы не знаете, что делаете . Вы не видите программистов на C, избегающих указателей, несмотря на то, насколько они «опасны», не так ли? Вы также не видите, чтобы строители избегали электрических пил и дрелей. Если вы думаете, что что-то опасно, это не значит, что люди не имеют права знать об этом.
Mehrdad 01 авг. 2013, в 08:26
1

@ Mehrdad: После некоторого опроса OP говорит, что они намерены зашифровать строку. По всей вероятности, следующим шагом после преобразования в байтовый массив будет некоторая форма вывода. Правильный ответ или нет, зависит от того, что читает эти зашифрованные байты. ОП не сказал, что приложение .NET будет читать зашифрованные байты. Если что-то еще предназначено для чтения, OP должен убедиться, что читатель ожидает кодирование. Если строка большая и содержит только или в основном обычный ASCII, UTF-8 будет более компактным, быстрее шифровать и быстрее выводить.
Concrete Gannet 04 авг. 2013, в 08:30
10

Запрашивать байты string в .NET - это то же самое, что запрашивать байты object . Назначение типов string и char состоит в том, что детали реализации абстрагируются. Используя этот ответ, вы случайно обойдете детали реализации, и у вас останется хрупкое решение, похожее на двоичную сериализацию. Нет смысла использовать этот ответ, так как использование кодирования является более надежным, более переносимым, более логичным и, что наиболее важно, более простым . Серьезно, ответы кодирования однострочные ... зачем делать что-то сумасшедшее ?!
Travis 05 авг. 2013, в 21:36
4

@Travis: за исключением того, что это не то же самое, что запросить байты object : .NET специально запрещает вам это делать, но не мешает вам делать это. Этого должно быть достаточно, чтобы сказать вам, что есть разница.
Mehrdad 05 авг. 2013, в 21:59
6

@ Mehrdad, отвлекаясь, вы должны понимать, что технически возможное не соответствует ни прагматически значимым, ни архитектурно обоснованным. Возвращаясь к теме, независимо от того, понимаете ли вы это или нет, вы эффективно выполняете System.Text.Encoding.Unicode.GetBytes(str) потому что именно это .NET делает для представления string в памяти. Люди говорят, что вы не понимаете кодирование, потому что они знают, что вы не можете избежать этого. Единственное, что вы делаете, это прыгаете через обручи, чтобы скрыть это! Вы, честно говоря, все еще думаете, что это хорошая идея?
Travis 05 авг. 2013, в 22:40
0

@Mehrdad, во втором чтении я заметил, что вы проигнорировали весь мой комментарий. Та часть, на которую вы ответили, вы неверно истолковали (сродни! = То же самое). Я действительно начинаю сомневаться в том, почему вы яростно продвигаете этот явно ошибочный ответ.
Travis 05 авг. 2013, в 22:59
10

@Travis: я прочитал весь ваш комментарий, но вся его основа была неправильной (вы утверждаете, что это похоже на чтение байтов object ). Там нет ничего похожего между двумя. Я говорю вам, что этот код предназначен для другого уровня абстракции, чем вы думаете . Говоря «это так же , как Encoding.Unicode.GetBytes » является неправильным , так как она разрушает эту абстракцию барьер. Я не знаю, что еще тебе сказать. Мой ответ уже послужил своей цели, которая заключалась в том, чтобы прямо ответить на вопрос ОП. Если вам не нравится мой ответ, то понизьте его; вот для чего это!
Mehrdad 06 авг. 2013, в 00:29
4

@ Travis: Последнее, что я скажу вам (потому что я только что заметил это прямо сейчас), это прочитать этот ответ ниже . Я уже упоминал об этом раньше, но так как этот ответ действительно демонстрирует это, я скажу это снова: мой ответ прекрасно сохраняет и восстанавливает строку; основанные на кодировании методы не могут работать с последовательностями char , которые не могут быть правильно представлены.
Mehrdad 06 авг. 2013, в 00:41
1

Не правда ли, потому что .NET использует UTF-16 внутри и 16-битные символы, поэтому строка в этом примере фактически кодируется с использованием UTF-16? Если вы используете Encoding.Unicode.GetString (), который является UTF-16, в байтовом массиве, созданном в этом примере, он создает исходное строковое значение.
Kai Hartmann 09 авг. 2013, в 22:31
4

Да, этот ответ работает для нишевых случаев использования. Но другие ответы работают для всех случаев использования. Почему бы не использовать превосходные (и такие же простые в использовании ... и менее подверженные ошибкам) методы, которые требуют ввода кодировки? Из-за этого это дает большой жир -1.
Thomas Eding 27 сен. 2013, в 18:16
7

@ Томас: Нет, другие ответы не работают для всех вариантов использования. Вы читали ответ Майкла Буэна? Его ответ говорит вам, почему мой может справиться со случаями, которые ни один из других ответов не может. Ни один из ответов здесь не обрабатывает все случаи, но мой обрабатывает соответствующие случаи для OP.
Mehrdad 27 сен. 2013, в 22:44
0

@ Mehrdad: достаточно справедливо. Но мне все еще не нравится это решение. Не совсем уверен насчет его (мне не хочется узнавать о непарных суррогатах в данный момент, но кажется, что это что-то вроде представления ловушек).
Thomas Eding 27 сен. 2013, в 22:56
7

@Thomas: Меня не волнует, нравится ли вам решение (черт возьми, мне это тоже не особо нравится), но вы не можете отрицать, что это единственный правильный ответ, приведенный здесь для варианта использования OP (преобразование между строками) и байтовые массивы). Другие ответы уничтожают некоторые последовательности char в процессе, мои нет. Сохраняйте отрицательный голос, но, пожалуйста, подумайте дважды, прежде чем прыгать на подножку и распространять дезинформацию.
Mehrdad 27 сен. 2013, в 23:01
2

@Mehrdad: How do I convert a string to a byte array in .NET (C#)? описанный вариант использования OP. Буквально любой ответ, который возвращает byte[] , будет технически правильным. Но я закончил с этим расширенным чатом.
Thomas Eding 27 сен. 2013, в 23:03
9

«Беспокойство по поводу кодировок просто усложняет вашу жизнь без всякой реальной причины». - Э - э, за исключением того, что ответы , которые беспокоятся о кодировании гораздо проще , чем это. И, конечно же, этот ответ все еще зависит от конкретной кодировки - str.ToCharArray() должен полагаться на кодировку, даже если эта кодировка явно не упоминается в коде (что можно считать только плохим) . Я очень уважаю тебя, Мехрдад, но это ужасный ответ.
BlueRaja - Danny Pflughoeft 01 окт. 2013, в 19:16
1

@ BlueRaja-DannyPflughoeft: прочитайте мои комментарии выше. Уровень абстракции, к которому мы здесь обращаемся (т. Е. Необходимость совершенной реконструкции 1: 1 в данной системе), отличается от того, когда вы беспокоитесь о кодировках (т. Е. Совместимости с другой системой). Это две совершенно не связанные проблемы, и первая не имеет ничего общего с кодированием (и на самом деле это не может быть сделано с какой-либо схемой кодирования здесь).
Mehrdad 01 окт. 2013, в 19:47
2

Это не сохраняет кодировку нетронутой. Жаль, что это принятый ответ с наибольшим количеством голосов, потому что я потратил впустую 2 часа, пытаясь выяснить, почему мои строки искажены. Преследовал его до метода, который использовал этот ответ для преобразования строки -> byte [].
user1151923 09 окт. 2013, в 12:26
0

@ user1151923: Можете ли вы показать мне пример реальной строки, которая искажается? Я не могу исправить ответ, если вы не скажете мне, как воспроизвести проблему ...
Mehrdad 09 окт. 2013, в 19:29
1

var input = "тхис ис а тест"; var ms = new MemoryStream(GetBytes(input)); var sr = new StreamReader(ms); var output = sr.ReadToEnd(); выход B5AB
user1151923 10 окт. 2013, в 13:43
1

Я хотел бы добавить, что я не думаю, что «Для этих целей» является оправданием ответа, который [иногда] портит кодирование. Что люди увидят, когда откроют этот вопрос, так это вопрос (.NET String to byte Array C #) и высоко оцененный ответ, утверждающий, что вам не нужно беспокоиться о кодировке жирным шрифтом (чего, кстати, не хватает для эти цели "часть). Ниже приведены ответы, которые являются более короткими или такими же длинными и которые сохраняют кодировку без изменений, независимо от того, где и как вы используете код.
user1151923 10 окт. 2013, в 13:49
14

@ user1151923: Чувак, проблема в твоем коде, а не в моем ответе! Вы используете GetBytes для преобразования строки в байты, но вы не используете GetString для перехода в обратном направлении! Они должны быть использованы в парах ; Вы не можете просто делать то, что хотите, и ожидать, что это сработает. Если вы не используете кодировки одним способом, вы также должны игнорировать их в обратном направлении, но вы игнорировали тот факт, что StreamReader на кодировании! Прочитайте мой комментарий ранее: stackoverflow.com/questions/472906/…
Mehrdad 10 окт. 2013, в 18:11
3

@ user1151923: И прежде чем обвинить меня в том, что я вас не предупреждал, поймите, что то, что произошло в вашем коде, в точности эквивалентно использованию new StreamReader(stream).ReadToEnd() для движения в одном направлении, но с использованием Encoding.UTF8 для перехода в другое направление. Это неправильно, потому что автор был небрежен, и это не имеет ничего общего с ответом, который мог бы сказать вам использовать UTF8 . Если тот факт, что StreamReader по умолчанию использует UTF-16, сбивает с толку, не вините его в моем ответе; это не моя вина, что он был разработан таким образом.
Mehrdad 10 окт. 2013, в 18:26
7

@ Mehrad Только потому, что ваш ответ технически правильный в этом случае, не делает его хорошим ответом по причинам, изложенным многими до меня. Это все равно, что рекомендовать инструкцию goto когда доступны лучшие альтернативы, потому что «ну, в этом случае это работает, не так ли?». Этот сайт предназначен для ответов, которые будут функционировать должным образом для максимально возможного количества вариантов использования в рамках вопроса. Вы объявляете «ВАМ НЕ НУЖНО КОДИРОВАНИЕ» в большом размере в верхней части ответа, оставляя основное предостережение, так как небольшая дополнительная заметка внизу может привести к проблемам.
Leon Lucardie 23 окт. 2013, в 10:48
18

@LeonLucardie: другие альтернативы не "лучше"; на самом деле они хуже, потому что они разбиваются на строки, которые не могут быть правильно закодированы (например, те, которые содержат непарные суррогаты). Я уже упоминал об этом миллион раз, но, видимо, людям очень удобно игнорировать этот факт ...
Mehrdad 23 окт. 2013, в 10:51
7

@ Mehrdad Даже в идеальном мире, где люди будут вести себя профессионально, им не понадобится время, чтобы провести небольшое исследование. Я почти уверен, что все плюсы и минусы этого решения были рассмотрены в комментариях здесь, а также в других ответах. Если все еще есть те, кто не осознает этого факта и чувствует, что продолжает спорить (даже через 1,25 года) по вопросам, которые уже были рассмотрены, тогда не стоит тратить ваше время и кому-либо еще спорить дальше. Здесь есть ответы, которые применимы как к случаям использования «кодирование по необходимости», так и к сценарию «не нужно кодировать»; это так просто.
Chris Cirefice 04 нояб. 2013, в 04:37
2

+1, но не будет str.SelectMany(BitConvertor.GetBytes).ToArray(); достаточно. (да, я подозреваю, что BlockCopy работает быстрее.)
Jodrell 07 апр. 2014, в 08:43
3

@Jodrell: ты только что ответил сам. И плюс, он требует .NET 3.5, который не должен быть необходим.
Mehrdad 07 апр. 2014, в 09:48
2

это один из худших кусков кода, который я видел. И я видел людей, использующих DataTables в .NET 4! Ни спрашивающий, ни человек, разместивший этот ответ, похоже, не понимают, что на самом деле означает кодировка. Конечно, вы используете кодировку с этим ответом ... но вы не знаете, какую кодировку! Даже если вы конвертируете материал на той же машине, кто скажет вам, что пользователь не изменит свою кодировку, сделав байты нечитаемыми ?!
Steffen Winkler 30 май 2014, в 13:24
5

@SteffenWinkler: Да, ответ действительно использует кодировку , но дело в том , что она не волнует , что. Причина в том, что оба пути гарантированно используют одну и ту же кодировку. Я не уверен, как вы думаете, что пользователь может изменить кодировку, потому что это кодировка, используемая .NET для хранения строк. Я не верю, что пользователь может изменить это. Если бы среда выполнения была изменена, то вы бы перезапустили программу, поэтому оба метода снова использовали бы одну и ту же кодировку.
Chris 11 июнь 2014, в 09:15
0

Это не скомпилируется для меня; первая строка в методе GetBytes () завершается с ошибкой, "C: \ Project \ sscs \ Handheld \ Releases \ 6-4-0 \ HHS \ PrintUtils.cs (752): sizeof может использоваться только в небезопасном контексте (рассмотрим using System.Runtime.InteropServices.Marshal.SizeOf) "
B. Clay Shannon 11 июнь 2014, в 18:38
0

@ B.ClayShannon: Вы используете старую версию .NET? Просто замените sizeof(char) на 2 .
Mehrdad 11 июнь 2014, в 18:39
0

@Mehrdad: Да, старше, чем Рип Ван Винкль. Просто чтобы использовать его, я должен использовать XP Mode и VS 2003; и да, это позволило его скомпилировать.
B. Clay Shannon 11 июнь 2014, в 18:50
18

-1 Страшно, как это принятый и получивший наибольшее количество голосов ответ . Да, может быть полезно получить байты строки так, как они хранятся в памяти. Да, может не иметь значения тот факт, что GetString сбой, если GetString и GetBytes вызываются на машинах с различным порядком байтов. Но говоря: «Вам не нужно беспокоиться о кодировании!» это ужасно зло , потому что вы поощряете людей игнорировать Абсолютный минимум, который должен знать каждый разработчик программного обеспечения . @artbristol прав: кодирование актуально.
Şafak Gür 23 июль 2014, в 07:44
6

@ ŞafakGür: Да , я делаю - я призываю людей игнорировать вещи , которые не имеют отношения к этой проблеме. Что действительно «зло», так это учить людей беспокоиться о неправильных вещах. Я считаю, что кодирование не имеет отношения к вопросу, потому что кодирование находится на совершенно другом уровне абстракции . Вы, очевидно, так не думаете, так что сохраняйте свою благодарность, и спасибо, что поделились своими мыслями.
Mehrdad 23 июль 2014, в 07:50
5

Не поймите меня неправильно, простота - это хорошо. Но ОП задала очень общий вопрос. Собирается ли он конвертировать в и из строки в той же архитектуре? Собирается ли он записать байты в файл и ожидать, что он будет просмотрен с помощью определенного текстового редактора? Он не утверждал ничего из этого. Таким образом, любой, кто придет к этому вопросу, может прочитать «Вам определенно НЕ нужно беспокоиться о кодировках» и подумать, что кодировка не имеет никакого отношения к делу и не нужна в любом случае . Так что, если вы сказали «Используйте это, если вы будете декодировать байты на той же машине, и вам не нужна определенная кодировка», это может быть отличным ответом.
Şafak Gür 23 июль 2014, в 08:10
3

@ ŞafakGür: Вы должны понимать, что подход, который вы хотите, чтобы я включил в мой ответ, совершенно неверен, потому что он не биективен между строками и байтовыми массивами - например, он не сохраняет непарные суррогаты. Я говорил это миллион раз. Если бы это хотя бы правильно работало , я бы обдумал это. Но это не так - он разбивается на любую строку, которая не соответствует кодировке Unicode. Вот почему я так настаиваю на том, чтобы вообще избегать кодировок: они не только не нужны, они явно ошибочны и не работают с произвольными строками.
Mehrdad 23 июль 2014, в 08:23
3

@artbristol: Ну, это новый. Во всех ваших комментариях вы до сих пор ни разу не подвергли сомнению мое понимание проблемы, и здесь вы теперь обвиняете меня в том, что я кирпичная стена, которая не понимает, что означает String в C #. Для справки, я не кирпичная стена и не программист на C, что было бы довольно очевидно, если бы вы посмотрели на мои значки в C и C #, прежде чем притвориться, что вы меня хорошо знаете.
Mehrdad 23 июль 2014, в 09:54
0

это решение не является правильным на всех. Ошибка судьбы в том, что когда bytes.Length нечетное, длины символов недостаточно для копирования, что приводит к тому, что ArgumentException сообщает: «Смещение и длина вышли за пределы массива или счетчика больше, чем количество элементов из индекса до конца исходной коллекции ". Нам лучше использовать ответ @bmotmans.
tandztc 02 сен. 2014, в 09:28
3

@tandztc: Нет, я думаю, что вы тот, кто не использует это правильно. Как вы получаете нечетные bytes.Length в первую очередь? Если вы правильно следовали ответу (что подразумевает, что вы используете GetBytes для получения bytes ), то это событие невозможно. Если вы получили байтовый массив каким-то другим способом, вам придется преобразовать его обратно в строку таким же образом, а не использовать этот ответ.
Mehrdad 03 сен. 2014, в 00:37
0

@ Mehrdad: Ой, прости. Я признал, что эти два метода должны использоваться в парах. Я неправильно понял использование, потому что я ищу решение просто преобразовать байтовый массив в строку, поэтому я оставляю комментарий, потому что метод GetString не способен обрабатывать все байтовые массивы. Извините, что беспокою вас снова - :)
tandztc 03 сен. 2014, в 04:37
10

-1 для вводящей в заблуждение декларации «вам не нужно беспокоиться о кодировке». Это полностью игнорирует тот факт, что алгоритмы в основном преобразуют строку в байтовый буфер, поскольку некоторые потоковые операции ожидают этого. И когда эта сериализация происходит, кодировка имеет значение, мы сериализуем в файл или в провод. Промышленность тратит тысячи рабочих часов в год из-за проблем с несовпадением кодировок, последнее, что нам нужно, это пропаганда "нам не нужно беспокоиться о кодировании ..."
g.pickardou 10 окт. 2014, в 14:11
0

@Mehrdad: Есть ли какие-либо возражения против того, чтобы начать с Byte[] четной длины Byte[] и преобразовать его в строку, которая впоследствии может быть преобразована обратно в Byte[] ? Я бы подумал, что преобразование байтов позволило бы выполнять различные «линейные» операции (например, конкатенация двух строк, полученных в результате преобразования, была бы эквивалентна конвертации конкатенации двух массивов), тогда как большинство других кодировок этого не сделали бы. Единственный недостаток, который я вижу при «прямом» преобразовании, заключается в том, что лексикографический порядок объекта String будет отличаться от такового у byte[] [исправление, которое потребовало бы замены пар байтов].
supercat 12 нояб. 2014, в 22:26
0

@supercat: Если вы можете гарантировать четную длину, то нет, но в противном случае вы потеряете информацию о длине.
Mehrdad 12 нояб. 2014, в 22:48
2

@Mehrdad: Возможно, было бы хорошо пояснить, что ваш метод подходит для предсказуемой сериализации экземпляров String которые могут содержать произвольные двоичные данные, в отличие от тех, которые, как известно, содержат допустимые строки UTF-16. Плохо, что MS не включает никаких других типов «неизменяемых BLOB-объектов», поскольку String часто используется, когда какой-либо другой стандартный тип BLOB-объектов, вероятно, будет более подходящим, если таковой существует .
supercat 12 нояб. 2014, в 22:54
0

@Mehrdad: Кроме того, знаете ли вы какой-нибудь хороший способ преобразовать байтовый массив в строку с байтами в паре MSB-сначала и предпочтительно интерпретировать массив нечетной длины, как если бы он был дополнен нулями? Использование String.CompareOrdinal для строк, полученных путем преобразования KeyData из SortKey таким образом, будет быстрее, чем SortKey.Compare , но создание таких строк немного медленное.
supercat 13 нояб. 2014, в 18:00
1

Я думаю, что вы делаете предположения о том, как строки хранятся в CLR. Откуда вы знаете, что он на самом деле представлен непрерывной последовательностью байтов? Он может быть представлен в виде связанного списка или чего-то еще. Не делайте предположений. Это будет кусать вас в умозаключениях.
Erik A. Brandstadmoen 26 нояб. 2014, в 11:40
5

@ ErikA.Brandstadmoen: две вещи: (1) Если бы это было что-то кроме непрерывной последовательности байтов, то вы не могли бы получить указатель на данные в постоянное время через fixed (char* p = str) { ... } (2) Реальность такова, что этот факт на самом деле на 100% не имеет значения, потому что ToCharArray всегда возвращает массив символов независимо от базового формата данных, который является всем, что нам нужно и о чем мы заботимся.
Mehrdad 26 нояб. 2014, в 11:53
1

Конечно, вы правы, @Mehrdad. Я читаю ваш ответ слишком быстро. Я думал, что вы сами указали в строку, которая, конечно, просто сработала бы, если бы она действительно представляла собой непрерывный байтовый массив в памяти. Но, если вы вызываете ToCharArray , реализация хранения строк, разумеется, не имеет значения (за исключением эффективности ...).
Erik A. Brandstadmoen 27 нояб. 2014, в 21:26
4

Этот ответ опасен и неправильный.
Greg D 12 дек. 2014, в 22:47
11

Что делает этот ответ настолько ужасным, так это презумпция того, что OP просто хочет «получить байты» для какой-то эфемерной операции, а затем следует комментарий, в котором говорится, что использование кодировки уничтожит недопустимую строку, удалив непарные суррогаты. Возникает вопрос: почему данные представляются или хранятся в виде строки ? Строка предназначена для представления текста, а не какой-либо сломанной или недопустимой последовательности символов. (продолжение ...)
F.Buster 17 дек. 2014, в 23:40
11

Конечно, эта обходная пара методов технически правильна, потому что она удовлетворяет некоторым мнимым спецификациям для крайне недооцененного варианта использования ОП, но, безусловно, существуют более правильные решения для того, что ОП на самом деле пытается выполнить. Поскольку мы никогда не узнаем, что это может быть, этот ответ не только неправильный, но и активно вредный как ответ на этот вопрос, так и в целом.
F.Buster 17 дек. 2014, в 23:40
6

@ F.Buster: строка предназначена для представления текста, а не какой-либо сломанной или недопустимой последовательности символов. ... вы спешите с выводами. Тот факт, что строка может быть недействительной UTF-16, не означает, что она «сломана» или «не текстовая». Это просто означает, что вы не можете предполагать, что кодировка UTF-16, поэтому ответ должен быть независимым от того, какую кодировку может использовать строка. И это. Если вам не нравится вопрос , то мне очень жаль, но это правильный ответ на вопрос.
Mehrdad 18 дек. 2014, в 00:25
5

@Mehrdad: поэтому ответ должен быть независимым от того, какую кодировку может использовать строка <=. Это объединяет представление с абстракцией . Строка, как просто строка, уже не зависит от того, какую кодировку использует реализация под оболочкой. Сам акт любой транскрипции строки «Hello world» в некоторую байтовую последовательность использует кодировку по определению . Единственное, что можно сделать, затыкать уши, выкрикивать «LA LA LA!» И переосмысливать блок памяти как байты - это скрывать кодировку, которая использовалась.
Greg D 18 дек. 2014, в 01:47
0

Я отредактировал этот ответ, убрав повторяющуюся защиту над его правильностью. Я также перенесу технические объяснения того, почему это правильно, в начале ответа. Я также немного изменил акцент. Я думаю, что это имеет большое значение для решения флейм войны за ответ.
Aardvark 26 янв. 2015, в 17:06
3

Аардварк, ваше редактирование было не плохим, но я на самом деле не видел в этом смысла (и я заметил небольшую опечатку с грамматикой / заглавными буквами), поэтому я откатил назад ... Я думаю, что оригинал был хорош достаточно, и это, как я хотел, чтобы выразить вещи, и я бы предпочел, чтобы это не редактировалось. Я думаю, что обсуждение принесло пользу и должно остаться, потому что (1) это помогло читателям осознать, что этот ответ может вызывать споры в общей кодовой базе, и (2) это позволило мне подчеркнуть, почему я считаю, что ответ является правильным подходом. Во всяком случае, обсуждение уже закончилось, так что не беспокойтесь об этом.
Mehrdad 26 янв. 2015, в 18:21
1

Это именно то, что я искал. Мне нужно было что-то, что могло бы отправлять и получать события для шаблонов наблюдателей для технической демонстрации, в которой просто используется простое консольное приложение, а сообщения о событиях отправляются и принимаются в виде байтовых массивов, поэтому я подумал, что одним из лучших способов показать эту функциональность было просто чтобы сделать сообщение обычной старой строкой. Это не было бы слишком полезно для большинства вещей, но это было именно то, что мне было нужно! Благодаря тонну :)
kayleeFrye_onDeck 16 март 2015, в 01:22
7

ЛУЧШИЙ ОТВЕТ на мой конкретный вопрос, спасибо! Используется для отслеживания сбоев преобразования между кодировками в диагностических целях на одном компьютере, в одном приложении, без сетевых подключений. Просто потому, что большинство из нас боятся, что кто-то будет использовать это для сериализации данных и их использования на разных платформах / базах данных , НЕ является веской причиной для запуска этого ответа. Использовать это специально, чтобы избежать катастрофических результатов кодирования. Вот почему мне так нравится: здесь можно получить ответы на очень конкретные и необычные задачи. Для начинающих о безопасном преобразовании строковых байтов, перечитайте MSDN.
Karl Stephen 23 март 2015, в 08:50
2

Я использую это решение для преобразования строк пароля в byte[] перед их засолкой и хэшированием. В этом случае использования я абсолютно не заботюсь о кодировании вообще . Мне даже не нужно преобразовывать полученный хэш обратно в строку - для проверки пароля я просто сравниваю результирующие byte[] . Очень элегантное и экономичное решение для этого конкретного случая использования. Война пламени здесь - забавное чтение, все же.
chris 10 апр. 2015, в 17:41
0

Я вижу, как этот код падает в таком простом случае: sizeof(char) == 2 byteArray.Length == 9 Затем, (byteArray.Length / sizeof(char)) == 4 , вызов BlockCopy вызывает исключение, потому что вы выходят за пределы. Я предпочел бы использовать немного больше места и пойти на простое решение с использованием кодирования Base64 из класса System.Convert .
Josep 15 апр. 2015, в 13:54
1

@Josep Как, черт возьми, длина byte[] могла бы быть нечетным числом, если метод GetString используется так, как здесь задумано? Также имейте в виду, что это просто пример кода. В моем не столь редком случае использования, который я описал в своем комментарии ранее (хеширование пароля), преобразование обратно из byte[] в string даже не требуется.
chris 15 апр. 2015, в 18:51
2

@Josep: Я рад, что ваш код не работает, потому что он пытается сказать, что вы используете его неправильно. Вместо того, чтобы пытаться обойти это, поймите, что этот ответ был предназначен только для решения конкретной проблемы, которая отличается от вашей, и, следовательно, вы не должны его использовать.
Mehrdad 15 апр. 2015, в 18:54
1

Этот ответ неверен, если строки не хранятся в формате UTF-16 или любой другой кодировке фиксированной длины. Это означает, что кодировка имеет значение, даже если она не отображается в коде. Потому что для UTF-8 вы введете пустые «байты». Это также предполагает, что хранилище строки и GetBytes будут возвращать ту же кодировку - если нет, то вы не возвращаете «байты строки». К счастью, OP просто хочет байты, которые дает этот ответ.
Gerard ONeill 18 авг. 2015, в 16:24
2

Просто используйте Encoding.Unicode.GetBytes (). Функция, опубликованная в этом ответе, в 2 раза медленнее, чем Unicode.GetBytes (). Протестировано в среде Release & x64.
wooohoh 27 авг. 2015, в 06:21
0

Если вы не знаете, почему кодирование важно, вам лучше надеяться, что вам никогда не придется иметь дело с EBCDIC от IBM, символы которого не соответствуют стандарту ASCII.
Powerlord 19 сен. 2015, в 21:49
0

Об этом замечании о порядке байтов. Единственной платформой, на которой работает .NET и которая не является прямым порядком байтов, является Xbox360, и трек XNA (который был основным методом получения программного обеспечения .NET на Xbox360) был прекращен. Есть несколько вариантов mono, которые работают на платформах с прямым порядком байтов, но это скорее исключение, чем правило.
John Leidegren 25 окт. 2015, в 10:05
0

@JohnLeidegren Не правда! Microsoft переносит .Net Framework на Linux, а Linux работает на некоторых архитектурах с прямым порядком байтов. Смотрите здесь для примера.
camerondm9 04 нояб. 2015, в 04:16
1

@ camerondm9 Я не оспариваю тот факт, что эти платформы существуют, но вы должны учитывать, что CoreCLR не выполняет JIT ничего, кроме ассемблера X64 (который имеет младший порядок байтов). Насколько мне известно, Microsoft в настоящее время не находится в процессе добавления поддержки для какой-либо другой архитектуры, конечно, не для IBM PowerPC просто потому, что для нее нет рынка. Я не говорю, что это не может произойти, я говорю, что это не произойдет в ближайшее время. Не обращая внимания на все, что я сказал до сих пор, вы все равно должны спросить себя, вероятно ли, что ваш код будет работать на архитектуре с прямым порядком байтов в ближайшем будущем?
John Leidegren 04 нояб. 2015, в 08:20
0

@JohnLeidegren У Microsoft есть JIT-движок для ARM, а ARM имеет двоичный порядок (определяется реализацией). Это может быть маловероятно, но если ваш код может работать на мобильных устройствах (или это библиотека), вы никогда не знаете ...
camerondm9 05 нояб. 2015, в 03:13
1

@NumLock: самостоятельная документация. sizeof(char) - это не 1, а 2. Это C #, а не C.
Mehrdad 01 дек. 2015, в 20:23
4

Причина, по которой этот ответ неправильный, состоит в том, что НЕВОЗМОЖНО отобразить последовательность глифов в последовательность байтов без кодирования. Однако верно также и то, что этот пример работает без непосредственного использования объектов кодирования. Это потому, что он тайно утверждает каноническую схему кодирования для строк - я верю, что Unicode 16 - корректен для всех реализаций декодирования. Это верно для .NET, но не для других языков или сред выполнения. Важно, чтобы пользователи ЗНАЛИ, что они делают здесь - экспортируют (уже закодированное) внутреннее представление, а не избегают кодирования.
Matthew Mark Miller 26 янв. 2016, в 18:48
5

>> не пытайтесь как-то интерпретировать байты << Просто просмотр байтов является формой интерпретации
AMissico 10 фев. 2016, в 21:50
0

Этот код будет делать то, что предполагалось, но помимо этого теоретические аргументы в основном являются мусором, хотя и таким образом, что это не имеет значения (будет соблюдаться) на практике. Не забывайте, что язык и компилятор также являются абстракциями (которые редко дают жесткие гарантии физической памяти). Достигается утверждение о том, что char-массив является внутренним представлением, как и указание кода-указателя в качестве доказательства. Строка может наблюдаться как полукокс массив, и манипулируя символьные указатели можно наблюдать , как вы говорите, но может тривиальный быть реализована как синтаксический сахар для другого физического представления.
AnorZaken 10 апр. 2016, в 03:27
1

@ chris «низкие накладные расходы» - это больше кода и медленнее, чем Encoding.Unicode.GetString / Bytes; «... для проверки пароля я просто сравниваю полученный хеш», это не удастся, если вы скомпилируете этот код для ПК и Xbox360, чтобы использовать одинаковую проверку пароля, так как хеш будет отличаться для одного и того же пароля
Firo 09 май 2016, в 09:57
0

@ BlueRaja-DannyPflughoeft ToCharArray () не полагается на кодировку, она находится в источнике .Net только в виде копии внутреннего представления внутренних байтов строки, поэтому получение массива char с помощью ToCharArray () имеет тот же эффект, что и исправление указатель на закрытый член m_firstChar строки
yoel halb 26 май 2016, в 16:36
1

@yoelhalb: Вы не можете преобразовать строку в байтовый массив, не полагаясь на определенную кодировку, в буквальном смысле это определение. В этом случае вы используете кодировку, используемую «внутренним представлением [..] строки».
BlueRaja - Danny Pflughoeft 26 май 2016, в 16:44
0

@yoelhalb: да, это так. Конечно, это так. Не только из-за того, что сказал Дэнни, но также из-за того, что документ API специально говорит: «Копирует символы в этом экземпляре в массив символов Unicode». Внутренним представлением является Unicode (UTF-16), но это несущественная деталь реализации.
Sören Kuklau 08 июнь 2016, в 17:01
1

@ BlueRaja-DannyPflughoeft: Меня просто поразило, что у вас (и у многих других здесь) есть проблема с грамматикой. Заметьте, я написал: «Вам не нужно беспокоиться о кодировке», а Йоэль сказал, что «не полагается на кодирование». Не было статьи, предшествующей «кодированию»! Йоэль не сказал , что он не опирается на «кодировке». Мы только сказали, что вам не нужно беспокоиться о кодировании чего-либо для извлечения байтов . Вы, кажется, думаете, что мы утверждаем, что строка почему-то еще не имеет кодировки, которая явно чокнутая, а не то, что мы говорим. Мы просто говорим, что кодирование (как глагол ) не должно происходить здесь.
Mehrdad 08 нояб. 2016, в 11:48
3

Нет, здесь нет путаницы. В вашем ответе правильно говорится, что вам не нужно беспокоиться о кодировании, если вы не планируете интерпретировать строку, но есть ровно 0 случаев, когда это может быть полезно. Даже ваше собственное предложение («реконструировать строку») полагается на неизменность внутренней кодировки строки. Тем временем новички видят этот ответ и ложно верят, что им не нужно беспокоиться о том, что такое кодировка. Этот ответ хуже, чем неправильный, потому что он технически правильный, но крайне вредный.
BlueRaja - Danny Pflughoeft 08 нояб. 2016, в 16:28
2

@ BlueRaja-DannyPflughoeft: «здесь ровно 0 случаев, когда это может быть полезно». Я уже объяснил, что это работает, даже если строка не является допустимой UTF-16, поэтому в этом случае она будет полезна людям. Если вы лично не находите это полезным, вам не нужно его использовать.
Mehrdad 08 нояб. 2016, в 19:02
0

@ Mehrdad Я болтаю по этому поводу, и я вижу хорошие моменты с обеих сторон. Но, в конце концов, мне интересно, зачем вам когда-либо нужно преобразовывать строку с недопустимыми символами, предполагая, что это единственная причина, по которой вы будете использовать это решение. Разве мы не должны отчаянно пытаться избежать преобразования байтов в строку, которая технически недопустима? Не следует ли принудительно хранить подобные данные в виде байтового массива, чтобы не создавать у кого-то впечатления о наличии действительных символьных данных?
BlueMonkMN 17 янв. 2017, в 20:27
0

@BlueMonkMN: Я думаю, что ваша ошибка в том, что это не метод преобразования байтов в строки и обратно в байты. Это метод для преобразования строк в байты и обратно в строки. Здесь есть очень важное различие. Если вы спрашиваете, почему у пользователя даже есть строка с недопустимыми символами, или почему string даже допускает это, то это совершенно другой вопрос, а не то, на что я могу или попытаюсь ответить здесь. Я просто пытаюсь дать ответ, который не зависит от кодировки строки (если есть).
Mehrdad 17 янв. 2017, в 21:10
0

@Mehrdad Это моя точка зрения: я не знаю, как вы могли бы получить строку, содержащую недопустимые символы, без преобразования ее из массива байтов. Любое другое «правильное» средство генерации строк, о котором я могу подумать, не допустит этого, потому что оно будет проходить через кодирование или генерироваться процессом, который не сможет вернуть недопустимый символ. Поэтому я ожидаю, что всегда можно предположить, что строки .NET содержат только допустимые символы, если они не используют код, подобный тому, который вы предоставили.
BlueMonkMN 17 янв. 2017, в 21:18
3

@BlueMonkMN: «Это моя точка зрения: я не знаю, как вы могли бы получить строку, содержащую недопустимые символы, без преобразования ее из массива байтов». ... хорошо вот что: "\uD800" + "\uDC00" обе эти строки недопустимы, но их объединение допустимо. Может быть, вы хотите преобразовать каждый в байты, передать их и преобразовать обратно, а затем объединить. Может быть, они были сгенерированы аналогичным образом разделив действительную строку. Есть миллион способов, которыми вы можете получить неверные строки ...
Mehrdad 17 янв. 2017, в 21:26
1

OP не сообщает, почему он хочет «просто получить байты», но я предполагаю, что он предполагает, что System.Text.Encoding.Unicode.GetBytes(); делает какое-то дорогое обращение, которого он хочет избежать. К сожалению, то, что вы предлагаете здесь, менее эффективно из-за двойной копии. Кроме того, Endianness важен. ОП хочет зашифровать строку. Вполне вероятно, что он не делает этого, чтобы сохранить зашифрованную память в памяти. Он будет записан на диск или передан по сети. Что, если он должен быть расшифрован на машине с другим порядком байтов, сейчас или в будущем?
Kris Vandermotten 28 апр. 2017, в 13:57
1

@KrisVandermotten: «Что, если его нужно расшифровать на машине с другим порядком байтов, сейчас или в будущем?» ...... вздох. Какую часть этого ответа и последующего обсуждения вы прочитали до публикации своего комментария? Буквально второй комментарий, получивший наибольшее количество голосов - это самый верхний комментарий до того, как вы расширили комментарии, - точно так же , как вы только что сказали, о порядке байтов, и буквально пятый комментарий, получивший наибольшее количество голосов - второй комментарий перед расширение - был мой ответ на это ... и они были с 5 лет назад!
Mehrdad 29 апр. 2017, в 08:48
0

@ Mehrdad Мое второе замечание в том, что ваш комментарий о том, что «весь смысл в том, что вы хотите использовать его в той же системе, с тем же набором функций», не имеет смысла. Шифрование полезно только в том случае, если вы выполняете ввод-вывод, записываете зашифрованный поток в другое место, чтобы прочитать его в другом месте или в другое время. Вы не обращались к этому. Что еще более важно, это превосходит мой первый пункт: зачем кому-то хотеть использовать вашу функцию? Это менее эффективно, чем встроенный.
Kris Vandermotten 29 апр. 2017, в 09:09
0

И, наконец, если бы вариант использования был другим, а OP действительно хотел добраться до байтов, то самым небезопасным было бы пойти небезопасно и привести char* к byte* , не копируя строку дважды.
Kris Vandermotten 29 апр. 2017, в 09:11
1

@KrisVandermotten: (а) Это вещь , (б) небезопасный код не требует дополнительных привилегий во время выполнения вы можете не иметь (в) Если кто - то пишет или использует небезопасный код неправильно он будет молча коррумпированная память , а не сбой, (d) Нигде я утверждал, что это самый быстрый ответ, (e) нигде ОП не утверждает, что он также хочет получить самый быстрый ответ, (f) кто-то уже опубликовал ответ, используя небезопасный код, так что поднимите его, вместо того, чтобы спорить со мной, (g) я ' я просто отвечаю на вопрос; если вам не нравится сценарий использования ОП, идите с ним в спор.
Mehrdad 29 апр. 2017, в 10:28
0

Привет @ Mehrdad, у меня есть 2 вопроса для вас. В первых двух параграфах вы используете термины «интерпретированный» и «реконструировать». Что вы подразумеваете под "интерпретировать"? Можете ли вы привести пример того, что означает интерпретация? «Пересоздание» имеет смысл для меня (строка, доступная для чтения в байтах), но разве вы не должны использовать тот же тип кодирования при перестроении? Я понимаю, что в одной и той же системе это не должно быть проблемой, но является ли это потенциальной проблемой между различными системами? Большое спасибо за ваши ответы!
emery.noel 04 май 2017, в 16:03
0

@ emery.noel: Я имею в виду, вас волнует, что байты? Может ли что-нибудь сломаться в вашем коде, если бы байты не были действительными UTF-16 (или UTF-8, или что-нибудь еще, о чем знает ваш код)? Если да, то вы их интерпретируете. Что касается разных систем, да, это потенциальная проблема, и этот ответ не для этого сценария.
Mehrdad 04 май 2017, в 16:58
0

Я передумал об этом. Что-то, чего я не видел при первоначальном просмотре - символы с фиксированным размером в c # - на самом деле это просто копия массива. Создание массива может потребовать интерпретации; загрузка массива обратно в строку также может. Но сам массив воссоздается без интерпретации, поскольку символы имеют одинаковый размер, что позволяет воссоздать исходный массив символов. Вот и все, от чего зависит.
Gerard ONeill 01 нояб. 2017, в 19:18
0

Вам известно, что length * sizeof(char) не даст вам размер текста в байтах? Существуют такие кодировки, как UTF-8, в которых размер символа может варьироваться . В случае UTF-8 это может быть что угодно от 1 байта до четырех.
mg30rg 05 дек. 2017, в 16:19
0

Комментарии @ chris: «Я использую это решение для преобразования строк паролей в байты [] перед их засолкой и хэшированием. В этом случае использования меня абсолютно не заботит кодировка», наконец, убедит вас удалить этот ответ. Очевидно, недостаточно ясно, чтобы быть полезным, если кто-то действительно верит, что достаточно, чтобы защитить его.
John Rasch 11 янв. 2018, в 16:36
0

@ Джон Раш Я до сих пор не понимаю, что с этим не так. Строки .NET всегда имеют одинаковую кодировку фиксированной длины (т. Е. UTF-16). Поэтому можно с уверенностью предположить, что две строки .NET с одинаковой последовательностью символов внутренне представлены в виде идентичной последовательности байтов.
chris 13 янв. 2018, в 17:34
0

Я забрал «фиксированную» часть комментария выше, что, по общему признанию, неверно. Тем не менее, я не понимаю, почему любые две одинаковые строки .NET должны быть представлены в памяти как разные последовательности байтов.
chris 13 янв. 2018, в 17:49
0

@chris: string.Equals("\u0041\u030A", "\u00C5", StringComparison.InvariantCulture) - один из примеров, но он также не имеет абсолютно никакого отношения к моему ответу, поскольку у вас будет точно такая же проблема, если вы укажете кодировка.
Mehrdad 28 янв. 2018, в 04:13
2

Тот факт, что исходные данные хранятся в строке, уже подразумевает кодирование. Это не просто массив байтов, с которыми можно играть, как вам угодно. Если это так, почему вы сохранили его в строке? Это ... Просто глупо. Утверждение, что люди неправильно «интерпретируют» байты, совершенно неверно, поскольку их байты уже были интерпретированы тем фактом, что исходные данные были сохранены в строке .net. Потребитель получающихся байтов должен будет неявно знать, что такое кодировка для какого-либо использования оригинальных байтов.
dodexahedron 29 янв. 2018, в 09:49
1

Этот ответ настолько неправильный, я шокирован, увидев, что у него так много голосов. Да, в теории это работает. Но на этом и заканчиваются возможные варианты использования этого кода. Любой, кто использует этот код в производстве, должен быть уволен на месте. А аргумент «Не имеет значения, содержит ли строка недопустимые символы» - это BS, потому что ваши строки никогда не будут содержать недопустимых символов для начала.
Tom Lint 15 фев. 2018, в 09:04
4

Это кодировка. Вы только что изобрели свою собственную кодировку вместо стандартной.
immibis 10 июль 2018, в 22:25
0

Конечно, ваш жирный очень большой заголовок должен звучать так: «Вам не нужно беспокоиться о кодировании, когда платформа обрабатывает его за вас».
Chris F Carroll 10 окт. 2018, в 16:22
0

Намерение, о котором говорил OP, заключалось в шифровании строк. Я предполагаю, что если строка была зашифрована, то она также будет транспортироваться в какой-то момент. Что произойдет с использованием этого метода, если одна система будет использовать UTF-8, а другая - UTF-16? Разве это не сбрасывает sizeof (char) и полностью искажает строку?
DrewB 10 янв. 2019, в 16:58
0

@DrewB: да, потому что тогда ты написал бы глючный код. Этот код отлично справляется со своей задачей, и больше ничего не делает.
Mehrdad 10 янв. 2019, в 17:45

Показать ещё 122 комментария