Что такое неподписанный символ?

Question

Что такое неподписанный символ?

375

В C/С++ для чего используется unsigned char? Как он отличается от обычного char?

Landon Kuhn 16 сен. 2008, в 17:27

Источник

Теги:

c++

c

char

17 ответов

74

Это зависит от реализации, так как стандарт C НЕ определяет подписанность char. В зависимости от платформы char может быть signed или unsigned, поэтому вам нужно явно запросить signed char или unsigned char, если от этого зависит ваша реализация. Просто используйте char, если вы намерены представлять символы из строк, поскольку это будет соответствовать тому, что ваша платформа помещает в строку.

Разница между signed char и unsigned char такова, как вы ожидали. На большинстве платформ signed char будет иметь 8-битовое число с двумя дополнениями от -128 до 127, а unsigned char будет 8-разрядным целым без знака (0 до 255). Обратите внимание, что стандарт НЕ требует, чтобы типы char имели 8 бит, только sizeof(char) return 1. Вы можете получить число бит в char с помощью CHAR_BIT в limits.h. Хотя сегодня есть несколько платформ, где это будет нечто большее, чем 8.

В этом выпуске есть хорошее резюме этой проблемы .

Как уже упоминалось, поскольку я опубликовал это, вам лучше использовать int8_t и uint8_t, если вы действительно хотите представлять маленькие целые числа.

tgamblin 16 сен. 2008, в 19:31

2

подписанный символ имеет минимальный диапазон от -127 до 127, а не от -128 до 127
12431234123412341234123 28 янв. 2017, в 06:40
3

@ 12431234123412341234123: Технически верно, в том смысле, что стандарт С определяет минимальный диапазон от -127 до 127. Тем не менее, я призываю вас найти платформу, которая не использует арифметику двух дополнений. Почти на каждой современной платформе фактический диапазон подписанных символов будет от -128 до 127.
Todd Gamblin 06 фев. 2017, в 07:55
0

CHAR_BIT должен быть не менее 8 бит.
martinkunev 12 март 2019, в 16:31

Показать ещё 1 комментарий

33

Поскольку я чувствую, что это действительно вызвано, я просто хочу указать некоторые правила C и С++ (они в этом отношении одинаковы). Во-первых, все биты unsigned char участвуют в определении значения, если какой-либо неподписанный объект char. Во-вторых, unsigned char явно указано без знака.

Теперь у меня была дискуссия с кем-то о том, что происходит, когда вы конвертируете значение -1 типа int в unsigned char. Он отказался от идеи, что итоговый unsigned char имеет все свои биты, установленные в 1, потому что он беспокоился о представлении знака. Но он не обязан. Из этого правила сразу вытекает, что преобразование делает то, что предназначено:

Если новый тип без знака, значение преобразуется путем многократного добавления или вычитая одно больше максимального значения, которое может быть представлено в новом типе пока значение не окажется в диапазоне нового типа. (6.3.1.3p2 в черновике C99)

Это математическое описание. С++ описывает его в терминах модульного исчисления, что дает одно и то же правило. Во всяком случае, не гарантируется, что все биты в целочисленном -1 равны единице перед преобразованием. Итак, что у нас есть, поэтому мы можем утверждать, что полученный unsigned char имеет все свои биты CHAR_BIT, равные 1?

Все биты участвуют в определении его значения - то есть в объекте не происходит никаких битов заполнения.
Добавление только одного времени UCHAR_MAX+1 в -1 даст значение в диапазоне, а именно UCHAR_MAX

Это достаточно, на самом деле! Поэтому, когда вы хотите, чтобы unsigned char имел все свои биты один, вы делаете

unsigned char c = (unsigned char)-1;

Также следует, что преобразование - это не просто усечение битов более высокого порядка. Счастливое событие для двух дополнений состоит в том, что это просто усечение там, но то же самое не обязательно верно для других знаковых представлений.

Johannes Schaub - litb 14 янв. 2009, в 12:09

2

Почему бы просто не использовать UCHAR_MAX ?
Nicolás 04 янв. 2011, в 22:01
4

Или короче ~0 .
Jens 07 окт. 2012, в 14:35
1

Потому что (unsigned type)-1 это какая-то идиома. ~0 нет.
Patrick Schlüter 28 нояб. 2014, в 12:07
1

если у меня есть что-то вроде этого int x = 1234 и char *y = &x . Двоичное представление 1234 : 00000000 00000000 00000100 11010010 . Моя машина имеет 11010010 00000100 00000000 00000000 порядок байтов, поэтому она переворачивает ее и сохраняет в памяти 11010010 00000100 00000000 00000000 LSB идет первым. Теперь основная часть. если я использую printf("%d" , *p) . printf будет читать первый байт 11010010 только вывод равен -46 а 11010010 равен 210 так почему он печатает -46 . Я действительно смущен, я думаю, что какой-то символ для целочисленного продвижения делает что-то, но я не знаю.
Suraj Jain 17 авг. 2016, в 10:23

Показать ещё 2 комментария

21

Как, например, использование unsigned char:

unsigend char часто используется в компьютерной графике, которая очень часто (хотя и не всегда) назначает один байт каждому цветовому компоненту. Обычно наблюдается цвет RGB (или RGBA), представленный как 24 (или 32) бита, каждый без знака char. Поскольку значения без знака char попадают в диапазон [0,255], значения обычно интерпретируются как

0 означает полное отсутствие заданного цветового компонента
255 означает 100% данного цветного пигмента

Таким образом, вы получите RGB красный как (255,0,0) → (100% красный, 0% зеленый, 0% синий).

Почему бы не использовать подписанный char? Арифметика и смещение бит становятся проблематичными. Как уже объяснялось, подписанный диапазон char существенно сдвинут на -128. Очень простой и наивный (в основном неиспользуемый) метод преобразования RGB в оттенки серого состоит в том, чтобы усреднить все три цветовых компонента, но это приводит к проблемам, когда значения компонентов цвета отрицательны. Красный (255, 0, 0) усредняет значение (85, 85, 85) при использовании арифметики без знака char. Однако, если значения были подписаны символами (127, -128, -128), мы получим (-99, -99, -99), который будет (29, 29, 29) в нашем беззнаковом char которое неверно.

Zachary Garrett 17 сен. 2008, в 03:53

12

Если вы хотите использовать символ как маленькое целое число, самый безопасный способ сделать это - это типы int8_t и uint8_t.

jbleners 16 сен. 2008, в 19:59

2

Не очень хорошая идея: int8_t и uint8_t являются необязательными и не определены в архитектурах, где размер байта не равен 8 битам. И наоборот, signed char и unsigned char всегда доступны и гарантированно содержат не менее 8 бит. Это может быть общий путь, но не самый безопасный .
chqrlie 06 апр. 2015, в 22:44
0

Это комментарий, он не отвечает на вопрос.
Lundin 24 нояб. 2017, в 08:30

5

char и unsigned char не гарантируются как 8-разрядные типы на всех платформах, они гарантированно будут 8 бит или больше. На некоторых платформах 9-битный, 32-разрядный или 64-разрядный байты. Однако наиболее распространенные платформы сегодня (Windows, Mac, Linux x86 и т.д.) Имеют 8-разрядные байты.

bk1e 17 сен. 2008, в 07:30

3

unsigned char принимает только положительные значения.... например 0 до 255

где as

signed char принимает как положительные, так и отрицательные значения.... например -128 до +127

munna 22 янв. 2013, в 12:10

3

signed char имеет диапазон от -128 до 127; unsigned char имеет диапазон от 0 до 255.

char будет эквивалентен либо подписанному char, либо unsigned char, в зависимости от компилятора, но является отдельным типом.

Если вы используете строки стиля C, просто используйте char. Если вам нужно использовать символы для арифметики (довольно редко), укажите явно подписанный или неподписанный для переносимости.

James Hopkin 16 сен. 2008, в 19:52

3

В терминах прямых значений используется обычный char, когда известно, что значения находятся между CHAR_MIN и CHAR_MAX, а unsigned char обеспечивает двойной диапазон на положительном конце. Например, если CHAR_BIT равно 8, диапазон регулярных char гарантируется только [0, 127] (поскольку он может быть подписан или без знака), а unsigned char будет [0, 255] и signed char будет [-127, 127].

В терминах того, для чего он использовался, стандарты позволяют напрямую преобразовывать объекты POD (простые старые данные) в массив без знака char. Это позволяет вам просматривать представление и битовые шаблоны объекта. Для char или подписанного char та же гарантия безопасного кастомизации типа не существует.

Julienne Walker 16 сен. 2008, в 19:12

0

На самом деле, это чаще всего будет [-128, 128].
RastaJedi 24 апр. 2016, в 02:20
0

Стандарты только формально определяют представление объекта в виде последовательности unsigned char , а не массива , а любое «преобразование» определяется только формально путем копирования из объекта в реальный объявленный массив unsigned char последующей проверкой последнего. Не ясно, может ли OR быть интерпретировано как такой массив напрямую, с учетом арифметики указателей, которое это повлечет за собой, т. Е. Будет ли "sequence" == "array" в этом использовании. Есть основная проблема № 1701, открытая в надежде получить разъяснения. К счастью, эта неоднозначность действительно беспокоит меня в последнее время.
underscore_d 30 авг. 2016, в 12:49
0

@RastaJedi Нет, не будет. Не может Диапазон -128 ... + 128 физически невозможно представить с помощью 8 битов. Эта ширина поддерживает только 2 ^ 8 == 256 дискретных значений, но -128 ... + 128 = 2 * 128 + 1 для 0 = 257. Представление величины знака допускает -127 ... + 127, но имеет 2 (биполярные) нули. Представление «два с дополнением» поддерживает один ноль, но составляет диапазон, имея еще одно значение на отрицательной стороне; это позволяет -128 ... + 127. (И так для обоих при большей ширине бита.)
underscore_d 30 авг. 2016, в 12:52
0

Что касается моего второго комментария, то разумно предположить, что мы можем взять указатель на 1-й unsigned char OR, а затем перейти к использованию ++ptr оттуда, чтобы прочитать каждый его байт ... но AFAICT, он не определен как разрешенный Таким образом, мы можем сделать вывод, что это « вероятно, хорошо» из множества других отрывков (и во многих отношениях, просто наличия memcpy ) в Стандарте, сродни мозаике. Что не идеально. Ну, возможно, формулировка улучшится в конце концов. Вот проблема CWG, о которой я упоминал, но не хватало места для ссылки - open-std.org/jtc1/sc22/wg21/docs/cwg_active.html#1701
underscore_d 30 авг. 2016, в 12:59
0

@underscore_d извините, это была опечатка. [-128, 127] это то, что я хотел напечатать: с. Да, я знаю о двойных нулях («положительный» и «отрицательный» ноль) со знаком / величиной. Должно быть, я устал.
RastaJedi 30 авг. 2016, в 22:31

Показать ещё 3 комментария

3

Беззнаковое char представляет собой (без знака) байтовое значение (от 0 до 255). Возможно, вы думаете о "char" в терминах "персонажа", но это действительно числовое значение. Обычный "char" подписан, поэтому у вас есть 128 значений, и эти значения сопоставляются символам с использованием кодировки ASCII. Но в любом случае то, что вы храните в памяти, является байтовым значением.

Zac Gochenour 16 сен. 2008, в 18:37

2

unsigned char - это основа всей хитрости. Почти во всех компиляторах для всей платформы unsigned char является просто BYTE. Целое число без знака (обычно) 8 бит. который можно рассматривать как небольшое целое или пакет бит.

В зависимости от того, как сказал кто-то другой, стандарт не определяет знак char. поэтому у вас есть 3 разных типа "char": char, подписан char, unsigned char.

ugasoft 16 сен. 2008, в 20:29

1

Немного хитрости, хитрости или взлома действительно вызывают привыкание ;-)
chqrlie 06 апр. 2015, в 22:48
3

Это 0, которые вызывают проблемы. Чтобы избежать пагубной привычки, держитесь подальше от грубых кусочков.
DragonLord 23 май 2016, в 18:12

2

Если вам нравится использовать различные типы определенной длины и подписи, вам, вероятно, лучше работать с uint8_t, int8_t, uint16_t и т.д. просто потому, что они делают именно то, что они говорят.

Dark Shikari 16 сен. 2008, в 19:18

1

unsigned char принимает только положительные значения: от 0 до 255 подписанный char принимает положительные и отрицательные значения: от -128 до +127

NL628 24 нояб. 2017, в 22:44

1

беззнаковые числа always positive or zero и подчиняются laws of arithmetic modulo 2^n, где n - количество бит в типе.

пример: если символы имеют 8 бит, переменные unsigned char имеют значения между 0 and 255, а signed chars имеют значения между -128 and 127.

Prateek Joshi 13 окт. 2015, в 08:42

1

Некоторые поисковики обнаружили это, где люди обсуждали это.

Беззнаковый char является в основном одиночным байтом. Таким образом, вы использовали бы это, если вам нужен один байт данных (например, возможно, вы хотите использовать его для установки и включения флажков для функции, как это часто делается в Windows API).

dbrien 16 сен. 2008, в 20:12

0

цитируется из книги "c программирования laugage":

К char или любому целому числу может применяться квалификатор signed или unsigned. беззнаковые числа всегда положительны или равны нулю и подчиняются законам арифметики по модулю 2 ^ n, где n - число бит в типе. Так, например, если символы имеют 8 бит, переменные без знака char имеют значения между 0 и 255, в то время как подписанные символы имеют значения от -128 до 127 (в два раза добавьте машину.) Являются ли простые символы подписанными или неподписанными являются зависящими от машины, но печатные символы всегда положительны.

ZhaoGang 21 июль 2017, в 04:31

0

Беззнаковый char использует бит, который зарезервирован для знака обычного char как еще один номер. Это изменяет диапазон на [0 - 255] в отличие от [-128 - 127].

Обычно символы без знака используются, когда вам не нужен знак. Это будет иметь значение при выполнении таких вещей, как смещение битов (сдвиг расширяет знак) и другие вещи при работе с char как байт, а не использование его как числа.

JasonOfEarth 16 сен. 2008, в 18:57

Ещё вопросы

подписанный символ имеет минимальный диапазон от -127 до 127, а не от -128 до 127
@ 12431234123412341234123: Технически верно, в том смысле, что стандарт С определяет минимальный диапазон от -127 до 127. Тем не менее, я призываю вас найти платформу, которая не использует арифметику двух дополнений. Почти на каждой современной платформе фактический диапазон подписанных символов будет от -128 до 127.
Почему бы просто не использовать UCHAR_MAX ?
Потому что (unsigned type)-1 это какая-то идиома. ~0 нет.
если у меня есть что-то вроде этого int x = 1234 и char *y = &x . Двоичное представление 1234 : 00000000 00000000 00000100 11010010 . Моя машина имеет 11010010 00000100 00000000 00000000 порядок байтов, поэтому она переворачивает ее и сохраняет в памяти 11010010 00000100 00000000 00000000 LSB идет первым. Теперь основная часть. если я использую printf("%d" , *p) . printf будет читать первый байт 11010010 только вывод равен -46 а 11010010 равен 210 так почему он печатает -46 . Я действительно смущен, я думаю, что какой-то символ для целочисленного продвижения делает что-то, но я не знаю.
Не очень хорошая идея: int8_t и uint8_t являются необязательными и не определены в архитектурах, где размер байта не равен 8 битам. И наоборот, signed char и unsigned char всегда доступны и гарантированно содержат не менее 8 бит. Это может быть общий путь, но не самый безопасный .
Это комментарий, он не отвечает на вопрос.
На самом деле, это чаще всего будет [-128, 128].
Стандарты только формально определяют представление объекта в виде последовательности unsigned char , а не массива , а любое «преобразование» определяется только формально путем копирования из объекта в реальный объявленный массив unsigned char последующей проверкой последнего. Не ясно, может ли OR быть интерпретировано как такой массив напрямую, с учетом арифметики указателей, которое это повлечет за собой, т. Е. Будет ли "sequence" == "array" в этом использовании. Есть основная проблема № 1701, открытая в надежде получить разъяснения. К счастью, эта неоднозначность действительно беспокоит меня в последнее время.
@RastaJedi Нет, не будет. Не может Диапазон -128 ... + 128 физически невозможно представить с помощью 8 битов. Эта ширина поддерживает только 2 ^ 8 == 256 дискретных значений, но -128 ... + 128 = 2 * 128 + 1 для 0 = 257. Представление величины знака допускает -127 ... + 127, но имеет 2 (биполярные) нули. Представление «два с дополнением» поддерживает один ноль, но составляет диапазон, имея еще одно значение на отрицательной стороне; это позволяет -128 ... + 127. (И так для обоих при большей ширине бита.)
Что касается моего второго комментария, то разумно предположить, что мы можем взять указатель на 1-й unsigned char OR, а затем перейти к использованию ++ptr оттуда, чтобы прочитать каждый его байт ... но AFAICT, он не определен как разрешенный Таким образом, мы можем сделать вывод, что это « вероятно, хорошо» из множества других отрывков (и во многих отношениях, просто наличия memcpy ) в Стандарте, сродни мозаике. Что не идеально. Ну, возможно, формулировка улучшится в конце концов. Вот проблема CWG, о которой я упоминал, но не хватало места для ссылки - open-std.org/jtc1/sc22/wg21/docs/cwg_active.html#1701
@underscore_d извините, это была опечатка. [-128, 127] это то, что я хотел напечатать: с. Да, я знаю о двойных нулях («положительный» и «отрицательный» ноль) со знаком / величиной. Должно быть, я устал.
Немного хитрости, хитрости или взлома действительно вызывают привыкание ;-)
Это 0, которые вызывают проблемы. Чтобы избежать пагубной привычки, держитесь подальше от грубых кусочков.

Fruny · Accepted Answer · 2008-09-17T22-21-00.000Z

479

Лучший ответ

В С++ существуют три различных типа символов:

char
signed char
unsigned char

Если вы используете типы символов для текста, используйте неквалифицированный char:

это тип символов, таких как 'a' или '0'.
это тип, который составляет строки C, такие как "abcde"

Он также работает как числовое значение, но не указано, обрабатывается ли это значение как подписанное или unsigned. Остерегайтесь сопоставления персонажей с помощью неравенств - хотя, если вы ограничиваете себя ASCII (0-127), вы почти безопасны.

Если вы используете типы символов в качестве чисел, используйте:

signed char, который дает вам, по крайней мере, диапазон от -127 до 127. (От -128 до 127).
unsigned char, который дает вам как минимум диапазон от 0 до 255.

"По крайней мере", потому что стандарт С++ дает только минимальный диапазон значений, который требуется для каждого числового типа. sizeof (char) требуется 1 (т.е. один байт), но байтом теоретически может быть, например, 32 бита. sizeof будет сообщать свой размер как 1 - это означает, что у вас может быть sizeof (char) == sizeof (long) == 1.

Fruny 17 сен. 2008, в 22:21

4

Чтобы было ясно, могли бы вы иметь 32-разрядные символы и 32-разрядные целые числа и иметь sizeof (int)! = Sizeof (char)? Я знаю, что стандарт говорит sizeof (char) == 1, но является ли относительный размер (int) основанным на фактической разнице в размере или разнице в диапазоне?
Joseph Garvin 11 янв. 2009, в 23:21
0

Джозеф, sizeof дает размер представления объекта типа. если вы говорите 32-битное int, то первое мало о чем говорит. скорее всего, вы имеете в виду представление объекта (это физический размер - включая все биты заполнения).
Johannes Schaub - litb 14 янв. 2009, в 06:26
0

если это так, то sizeof (int)! = sizeof (char) не может быть истинным, потому что char / unsigned / signature char использует все биты своего представления объекта для представления своих значений (так называемое представление значения)
Johannes Schaub - litb 14 янв. 2009, в 06:27
0

Гарантированный диапазон signed char составляет от -127 до 127, но при допущении 2-х вы получите от -128 до 127. И это довольно безопасное предположение.
Steve Jessop 16 май 2012, в 10:49
0

почему 1 байт может быть 32 бита?
pseudonym_127 16 май 2013, в 06:19
13

+1. Но в C ++ есть четыре разных символьных типа, wchar_t - один из них.
Eric Z 24 авг. 2013, в 09:19
0

@Fruny Я заметил, что вы написали sizeof () с пробелом между ними, можете ли вы уточнить, как это использовать? В данный момент я ищу ответ на этот вопрос. Заранее спасибо.
Unheilig 11 янв. 2014, в 20:23
10

Начиная с c ++ 11 у вас есть 6 различных типов: char, знаковый char, unsigned char, wchar_t, char16_t, char32_t.
marcinj 16 фев. 2014, в 09:53
0

@ pseudonym_127 хороший вопрос. Я думаю, это потому, что технически размер бита не указан (хотя обычно это 8 бит). Надеюсь, кто-то еще может это проверить.
Celeritas 09 авг. 2014, в 07:41
11

@unheilig Распространено ставить пробел после sizeof потому что это не функция, а оператор. ИМХО, даже лучше, не использовать круглые скобки при определении размера переменной. sizeof *p или sizeof (int) . Это быстро дает понять, применимо ли это к типу или переменной. Кроме того, после return необходимо ставить круглые скобки. Это не функция.
Patrick Schlüter 28 нояб. 2014, в 12:00
3

" char : это тип символьных литералов, таких как 'a' или '0' ." верно в C ++, но не в C. В C 'a' - это int .
chux 10 май 2016, в 17:30
1

Просто из любопытства вы говорите: «Но теоретически байт может быть, например, 32-битным», но в действительности байт составляет 8 бит. Что мне не хватает? Благодарю.
Brian 28 март 2018, в 14:13
0

«Байт» в этом контексте относится к наименьшей адресуемой единице памяти. Стандарты C и C ++ требуют, чтобы байт был не менее 8 бит, но они не указывают максимум. На большинстве современных компьютеров общего назначения (включая все, что совместимо с последними версиями posix) байт составляет ровно 8 бит, но специализированные платформы DSP и ретро-системы могут иметь большие байты.
plugwash 01 март 2019, в 18:48

Показать ещё 11 комментариев