Каково обоснование для строк с нулевым символом в конце?

Question

Каково обоснование для строк с нулевым символом в конце?

240

Насколько я люблю C и С++, я не могу не почесать голову при выборе нулевых завершенных строк:

Строки длиной до префикса (т.е. Паскаль) существовали до C
Длина префиксных строк делает несколько алгоритмов быстрее, обеспечивая постоянный поиск длины.
Длина префиксных строк делает сложнее вызвать ошибки переполнения буфера.
Даже на 32-битной машине, если вы разрешаете строке быть размером доступной памяти, длина префиксной строки всего на три байта шире, чем строка с нулевым завершением. На 16-битных машинах это один байт. На 64-битных машинах 4 ГБ является разумным пределом длины строки, но даже если вы хотите расширить его до размера машинного слова, 64-разрядные машины обычно имеют достаточную память, что делает лишние семь байтов вроде нулевого аргумента. Я знаю, что оригинальный C-стандарт был написан для безумно бедных машин (с точки зрения памяти), но аргумент эффективности не продает меня здесь.
Практически любой другой язык (например, Perl, Pascal, Python, Java, С# и т.д.) использует префиксные строки длины. Эти языки обычно били C в тестах обработки строк, потому что они более эффективны со строками.
С++ исправил это немного с помощью шаблона std::basic_string, но простые массивы символов, ожидающие нулевых завершенных строк, все еще распространены. Это также несовершенно, потому что для этого требуется выделение кучи.
Строки с нулевым завершением должны зарезервировать символ (а именно, null), который не может существовать в строке, а строки с префиксом длины могут содержать внедренные нули.

Некоторые из этих вещей появились совсем недавно, чем C, поэтому было бы полезно, чтобы C не знал о них. Тем не менее, некоторые из них были хорошо известны до того, как C стал. Почему были выбраны нулевые завершенные строки вместо префикса явно превосходящей длины?

РЕДАКТИРОВАТЬ: поскольку некоторые из вас попросили факты (и мне не понравились те, которые я уже предоставил) по моей эффективности выше, они вытекают из нескольких вещей:

Конкат, использующий нуль-завершенные строки, требует O (n + m) временной сложности. Для префикса длины часто требуется только O (m).
Длина с использованием нулевых завершенных строк требует O (n) временной сложности. Префикс длины - O (1).
Длина и concat являются наиболее распространенными строковыми операциями. Существует несколько случаев, когда нулевые завершаемые строки могут быть более эффективными, но они встречаются гораздо реже.

Из приведенных ниже ответов, это некоторые случаи, когда строки с нулевым завершением являются более эффективными:

Когда вам нужно отключить начало строки и передать ее некоторому методу. Вы не можете сделать это в постоянное время с префиксом длины, даже если вам разрешено уничтожить исходную строку, потому что префикс длины, вероятно, должен следовать правилам выравнивания.
В некоторых случаях, когда вы просто перебираете символ строки по символу, вы можете сохранить регистр CPU. Обратите внимание, что это работает только в том случае, если вы не динамически выделили строку (потому что тогда вам придется освободить ее, что потребовало бы использовать этот регистр процессора, который вы сохранили, чтобы удерживать указатель, который вы изначально получили от malloc и друзей).

Ни один из вышеперечисленных не является столь же общим, как длина и concat.

В ответах ниже сказано следующее:

Вам нужно отрезать конец строки

но это неверно - это такое же количество времени для строк с нулевым завершением и длиной префикса. (Строки с нулевым завершающим строком просто вставляют нуль, где вы хотите, чтобы новый конец был, префиксы длины просто вычитают из префикса.)

Billy ONeal 11 дек. 2010, в 20:18

Источник

103

Я всегда думал, что для всех программистов C ++ это был обряд, когда они пишут свою собственную библиотеку строк.
Juliet 11 дек. 2010, в 20:22
1

@Juliet: Lol - это правда. Но это не значит, что они должны использовать свою библиотеку строк в производственном коде. Я буду придерживаться стандартных битов TYVM :)
Billy ONeal 11 дек. 2010, в 20:26
3

@Juliet: тогда вы начинаете задаваться вопросом, как будет выглядеть ваше приложение, если вам нужно позаботиться о различной реализации строк для каждой библиотеки, от которой она зависит.
jweyrich 11 дек. 2010, в 20:53
28

Что это значит ожидать рациональных объяснений сейчас. Я полагаю, вы хотите услышать обоснование для x86 или DOS дальше? Насколько мне известно, худшая технология выигрывает. Каждый раз. И худшее строковое представление.
jalf 11 дек. 2010, в 21:09
2

@jalf: 1. x86 выиграл, потому что это было дешевле, а не по какой-либо технической причине. (Но это еще один аргумент) 2. Префикс длины выиграл везде, но C. Не понимаю (ха!), Как это победа для нулевого завершения.
Billy ONeal 11 дек. 2010, в 21:12
0

Даже большие системы, построенные на C, часто создают собственную структуру строковых данных, которая хранит длину рядом с байтами и создает вокруг нее библиотеку манипуляций. Win NT UNICODE_STRING, например.
Ben Zotto 11 дек. 2010, в 21:23
4

@Billy: потому что C стал смехотворно популярным языком? ;)
jalf 11 дек. 2010, в 21:25
0

Я написал об этом в 2003 году и придерживаюсь того, что сказал тогда.
Tim Bray 12 дек. 2010, в 03:24
3

Бьярне Страуструп, к сожалению, не может видеть будущее.
Mateen Ulhaq 12 дек. 2010, в 03:56
4

Почему вы утверждаете, что строки префикса длины лучше? В конце концов, C стал популярным, потому что он использовал строки с нулевым символом в конце, что отличало его от других языков.
Daniel C. Sobral 12 дек. 2010, в 04:17
38

@Daniel: C стал популярным, потому что это простое, эффективное и переносимое представление программ, исполняемых на машинах фон Неймана, и потому, что оно использовалось для Unix. Это, конечно, не потому, что он решил использовать строки с нулевым символом в конце. Если бы это было хорошее дизайнерское решение, люди бы скопировали его, а они нет. Они, конечно, скопировали почти все остальное из C.
Billy ONeal 12 дек. 2010, в 04:33
0

Я не понимаю, почему использование префикса длины вместо нулевого завершения приводит к "загроможденной семантике". В обоих случаях у вас есть кусок байтов. Если вы хотите поговорить о C # / Java, который выполняет такие вещи, как интернирование строк, то у вас может быть аргумент ....
Billy ONeal 12 дек. 2010, в 04:36
19

@Джульетта. Неправильно. Обряд каждого программиста C ++ - это собственная библиотека умных указателей. Библиотека строк является внеклассной.
Igor Zevaka 12 дек. 2010, в 06:41
25

где ярлык священной войны, когда вам это нужно?
Robert S Ciaccio 12 дек. 2010, в 12:52
2

Префикс длины не является частью «блока байтов», если ваш код не обрабатывает его как таковой (который будет очень медленным при постоянном использовании). Это объект данных, зависящий от компьютера (размер, порядковый номер, требование выравнивания и т. Д.), Который заставляет строки требовать значительной сериализации для хранения в файлах, передачи по сети и т. Д. Посмотрите, сколько новичков вы видите, отправляя (машинные) двоичные данные по линии связи на SO, и представьте, насколько хуже было бы, если бы строки содержали двоичные данные ...
R.. 12 дек. 2010, в 16:15
1

@calavera: Ха-ха - священная война не так уж и плоха, если люди на самом деле пытаются атаковать вышеупомянутые пункты. Ответы «это должен быть правильный ответ, потому что это сделал С» чрезвычайно раздражают. Независимо от того, насколько хороша какая-либо конкретная система, будут части, которые отстой. Просто жаль, что они не осознают, что вполне возможно копировать один из атрибутов Си, как и сам Си. Любить язык не значит, что тебе нравится все. (то же самое относится к любому «это должен быть ответ, потому что X делает это», заменяя X на «C», «Linus», <ВСТАВЬТЕ ИЗБРАННОЕ ЯЗЫК ПРОГРАММИРОВАНИЯ / ЧЕЛОВЕКА / СИСТЕМЫ ЗДЕСЬ>)
Billy ONeal 12 дек. 2010, в 16:59
2

Я не могу поверить, что я попал в шапку сегодня из-за вопроса. (Хорошо, 20 баллов пришли из ответов, но черт!)
Billy ONeal 12 дек. 2010, в 17:42
0

я не могу поверить, что я ударил репутацию за мой ответ, учитывая, сколько раз он был понижен: P
Robert S Ciaccio 12 дек. 2010, в 22:19
0

Все делают это. Вы не собираетесь отступать, не так ли? Или ты курица?
Thomas Eding 13 дек. 2010, в 04:27
2

Why would null terminated strings have been chosen instead of the obviously superior length prefixing? Я, честно говоря, не вижу, насколько длина строки с префиксом obviously superior . У обоих вариантов есть явные недостатки и преимущества, поэтому слово « superior имеет смысла.
Thomas Eding 13 дек. 2010, в 04:38
0

@trinithis: это своего рода пример того, чтобы задавать вопрос, по моему мнению.
Robert S Ciaccio 13 дек. 2010, в 04:52
3

@ Билли Ну, вопросы «это должно быть неправильно, потому что другие этого не делали» тоже надоедливые. Вы предоставили НЕТ ФАКТОВ о том, что лучше, и, на самом деле, есть много вещей, которые проще с нулевыми завершенными строками. И вы не предоставили доказательств того, что C не победил, потому что он использует строки с нулевым символом в конце. И вот в чем проблема: этот вопрос - чистое пламя и спекуляция, и я никогда не видел ни одного вопроса о переполнении стека, который не заслуживал бы закрытия больше, чем этот.
Daniel C. Sobral 13 дек. 2010, в 10:58
2

@ Даниель: нет фактов? Я думаю, что я перечислил много в моем вопросе.
Billy ONeal 13 дек. 2010, в 17:52
0

@Daniel: я немного отредактировал вопрос. Лучше?
Billy ONeal 13 дек. 2010, в 18:17
2

@ Билли Нет фактов. 1. Возраст! = Лучше. 2. Обратное также верно. 3. Неверно, при управлении собственной памятью переполнение буфера может быть в любом случае. 4. Это всего лишь защита, а не преимущество. 5. Популярность! = Лучше. 6. Не имеет значения - C ++ не существовал до C. 7. Не имеет значения - C может нормально обрабатывать буферы памяти с нулями, а строки C используются для отображения объектов на экране, а null не является графическим символом. Таким образом, нет фактов, указывающих на то, что строки с префиксом размера лучше, чем строки с нулевым символом в конце.
Daniel C. Sobral 13 дек. 2010, в 18:27
1

@Daniel: 1. Я никогда не хотел сказать, что возраст значит лучше - больше хотел сказать, что префикс длины не датируется C и, следовательно, мог быть рассмотрен при разработке. 2. Я полагаю, что обосновал это лучше с моей правкой. 7. Но стандартная библиотека C не может. Ни одна из библиотек C не может ожидать простых "строк C". Так что, если вы читаете на диске формат, который должен содержать строку, и кто-то поставил туда ноль, ваша программа окажется на коленях. Это "просто работает" на других языках без труда.
Billy ONeal 13 дек. 2010, в 18:34
4

Concat - это только O (m) с префиксом длины, если вы уничтожаете одну из строк. В остальном же скорость. Наиболее часто используемые строки C (исторически) были печать и сканирование. В обоих случаях нулевое завершение выполняется быстрее, поскольку оно сохраняет один регистр.
Daniel C. Sobral 13 дек. 2010, в 18:39
1

@Daniel: strcat уничтожает одну из строк.
Billy ONeal 13 дек. 2010, в 18:41
4

@Billy Извините, но моя стандартная библиотека C имеет множество функций, начинающихся с "mem", которые основаны на ВСЕХ размерах. Ни одно из них не является новым дополнением.
Daniel C. Sobral 13 дек. 2010, в 18:41
1

@Daniel: Ваша точка зрения?
Billy ONeal 13 дек. 2010, в 18:42
3

@Billy Вы сказали, что «стандартная библиотека C не может», но может.
Daniel C. Sobral 13 дек. 2010, в 19:08
0

@ Даниель: Но они этого не делают.
Billy ONeal 13 дек. 2010, в 19:27
1

@Billy Каким образом невозможно использовать функции mem * для обработки содержимого, в котором есть нули? Я, конечно, использовал это, и если вы когда-либо использовали Unix, то вы наверняка использовали код, который также использовал его преимущества. Конечно, вы не можете распечатать его, потому что нулевые символы не могут быть напечатаны. Но вы можете манипулировать им так, как хотите. Вот заголовок справочной страницы: «bcmp (3), bcopy (3), bzero (3), memccpy (3), memchr (3), memcmp (3), memcpy (3), memmove (3), memset (3) - операции с байтовой строкой ". Ни одна из этих (и других) функций не имеет значения для нулей, так в чем же проблема?
Daniel C. Sobral 13 дек. 2010, в 22:03
1

Это самая глупая война пламени. У меня нет предпочтений ни по одному из стилей, но глупая настойчивость Билли подталкивает меня к пустым цепочкам. (Плюс, когда определение длины строки является одной из наиболее распространенных операций строки? Конкат, конечно. Вывод, конечно. Длина ... нет. Даже при рассмотрении конкат, m + n -> 2max (m, n) -> 2n -> n -> без разницы.)
Thomas Eding 14 дек. 2010, в 02:26
2

Кроме того, большинство строк, с которыми я имею дело, являются постоянными. Даже при рассмотрении непостоянных, вы никогда не заметите разницу между скоростями. И если вы это сделаете, то вы все равно используете неправильный тип данных. Вы даже упоминаете, the efficiency argument doesn't sell me here , поэтому ваши аргументы в пользу эффективности строковых алгоритмов меня не продают (даже если я посчитал это важным).
Thomas Eding 14 дек. 2010, в 02:34
4

Если бы я мог поставить себя в любое место во времени, это было бы, когда K & R определил C. Почти каждый эксплойт безопасности когда-либо был переполнением строки или буфера. Если бы они включали строки / массивы с префиксом длины и соответствующие языковые конструкции для управления ими. (А потом я бываю у Коперника; скажите ему, что это эллипсы, а не большие раковины. В обоих случаях люди будут избавлены от десятилетий боли.)
Ian Boyd 11 июль 2011, в 13:58
0

@trinithis: Я должен отметить, что я говорю о больших различиях эффективности с точки зрения алгоритмов, но только с 3 байтами с точки зрения различий в памяти. Первое большое дело. Второй маленький сыр. Что касается «глупой настойчивости», если бы вы объяснили, как я был глуп, а не назвал меня глупым, возможно, вас бы посчитали более серьезным.
Billy ONeal 18 июль 2011, в 22:25
0

Если вы помните Microsoft Assembler (MASM), он использовал строки с $ завершением. Таким образом, терминатор (или его отсутствие) является произвольным выбором авторов языка.
jww 07 фев. 2014, в 08:31
0

@TimBray: IMHO, Java должен был включать string примитив, который был бы 32-битным непрозрачным типом, который мог бы содержать ссылку на объект Java, но не обязательно должен был бы делать это. Я занимался реализацией в C ++ пула строк / массивов для сбора мусора для систем с ограниченной оперативной памятью, где каждая строковая ссылка занимала бы 2 байта вне пула и 2-3 байта внутри него; строки длиной до 32 байт будут иметь один дополнительный байт для длины, а более длинные строки добавят немного больше. Массивы ссылок, хранящиеся в пуле, будут занимать всего два байта на строку.
supercat 05 март 2015, в 05:53
0

@TimBray: единственный раз, когда я вижу строки с нулевым окончанием как полезные, это когда передается строка по значению методу, которому не нужно будет использовать строку после ее возврата. Во всех других контекстах коду, который должен работать со строками, длина которых заранее не известна, нужно будет каким-то образом отслеживать длины выделенных блоков памяти, и если это необходимо, нулевой терминатор на самом деле не покупает много. ,
supercat 05 март 2015, в 05:55
2

«Я написал об этом в 2003 году и поддерживаю то, что сказал тогда». - Это, пожалуй, худшая статья, когда-либо написанная на струнах. strncpy это "лучшая практика"? Печаль во благо.
Jim Balter 05 март 2015, в 20:33
0

Напоминание C позволяет избежать автоматически выполняемых расчетов по соображениям производительности. Таким образом, вы должны были хранить длину самостоятельно, так же, как и при использовании \0 . И, на мой взгляд, поддерживать \0 в конце каждой строки самостоятельно, намного проще, чем поддерживать число в начале и отслеживать количество данных, следующих за ним, и если количество меняется, мне также нужно изменить число ,
dhein 26 май 2015, в 12:57
0

@Zaibis: Вам нужно изменить, где находится нулевой терминатор, что функционально является тем же преобразованием.
Billy ONeal 26 май 2015, в 18:21
0

«Длина и конкат являются наиболее распространенными строковыми операциями». [цитата нужна] Я нахожу код, который хранит длину в дополнение к строке (либо в виде префикса, либо в блоке дескриптора), имеет тенденцию много использовать длину. Но код, который использует строки с нулевым символом в конце, часто вообще не заботится о длине. И concat по-прежнему O (n + m), потому что, за исключением особых случаев, сначала нужно скопировать исходную строку в буфер, достаточно большой, чтобы содержать оба. Я не против заранее просчитанных строк, но вопрос делает много предположений, которые смещают ответы.
Adrian McCarthy 26 июнь 2017, в 21:00
0

«строка с префиксом length [-] всего на три байта шире строки с нулевым символом в конце» плюс некоторые отступы для выравнивания, потому что вы, вероятно, хотите, чтобы счетчик был выровнен. Строки с нулевым символом в конце, которые выделяются в куче, также будут выровнены, но строковые литералы могут быть упакованы во время компиляции и компоновки и, таким образом, не будут иметь затрат на выравнивание.
Adrian McCarthy 26 июнь 2017, в 21:14
0

«... любой другой язык ...» написан на C
purec 30 сен. 2018, в 09:58
0

@purec: Это не значит, что они используют NTCTS. (И это не так в любом случае)
Billy ONeal 01 окт. 2018, в 17:54

Показать ещё 45 комментариев

Теги:

c++

string

c

null-terminated

16 ответов

142

C не содержит строку как часть языка. "Строка" в C - это просто указатель на char. Так что, возможно, вы задаете неправильный вопрос.

"Какое обоснование для исключения типа строки" может быть более актуальным. Для этого я хотел бы указать, что C не является объектно-ориентированным языком и имеет только базовые типы значений. Строка представляет собой концепцию более высокого уровня, которая должна быть реализована путем объединения значений других типов. C находится на более низком уровне абстракции.

в свете бушующего шквала ниже:

Я просто хочу указать, что я не пытаюсь сказать, что это глупый или плохой вопрос, или что способ представления строк - это лучший выбор. Я пытаюсь уточнить, что вопрос будет более лаконичным, если учесть тот факт, что C не имеет механизма для дифференциации строки как типа данных из массива байтов. Это лучший выбор в свете обработки и памяти сегодняшних компьютеров? Возможно нет. Но задним числом всегда 20/20, и все это:)

Robert S Ciaccio 11 дек. 2010, в 20:50

0

@calavera это не неправильный вопрос. это asciiz тип asciiz или символьные массивы с нулевым символом в asciiz .
khachik 11 дек. 2010, в 20:22
25

char *temp = "foo bar"; является действительным утверждением на C ... эй! разве это не строка? разве это не завершено?
Yanick Rochon 11 дек. 2010, в 20:22
54

@Yanick: это просто удобный способ сообщить компилятору о создании массива char с нулем в конце. это не «строка»
Robert S Ciaccio 11 дек. 2010, в 20:24
24

@calavera: Но это могло бы означать просто «Создать буфер памяти с этим строковым содержимым и двухбайтовым префиксом»,
Billy ONeal 11 дек. 2010, в 20:28
2

@calavera, «строка» по определению является «линейной последовательностью символов» и необязательно является типом данных. Это было сделано типом более высокими уровнями языка для удобства. В C это строка, в C # это нечто другое. Вопрос о C-строках, вот и все; указатель на линейную последовательность символов, за которой следует символ \0 .
Yanick Rochon 11 дек. 2010, в 20:29
4

Это может быть не строковый объект, как можно было бы подумать в C ++, но по определению это строка C. Перестань пытаться это отрицать.
Mark Ransom 11 дек. 2010, в 20:30
4

1) C имеет строки. 2) Строки C не являются типами, они определены как массивы char или wchar_t, которые содержат только один нулевой символ в конце. 3) То, что вы говорите, не имеет смысла. Почему "str" завершается нулем, а не имеет префикс размера?
tiftik 11 дек. 2010, в 20:33
12

@Billy: хорошо, поскольку «строка» - это на самом деле просто указатель на символ, который эквивалентен указателю на байт, как вы узнали бы, что буфер, с которым вы работаете, действительно предназначен для «строки»? вам потребуется новый тип, отличный от char / byte *, чтобы обозначить это. может быть структура?
Robert S Ciaccio 11 дек. 2010, в 20:33
2

@calavera: Вы бы не. Но вы действительно не знаете этого и со строкой Си. Кто-то может передать вам ненулевой завершенный буфер в любое время.
Billy ONeal 11 дек. 2010, в 20:34
1

chill y'all :) Я просто указываю на то, что для того, чтобы строка имела смысл для самого машинного языка, должен быть какой-то способ определить, является ли тип строкой или нет. авторы языка, очевидно, решили использовать один из самых простых и наиболее эффективных способов сделать это. По общему признанию, не идеальный и все еще неоднозначный, но простое добавление длины к началу байтового массива не решит проблему, если вы не знаете, что все байтовые массивы предваряются их длиной.
Robert S Ciaccio 11 дек. 2010, в 20:44
1

@ Билли: см. Мой комментарий выше. Я признаю, что это не однозначно, но это менее двусмысленно, чем просто добавление длины к байтовому массиву.
Robert S Ciaccio 11 дек. 2010, в 20:45
26

Я думаю, что @calavera прав, у C нет типа данных для строк. Хорошо, вы можете рассматривать массив символов как строку, но это не значит, что это всегда строка (под строкой я подразумеваю последовательность символов с определенным значением). Бинарный файл - это массив символов, но эти символы ничего не значат для человека.
BlackBear 11 дек. 2010, в 20:48
1

@ Яник: абсолютно не соответствует действительности. определение слова «строка» меняется в зависимости от контекста. Я говорю в контексте типов данных.
Robert S Ciaccio 11 дек. 2010, в 20:53
0

@tiftik: вы задаете правильный вопрос.
Robert S Ciaccio 11 дек. 2010, в 20:53
4

Строка не должна быть удобочитаемой для человека - «В информатике строка - это любая конечная последовательность символов (т. Е. Букв, цифр, символов и знаков препинания)».
jweyrich 11 дек. 2010, в 21:05
0

@Billy: даже если бы мы объединили два подхода (с добавлением длины и добавлением нуля), результирующий массив char / byte все равно необходимо будет просмотреть, чтобы определить, действительно ли байты представляют строку или нет. Таким образом, этот подход был бы менее эффективным на начальном этапе, но более эффективным, когда мы вроде как подтвердили, что имеем дело со строкой. единственный недвусмысленный способ работы со строками с использованием существующих типов - это создать структуру, которая представляет строки, а не разрешать такие операторы, как char* myStr = "Hello World"; , но только strStruct* str = "hello world";
Robert S Ciaccio 11 дек. 2010, в 21:09
2

@jweyrich: Вы правы, я имею в виду, никто не будет читать двоичный файл и помещать его содержимое в строковую переменную, верно? Ну, я бы не стал делать, но я не знаю с ++.
BlackBear 11 дек. 2010, в 21:10
1

@calvera: Зачем вам нужно пересечь строку? Большинство C, которые я видел, не беспокоятся о том, что буфер, который он получает, обнуляется; если это не нуль, прекращено результаты сбоя. (Потому что, как правило, невозможно обнаружить этот тип отказа)
Billy ONeal 11 дек. 2010, в 21:10
0

@ Билли: да, и именно поэтому это отстой, когда в язык не интегрирован строковый тип. а также почему такие функции, как strcpy_s и тому подобное, заменили старые версии.
Robert S Ciaccio 11 дек. 2010, в 21:12
4

@ Марк Рэнсом: Вы не правы и не говорите мне, что прекратить делать. Если вы так уверены в своем определении, попробуйте следующее: int* str = "this is just bytes, i have no idea what a string is"; часть с правой стороны является строковым литералом . Си не знает, что такое строковый тип, он знает только, как назначить строковый литерал указателю.
Robert S Ciaccio 11 дек. 2010, в 21:41
3

@ Яник Рошон: char a[4] = "toto"; также является допустимым оператором C, но в этом случае «toto» может быть строкой, но не заканчивается нулем (одно из самых игнорируемых небольших различий между C и C ++).
kriss 12 дек. 2010, в 00:29
1

@calavera: Извините, хотел сказать вам +1 раньше. @ BlackBear: я не понимаю, почему префикс длины не позволяет хранить двоичные данные в строковой переменной. Я также не понимаю, почему нулевое завершение делает то же самое. Люди используют char * чтобы указывать на простые байты все время, и это вполне разумно.
Billy ONeal 12 дек. 2010, в 04:31
4

Тот факт, что C не имеет строкового типа, не означает, что он не имеет строковых значений. Он имеет четко определенное соглашение, восходящее к началу языка, которое поддерживается языком через строковые литералы. Любая попытка заявить о другом просто чрезмерно педантична.
Mark Ransom 12 дек. 2010, в 05:01
4

@Mark: ты педантичный.
Robert S Ciaccio 12 дек. 2010, в 07:03
0

@ Билли: спасибо, я ценю, что мы можем обсудить это и не согласиться, не прибегая к тому, чтобы говорить друг другу, что думать или делать. :)
Robert S Ciaccio 12 дек. 2010, в 07:06
1

@ Билли: я не хотел этого говорить. Я только что сказал, что согласен с @Calavera: «хорошо, поскольку« строка »на самом деле является просто указателем на символ, который эквивалентен указателю на байт, откуда вы знаете, что буфер, с которым вы имеете дело, действительно предназначен для строка'?".
BlackBear 13 дек. 2010, в 10:26
1

@ BlackBear: нет. По крайней мере, не в C.
Billy ONeal 13 дек. 2010, в 17:52
4

+1 от меня. Понимание того, что массив char - это не то же самое, что строка символов (например, из-за отсутствия понятия кодировки), является ключевым моментом.
Frerich Raabe 22 дек. 2010, в 09:04
0

@BillyONeal: в отношении вашего оператора char * ; люди могут делать это, но разве это не плохая практика? По умолчанию предполагается использование unsigned char . Если они действительно имеют дело с двоичными данными, а не со строками ASCII в системе, которая имеет signed char , есть проблема.
mrduclaw 29 сен. 2011, в 20:10
1

@mrduclaw: Нет, это действительно не предполагает ничего о подписанном или неподписанном символе. Если вы никогда не обращаетесь к данным через тип char, не имеет значения, какой тип вашего буфера на самом деле. (Что является обычным явлением при работе с непрозрачными данными, загруженными из файла или в другом месте)
Billy ONeal 30 сен. 2011, в 01:30
0

«Но это могло бы означать просто« Создать буфер памяти с этим строковым содержимым и двухбайтовым префиксом »» - Нет, этого не могло быть, потому что это поместило бы n-й символ temp в значение temp [n + 2 ], что является ужасной вещью, которую можно закрепить на языке программирования. Другая очевидная причина иметь строки, заканчивающиеся на NULL, заключается в том, что вы можете иметь указатели на строки ... именно так всегда выполнялась обработка строк в C до тех пор, пока не появились машины и компиляторы с эффективными операциями над индексами.
Jim Balter 30 июнь 2012, в 03:53
4

«Строка» четко определена стандартом C как (в основном) последовательность символов с нулевым символом в конце.
Miles Rout 21 июнь 2014, в 14:34
1

Есть много других неориентированных языков и все еще есть поддержка строк
phuclv 15 июль 2014, в 01:14
0

@JimBalter: как насчет указателя на первый символ и указать, что если предыдущий символ не больше, чем UCHAR_MAX / 2, он представляет длину; в противном случае, если предшествующий символ не больше, чем UCHAR_MAX / 2, длина будет p [-2] * (CHAR_MAX / 2 + 1) + p [-1] и т. д. до столько предшествующих байтов, сколько требуется?
supercat 05 март 2015, в 14:35
0

@supercat У вашей сумасшедшей идеи есть множество проблем, таких как невозможность добавления в строку ... даже копирование такой вещи в существующий буфер было бы невозможным. А поскольку ваша схема cockamamie требует как минимум 2 байта длины, она была бы хуже простого использования фиксированной 16-битной предшествующей длины на оригинальных машинах C. И, конечно, ваша поразительно плохая идея по-прежнему не позволила бы указатель на строку для ее обхода - второй пункт комментария, на который вы отвечаете.
Jim Balter 05 март 2015, в 18:45
0

@JimBalter: для строк длиной до 127 байт потребуется один байт, для строк длиной до 16383 байт - два, для строк длиной до 2097151 байт - три, и т. Д. При выделении строкового буфера определенного размера оставьте подходящее количество пространство для длины. Если методу сообщают, что в буфере есть место для 32768 байтов, он имеет право предположить, что три байта, предшествующие указателю, были доступны.
supercat 05 март 2015, в 19:01
0

@JimBalter: Небольшая коррекция: укажите, что весь код, изменяющий длину строки, должен записывать новую длину в том же формате, что и старая. Чтобы выделить строку длиной 32768 байт, char *s=malloc(32768+3)+3; s[-1]=0x80; s[-2]=0x80; s[-3]=0x00. Given a pointer to a string, one could find the allocation base via char p = s; do {--p;} while (* p & 0x80); `. Фактически, однажды можно было бы усилить эту идею, потребовав, чтобы всем * записываемым строкам предшествовали два числа переменной длины: чем ближе текущая длина, тем дальше выделенная длина. Таким образом...
supercat 05 март 2015, в 19:15
0

... можно эффективно защититься от переполнения буфера, не требуя, чтобы код вручную отслеживал длину буфера.
supercat 05 март 2015, в 19:24
0

@supercat "Это потребует одного байта длины" - извините, я неправильно прочитал ваш дизайн. Но я не собираюсь больше тратить время на эту глупую и спорную идею. Если вы хотите создать новый старомодный PL, который использует его, сделайте это.
Jim Balter 05 март 2015, в 19:40
1

"Строка" в C - это просто указатель на символ ... "это не так ( указатель ); это 0 массив char .
alk 29 июнь 2016, в 17:03
0

@alk: массив в C это просто указатель ! Насколько я знаю, array[3] на самом деле делает *(array + 3) за кулисами. (Конечно, игнорируя такие вещи, как ASLR .) Я на самом деле видел, как люди перебирают строки, используя манипуляции с указателями.
SilverWolf 30 апр. 2018, в 18:45

Показать ещё 39 комментариев

88

Вопрос задается как вещь Length Prefixed Strings (LPS) vs zero terminated strings (SZ), но в основном раскрывает преимущества префиксных строк длины. Это может показаться ошеломляющим, но, честно говоря, мы также должны учитывать недостатки LPS и преимущества SZ.

Как я понимаю, вопрос может быть даже понят как предвзятый способ спросить "в чем преимущества Zero Terminated Strings?".

Преимущества (я вижу) строк с нулевым завершением:

очень просто, не нужно вводить новые понятия в язык, char массивы / char могут делать указатели.
основной язык включает минимальный синтаксический сахар для преобразования что-то между двойными кавычками куча символов (на самом деле это куча байт). В некоторых случаях его можно использовать полностью инициализировать вещи не связанный с текстом. Например, xpm формат файла изображения является допустимым источником C который содержит данные изображения, закодированные как строка.
Кстати, вы можете поместить нуль в строковый литерал, компилятор будет просто добавьте еще один в конец литерала: "this\0is\0valid\0C". Это строка? или четыре строки? Или куча байтов...
плоская реализация, без скрытой косвенности, без скрытого целого.
не задействовано скрытое выделение памяти (ну, некоторые постыдные не стандартные функции, такие как strdup выполнять распределение, но в основном источник проблемы).
нет конкретной проблемы для небольшого или большого оборудования (представьте себе управлять длиной бита 32 бит на 8 бит микроконтроллеров или ограничения ограничения размера строки до менее 256 байт, это была проблема, с которой я действительно сталкивался с Turbo Pascal eons назад).
реализация строковых манипуляций - всего лишь несколько очень простая функция библиотеки
эффективен для основного использования строк: чтение постоянного текста последовательно от известного старта (в основном сообщения для пользователя).
завершающий нуль даже не является обязательным, все необходимые инструменты манипулировать символами как кучу байты. При выполнении инициализация массива в C, вы можете даже избегайте терминатора NUL. Просто установите правильный размер. char a[3] = "foo"; имеет значение C (не С++) и не ставит конечный ноль в.
согласованный с точкой unix "все есть файл", в том числе "файлы", которые не имеют внутренней длины как stdin, stdout. Вы должны помнить, что открытые примитивы чтения и записи реализованы на очень низком уровне. Это не вызовы библиотеки, а системные вызовы. И используется тот же API для двоичных или текстовых файлов. Элементы чтения файлов получают адрес буфера и размер и возвращают новый размер. И вы можете использовать строки в качестве буфера для записи. Использование другого типа строки представление подразумевает, что вы не можете легко использовать литеральную строку в качестве буфера для вывода или вам придется сделать это очень странно, когда вы набрасываете его на char*. а именно не возвращать адрес строки, а вместо этого возвращать фактические данные.
очень легко манипулировать текстовыми данными, считываемыми из файла на месте, без бесполезной копии буфера, просто вставьте нули в нужные места (ну, на самом деле, с современными C, поскольку строки с двойными кавычками представляют собой const char массивы, которые в настоящее время обычно хранятся в не изменяемом сегменте данных).
Предполагая, что некоторые значения int любого размера будут подразумевать проблемы выравнивания. Начальный длина должна быть выровнена, но нет причин делать это для символов (и снова, заставляя выравнивание строк будет подразумевать проблемы, рассматривая их как кучу байт).
длина известна во время компиляции для постоянных строк литерала (sizeof). Так зачем кто-нибудь хочет сохранить его в памяти, добавляя его к фактическим данным?
таким образом, что C делает (почти) все остальные, строки рассматриваются как массивы char. Поскольку длина массива не управляется C, логическая длина не управляется ни для строк. Единственное, что удивительно, это то, что в конце добавлен 0 элемента, но только на уровне основного языка при вводе строки между двойными кавычками. Пользователи могут прекрасно вызывать функции манипуляции строкой, проходящие по длине, или даже использовать вместо них простое замещение. SZ - всего лишь объект. В большинстве других языков длина массива управляется, это логично, что для строк является одинаковым.
в наше время все равно 1 байтовый набор символов недостаточно, и вам часто приходится иметь дело с закодированными строками unicode, где количество символов сильно отличается от числа байтов. Это означает, что пользователи, вероятно, захотят больше, чем "просто размер", но также и другие сведения. Сохраняя длину, не используйте ничего (особенно естественное место для их хранения) в отношении этих других полезных фрагментов информации.

Тем не менее, нет необходимости жаловаться в редком случае, когда стандартные строки C действительно неэффективны. Доступны либы. Если бы я следил за этой тенденцией, я должен был бы пожаловаться, что стандарт C не включает никаких функций поддержки регулярных выражений... но на самом деле все знают, что это не настоящая проблема, поскольку для этой цели существуют библиотеки. Поэтому, когда требуется эффективная манипуляция строкой, почему бы не использовать библиотеку, например bstring? Или даже строки С++?

EDIT. Недавно я взглянул на строки D. Достаточно интересно видеть, что выбранное решение не является ни префиксом размера, ни нулевым завершением. Как и в C, литеральные строки, заключенные в двойные кавычки, являются короткой рукой для неизменяемых массивов char, а язык также имеет ключевое слово string, которое означает (неизменяемый массив char).

Но массивы D намного богаче C-массивов. В случае статических массивов длина известна во время выполнения, поэтому нет необходимости хранить длину. У компилятора есть его во время компиляции. В случае динамических массивов длина доступна, но в документации D не указано, где она хранится. Насколько нам известно, компилятор мог бы сохранить его в каком-либо регистре или в некоторой переменной, хранящейся далеко от данных символов.

В обычных char массивах или нелиберальных строках нет конечного нуля, поэтому программист должен сам поставить его, если он хочет вызвать некоторую функцию C из D. В частном случае литеральных строк, однако компилятор D все еще поместите нуль в конце каждой строки (чтобы упростить приведение к строкам C, чтобы упростить вызов функции C?), но этот ноль не является частью строки (D не учитывает ее в размере строки).

Единственное, что меня несколько разочаровывало в том, что строки должны быть utf-8, но длина, по-видимому, все еще возвращает количество байтов (по крайней мере, это правда в моем компиляторе gdc) даже при использовании многобайтовых символов. Мне непонятно, если это ошибка компилятора или по назначению. (ОК, я, наверное, выяснил, что произошло. Чтобы сказать компилятору D, что ваш источник использует utf-8, вы должны сначала поместить некоторый глупый порядок байтов. Я пишу глупо, потому что знаю, что не редактор делает это, особенно для UTF- 8, который должен быть совместим с ASCII).

kriss 12 дек. 2010, в 00:24

1

@kriss: очень хороший ответ. Я ценю, что кто-то еще признает, что исходный вопрос имеет некоторую редакционную актуальность и не совсем то, чем кажется.
Robert S Ciaccio 12 дек. 2010, в 01:14
1

@kriss: Мой вопрос: «почему были выбраны строки с нулевым символом в конце». Я знаю, что есть лучшие способы решения проблем с использованием библиотек. Но всякий раз, когда вы обращаетесь к решению библиотеки, как эта проблема, большая часть того, что вы получаете, теряется из-за необходимости склеивать вашу библиотеку, используя код к существующему коду. Учитывая, что стандарт использует строки с нулевым символом в конце, это то, что вы застряли. (И иногда мне все еще приходится писать этот вид клея, потому что существующий код не поддерживает i18n GRRR). Кроме того, я думаю, что некоторые из ваших пунктов в равной степени применимы к префиксу длины (то есть библиотечные функции).
Billy ONeal 12 дек. 2010, в 04:24
5

... продолжение ... Некоторые из ваших пунктов, я думаю, просто неверны, то есть аргумент "все - файл". Файлы имеют последовательный доступ, строки C - нет. Префикс длины также может быть сделан с минимальным синтаксическим сахаром. Единственным разумным аргументом здесь является попытка управлять 32-битными префиксами на небольшом (то есть 8-битном) оборудовании; Я думаю, что это может быть просто решено, сказав, что размер длины определяется реализацией. В конце концов, это то, что делает std::basic_string .
Billy ONeal 12 дек. 2010, в 04:26
2

@Billy ONeal: на самом деле в моем ответе есть две разные части. Один о том, что является частью «основного языка Си», другой - о том, что должны предоставлять стандартные библиотеки. Что касается поддержки строк, в базовом языке есть только один элемент: значение двойной кавычки заключено в байты. Я не очень счастлив, чем вы с поведением C. Я волшебным образом добавляю, что ноль в конце каждого двойного замыкания заключает в себе кучу байтов, что достаточно плохо. Я бы предпочел и явный \0 в конце, когда программисты хотят этого вместо неявного. Предварительная длина намного хуже.
kriss 12 дек. 2010, в 07:34
0

@kriss: пользователю языка не важно, что определяет основной язык, а не то, что определяет стандартная библиотека. (Вообще говоря) Все, что волнует программиста на языке C, это «У меня есть строка здесь, и я хочу ее на консоли» ... и функции, которые принимают строки с нулевым символом в конце Это мое утверждение, что строки с нулевым символом в конце были ошибкой проекта , Я подтверждаю это тем, что указываю на тот факт, что C (и C ++) - единственное (популярное) место, где они используются. Я не понимаю, почему привязка префикса длины к символьным данным внутри "" более инвазивна, чем нулевая.
Billy ONeal 12 дек. 2010, в 07:39
1

@Billy ONeal: это просто неправда, пользователи заботятся о том, что является ядром и что такое библиотеки. Самый большой момент - когда C используется для реализации ОС. На этом уровне нет доступных библиотек. C также часто используется во встроенных контекстах или для программирования устройств, где у вас часто бывают такие же ограничения. Во многих случаях Joes's, вероятно, вообще не следует использовать C в настоящее время: «Хорошо, вы хотите это на консоли? У вас есть консоль? Нет? Очень плохо ...»
kriss 12 дек. 2010, в 07:52
1

@kriss: Ну, для 0,01% программистов на C, использующих операционные системы, хорошо. Я буду придерживаться других 99,9%. А именно, потому что C без стандартной библиотеки - это не C. Когда я говорю о C, я говорю о стандартном C, а не о какой-то ограниченной версии, используемой для начальной загрузки ОС.
Billy ONeal 12 дек. 2010, в 07:57
0

@Billy ONeal: вы также должны учитывать, что C и C ++ являются единственными языками, используемыми для реализации ядер ОС. Вам просто нужно иметь средство для инициализации группы байтов. C строки легко. Если вы измените значение двойных кавычек на какой-то элемент с предварительно добавленной строкой (единственная часть, отсутствующая в библиотеках) ... Вы должны найти другое среднее значение, как простое и простое, для инициализации константных байтовых литералов. Кстати, вы можете использовать sizeof константных строковых литералов. Это известно во время компиляции, зачем вам это куда угодно?
kriss 12 дек. 2010, в 07:58
1

@kriss: я не предлагаю менять C. Я спросил, почему С принял решение, которое он изначально принял. Там есть разница Тот факт, что для реализации ОС используется ограниченная форма C, не означает, что это делают 99% пользователей языка. C - это язык программирования общего назначения, и, будучи универсальным языком, означает, что он не идет на компромиссы, чтобы облегчить выполнение конкретной задачи (то есть ОС).
Billy ONeal 12 дек. 2010, в 08:01
1

@Billy ONeal: выбор C позволяет легко реализовывать поведение с предваряющей длиной (эй, библиотеки других языков в основном написаны с использованием C). Обратный путь просто невозможен. Если язык не включает в себя какой - либо способ определить кучу байт вы просто обреченными, есть вещи , которые не могут быть сделаны.
kriss 12 дек. 2010, в 08:08
1

@kriss: это включает в себя, char myBunchOfBytes[] = {'a', 'b', 'c'};
Billy ONeal 12 дек. 2010, в 08:09
0

@Billy ONeal: еще один аспект C, который очень похож, это длина массивов. На самом деле я считаю, что выбор дизайна здесь тот же. Большинство lnaguage хранят длину массива где-нибудь. С сделал другой выбор. Это ошибка дизайна?
kriss 12 дек. 2010, в 08:11
1

@Billy ONeal: ты шутишь? Длина имеет значение!
kriss 12 дек. 2010, в 08:12
0

@kriss: Вы сказали «если язык не предоставляет никакой возможности» - я сказал, что есть способ. И есть. Синтаксис "" не был разработан и не предназначен для использования в качестве случайного способа вставки байтов в вашу программу. Он предназначен для использования в удобочитаемых для человека строках , которые вы можете легко увидеть, если вы возьмете себе копию оригинальной (или редакции ANSI) книги K & R C, где это единственное, для чего она когда-либо использовалась .
Billy ONeal 12 дек. 2010, в 08:14
0

@Billy ONeal: f = open({'m', 'y', ' ', 'p', 'a', 't', 'h'}, flags);
kriss 12 дек. 2010, в 08:15
0

@kriss: И нет никаких причин, по которым open не принимает строку с префиксом длины, и в этом случае вы просто используете простой "" синтаксис, который вы уже используете. Более того, open - это не функция C, это системный вызов POSIX.
Billy ONeal 12 дек. 2010, в 08:16
0

@Billy ONeal: и теперь мы должны навязать использование строки с добавлением размера на уровне ядра? Потому что это то, что открыто. И, насколько я знаю, ядра не вызывают большую часть библиотек C-манипуляции со строками ...
kriss 12 дек. 2010, в 08:17
1

@kriss: Точно так же, как вы применяете нулевое завершение сейчас. Вы не
Billy ONeal 12 дек. 2010, в 08:21
0

@Billy ONeal: есть системные вызовы, где используется размер, и выбранное соглашение (а в прошлом это соглашение C) состоит в том, чтобы передавать как строковые данные, так и длину как отдельные параметры, потому что это более сложный метод. Строки с заранее установленным размером просто склеивают эти две части информации, и в этом нет необходимости. Передайте длину, когда это необходимо, не передавайте ее, когда это не так.
kriss 12 дек. 2010, в 08:24
1

@kriss: я знаю, что есть история как Си-конвенция. Мой вопрос был: «Почему эта конвенция была там в первую очередь?». Потому что, если бы C был определен по-другому, то системные вызовы также были бы определены по-другому. Насколько "необходимо", вам нужен какой-то способ, чтобы функция могла определить, где находится конец строки. Есть несколько способов сделать это. Один из них - префикс длины, второй - нулевое завершение, один передает указатель на начало и конец диапазона. Вы действительно передали две части информации для open в приведенном выше коде - ноль указывает, где заканчивается строка.
Billy ONeal 12 дек. 2010, в 08:28
0

@Billy ONeal: я не понимаю ваш предыдущий комментарий. Может быть, это слово «принуждение», которое я использовал, неоднозначно. Я имею в виду, что вы должны изменить APIS ядра очень низкого уровня, даже API для таких функций, как open, где длина строки не является ненужной и не даст никакой производительности. И вместо этого выберите API, в котором вы предоставляете гетерогенные данные (int и массив char). Это не похоже на хороший выбор дизайна.
kriss 12 дек. 2010, в 08:28
0

@Billy ONeal: еще один простой выбор - передать в open() два параметра, скажем data и length. Теперь вам нужно использовать регистр для хранения длины, но вам все равно нужно прочитать символы, чтобы использовать их, возможно, сравнивая их с записями в файловой системе. Это менее эффективно, потому что вы используете два регистра вместо одного. В этом случае размещение терминатора внутри строки более экономично. Я совершенно уверен, что если вы внимательно изучите системные вызовы, то же самое будет справедливо для всех из них, включая входные строки с нулевым завершением.
kriss 12 дек. 2010, в 08:44
0

@kriss: Вы реализуете, каким должен быть API в терминах C. Если бы это была «стандартная вещь, которую все делают», чтобы использовать префикс длины, то это то, что вы использовали бы. Это не будет думать «я передаю два значения», это будет «я передаю строку». Не забывайте, что C предшествует POSIX, стандарту, который определяет большинство системных вызовов, о которых вы говорите. И вы не станете меня сильно убеждать в аргументе распределения скорости / регистра, потому что другие языки, несмотря на то, что в среднем они медленнее, чем C, намного быстрее, чем манипуляции со строками в C.
Billy ONeal 12 дек. 2010, в 09:11
0

@kriss: я закончил спорить об этом. Если бы это было хорошее дизайнерское решение, то были бы другие языки программирования, которые бы копировали поведение. (Они копировали почти все остальные действия из C - должна была быть чертовски веская причина, чтобы пропустить этот бит)
Billy ONeal 12 дек. 2010, в 09:12
5

@Billy "Ну, для 0,01% программистов на C, которые внедряют операционные системы, хорошо." Другие программисты могут пойти в поход. C был создан для написания операционной системы.
Daniel C. Sobral 13 дек. 2010, в 11:06
1

@ Даниель: Моя книга K & R C не согласна с вами.
Billy ONeal 13 дек. 2010, в 17:59
5

Зачем? Потому что он говорит, что это язык общего назначения? Говорит ли он, что люди, которые написали это, делали, когда это создавало? Для чего он использовался в течение первых нескольких лет своей жизни? Итак, что же это говорит о том, что не согласен со мной? Это язык общего назначения, созданный для написания операционной системы . Это отрицает это?
Daniel C. Sobral 13 дек. 2010, в 18:15
0

+1 от меня; Я не совсем согласен со всеми вашими пунктами, но я ценю, что вы действительно приложили усилия и перечислили несколько мнений в пользу строк с нулевым символом в конце.
Frerich Raabe 22 дек. 2010, в 09:06
0

strdup - это стандартизированная функция. Это не в спецификации C, но это в спецификации POSIX.
dreamlax 04 янв. 2011, в 10:14
0

@dreamlax: да. Правда, но POSIX - это не C, и к тому же это не главное. Я только что указал, что все функции, скрывающие malloc, кроме явных, могут привести к трудным для поиска ошибкам (и проблема обычно намного хуже при использовании библиотек C ++, чем библиотек C). Как личный опыт, я потерял несколько недель, указав на утечку памяти, возникающую из-за накопления ... и я, вероятно, стал слишком осторожен в таких вещах.
kriss 04 янв. 2011, в 13:19
1

@ Даниель: нет, это не отрицает. Однако он определяет стандартную библиотеку и предполагает, что пользователь этого языка будет иметь доступ к этой стандартной библиотеке. Это абсолютно ничего не говорит об операционных системах.
Billy ONeal 18 июль 2011, в 22:27
1

@Billy Я все еще жду, чтобы услышать, что K & R говорит, что противоречит тому, что C был создан для написания операционной системы. Которого, на самом деле, вы не найдете, потому что C был создан для написания операционной системы. Язык программирования C & R на языке C - это просто книга для обучения людей программированию на нем, написанная спустя годы после создания языка. Совершенно смешно, что вы даже пытаетесь спорить, был ли C создан для написания операционной системы - общеизвестный факт - и совершенно глупо пытаться игнорировать это как имеющее проектные последствия.
Daniel C. Sobral 21 июль 2011, в 20:08
2

@Daniel: Конечно, он не был создан для написания операционной системы за счет всех возможных вариантов использования языка. Он был создан, чтобы быть языком системного программирования, который можно использовать для написания операционной системы. Он не был создан с единственной целью написания операционной системы, потому что если бы это было правдой, это не был бы язык системного программирования.
Billy ONeal 21 июль 2011, в 20:12
0

@BillyONeal «Язык программирования C был разработан в начале 1970-х годов в качестве языка реализации системы для зарождающейся операционной системы Unix», - так говорит Деннис Ритчи на cm.bell-labs.com/who/dmr/chist.html. Первым утверждением Дэниела было то, что вы говорите, что K & R не согласен с: «C был создан для написания операционной системы». Дело в том, что Даниил прав, а ты неправ.
Jim Balter 08 июль 2013, в 05:22
0

@BillyONeal Что касается того, почему строки заканчиваются NUL: главным образом, а) так, чтобы первый символ строки был в str [0], а не в str [1] или str [2] или str [4], в зависимости от длины длина и б) так что строки могут быть пройдены указателями. Эти причины связаны с другими аспектами конструкции C.
Jim Balter 08 июль 2013, в 05:33
0

@Jim: я уже описал дизайн строк с префиксом длины, который позволял бы str[0] оставаться первым символом строки.
Billy ONeal 08 июль 2013, в 17:20
0

@BillyONeal Ваш «дизайн» эквивалентен добавлению строкового типа к языку ... строки не могут быть просто массивом символов с одним из символов, означающих «терминатор». Это сделало бы язык более сложным и, как было отмечено, потребовало бы больше места и регистров, что очень ценно для pdp-7 и pdp-11. Все это спорный вопрос, потому что дизайн был выбран давно и не может измениться. Если вам есть какая-то причина полагать, что они допустили ошибку, сделайте это, но на самом деле это неверный вопрос SO.
Jim Balter 08 июль 2013, в 18:46
0

@Jim: нет, я не предлагаю добавлять отдельный тип для этого. Это не будет использовать больше регистров, я уже прошел через это. Что касается обоснованности вопроса, по крайней мере 160 человек не согласны с вами.
Billy ONeal 08 июль 2013, в 20:25
0

Я думаю, что вы ошибаетесь во всех трех пунктах, и, к сожалению, так много людей потратили столько времени на то, что не может прийти ни к чему, включая меня самого. Конец связи.
Jim Balter 08 июль 2013, в 20:31
0

«Я не предлагаю добавлять отдельный тип для этого» - еще раз отмечу, что это невозможно; Префикс скрытой длины, такой как используемый CString MSFT, требует нового типа (перегрузка структуры и оператора), а два указателя, один на начало и один на конец, также требуют структуру ... и они должны быть примитивными на язык для обработки строковых литералов.
Jim Balter 05 март 2015, в 19:21
1

«Если бы это было хорошее дизайнерское решение, то были бы другие языки программирования, которые копировали бы поведение. (Они копировали большинство других действий из C - должна была быть чертовски веская причина, чтобы пропустить этот бит») - - это так глупо и интеллектуально нечестно. Все эти другие языки имеют строковый тип, который является примитивом в языке, и у них нет ограничений памяти PDP-7, на который изначально был нацелен C.
Jim Balter 05 март 2015, в 19:23
0

@JimBalter: если строковые литералы дают указатели на строки с префиксом, и многие методы ожидали получить указатели либо на строку с префиксом, либо на struct {char kind; char *data; int length; int avail;} (функция, получающая указатель, может посмотреть на первый байт, чтобы увидеть, была ли это строка с префиксом или структура string-info), а затем программисты могут отслеживать, какие указатели были подходящими для передачи таким методам, а какие указатели были «т. Правильные типы строк будут лучше, но не обязательно.
supercat 08 март 2015, в 15:41
0

@supercat Я уже объяснил, почему литералы C не могут быть представлены в виде строк с префиксом без перегрузки типа и оператора ... str [n] выдает неправильный символ. А компилятор выделяет место при отрицательных смещениях адресов для префикса - это кошмар. И только NUL-концевые строки обеспечивают, чтобы указатели на строки указывали на сами строки ... это существенная особенность ранней обработки C-строк. В любом случае NUL-концевые строки не были плохим дизайнерским решением для языка Си. И это последнее, что я скажу об этой глупости.
Jim Balter 08 март 2015, в 19:48
0

Хорошо, только еще одна вещь: указатели на начало и конец строки также обеспечат указатели на строки, указывающие на сами строки, но они означают еще 3 байта на строку, больше времени, проходящих вокруг двух указателей вместо одного, и встроенный в строковом типе, в раннем C даже не было структурного копирования, встроенного в язык.
Jim Balter 08 март 2015, в 20:03
0

@JimBalter: Мало кто жалуется, что почти во всех здравомыслящих реализациях malloc возвращает указатель на данные, в которых указан префикс выделенного размера (точный формат префикса блока памяти варьируется, но требование, чтобы можно было free освобождать блок памяти без когда говорят, что его размер означает, что размер должен быть найден из указателя на сам блок). Общий способ, которым C использует указатели, был разумным компромиссом между программистом и усилием памяти в 1970-х годах; это не означает, что это разумный компромисс для процессоров с режимами адресации base + index и передачей параметров на основе регистров.
supercat 08 март 2015, в 20:38
0

Маллок управляет кучей! Это не доступно программисту и не требует поддержки компилятора так, как если бы каждая строка имела байты перед своим адресом. Ваша ссылка на malloc является идиотской и интеллектуально нечестной. Дело не в том, на что «жалуются» люди, а в том, что для этого потребуется ... хранимая длина malloc (фактически, указатель на следующий блок) не требует ничего, кроме malloc. «был разумным компромиссом между программистом и усилием памяти в 1970-х», - вот тема здесь! Прощай.
Jim Balter 08 март 2015, в 20:41
0

@kriss: использование количества байтов для длин UTF-8 - единственное, что имеет смысл. По своей сути они являются uint8[] . Вы могли бы иметь длину в терминах кодовых точек, но это не поможет вам - в конце концов, несколько кодовых точек должны быть объединены в некоторых случаях в один глиф (алгоритм для этого может зависеть от таких вещей, как версия Unicode, так ...). В большинстве случаев (например, конкатенация, запись в консоль / поток / файл, ...) вам нужен размер в байтах, а не точка кода. Единственное место, где вам нужны кодовые точки, - это непосредственная работа с высокоуровневыми символами.
Tim Čas 02 март 2018, в 12:43
0

@kriss: (продолжение) ... и если вы имеете дело с высокоуровневыми персонажами, вам нужно начать рассматривать версию Unicode и культурные различия. Видите ли, нет ни одной спецификации, которая имеет дело с последним - она требует много знаний, специфичных для предметной области, и подвержена изменениям в случае изменения грамматики [да, это происходит даже искусственно; например, Германия, 1996], или если какая-то ошибка в обращении будет обнаружена. Вам нужна библиотека вроде HarfBuzz. (С другой стороны: действительно, это сводит на нет подавляющее большинство предполагаемых преимуществ UCS-4 / UTF-32)
Tim Čas 02 март 2018, в 12:46
0

@Tim Čas: ну, количество байтов часто имеет значение, но не единственное, что имеет смысл. В моем приложении я выполняю рендеринг глифов. В этом случае я должен найти определение глифа из моей строки, и я нахожу правильный глиф, используя кодовую точку (и, конечно, я должен знать текущую полицию). Для таких случаев использования длина символа имеет смысл. Объединение кодовых точек не станет одним глифом, я просто должен нарисовать оба.
kriss 02 март 2018, в 17:20
0

@Tim Čas: у меня тоже есть другой вариант использования. Я транскодирую данные из одной системы в другую, а иногда и Avec для преобразования UTF-8 в UTF-16. Знание длины символа помогает определить размер целевой буферной памяти (хорошо, если честно, в этом случае я не хочу длину символа, я просто хочу UTF-16 эквивалентную длину некоторой строки UTF-8. Как в этом случае я действительно работа с подмножеством UTF-16 без расширенной длины символов достаточно хороша для меня).
kriss 02 март 2018, в 17:32
0

@kriss: в первом случае кодовых точек по-прежнему недостаточно - вам нужно обрабатывать комбинированные символы. Где вы этого не делаете, вы все равно итерируете по нему (не делаете произвольный доступ), так почему это важно? Что касается транскодирования, конечно, но это очень специфический вариант использования, в то время как подавляющему большинству потребуется длина в байтах, а не кодовая точка.
Tim Čas 03 март 2018, в 00:19
0

@Tim Čas: комбинирование символов не является чем-то особенным, они учитываются метриками глифа, по крайней мере, так, как я это делаю. В других случаях использования (разговорный текст?) Все было бы иначе. Мне не нужно знать, будет ли читатель воспринимать результат как один или несколько символов. Я согласен, я не буду делать случайный доступ в этом случае. Длина символа сама по себе не очень полезна. Но легко перебирать по символу, а не по байту. Также на самом деле знание длины байта будет полезно только для копирования полной строки, поэтому я просто хочу получить все это. Меня не волнует длина.
kriss 03 март 2018, в 00:51
0

@kriss: Да, для очень и очень широкого определения «метрик глифа». Проверьте сочетание OpenType характера материал --- только базовые показатели не достаточно. И вы можете легко выполнять итерации по символам, не имея .lengthInCharacters . На самом деле языки высокого уровня уже выполняют итерацию таким образом. Что касается полезности длины байта по сравнению с символом, вы забываете тот факт, что смещения и такая работа отлично подходят для нарезки строк (те же проблемы, что и с кодами).
Tim Čas 03 март 2018, в 13:45
0

@kriss (продолжение) По сути, вы хотите, чтобы длина байта , а не символа, для (и список неполный): конкатенация строк (включая: печать в консоль, запись в файл, манипулирование строками), поиск строк (это быстрее, чем за -character [который в любом случае преобразуется вниз в байт] и с теми же ограничениями), копии строк (будь то срез или нет; опять же, быстрее, чем на символ), и так далее. Конечно, поиск можно сделать лучше, но для этого нужно выйти за пределы доступа к каждой точке кода и заняться комбинированием символов.
Tim Čas 03 март 2018, в 13:49

Показать ещё 52 комментария

60

Я думаю, он имеет исторические причины и нашел это в википедии:

В то время C (и языки, которые он был получен из) были разработаны, память была крайне ограничена, поэтому использование только один байт накладных расходов для хранения длина строки была привлекательной. только популярная альтернатива в то время, обычно называемый "строкой Паскаля", (хотя также используется ранними версиями BASIC), используется старший байт для хранения длина строки. Это позволяет строка, содержащая NUL и сделанная найти длину нужно только один доступ к памяти (время O (1) (постоянное)). Но один байт ограничивает длину до 255. Это ограничение длины было намного больше чем проблемы с C, так что строка C вообще выиграл.

khachik 11 дек. 2010, в 22:18

0

Но это было давно! Почему стандарт не меняется, так что строка имеет 4-байтовый «заголовок Паскаля»?
Mateen Ulhaq 11 дек. 2010, в 20:32
1

@muntoo Хм ... совместимость?
khachik 11 дек. 2010, в 20:34
18

@muntoo: потому что это сломало бы огромное количество существующего кода на C и C ++.
Billy ONeal 11 дек. 2010, в 20:34
0

BASIC имел 4-байтовый заголовок для своей строки; 2-байтовый тип данных и 2-байтовая (unsigned int) длина данных ... но мы не говорим ни о строках Pascal, ни BASIC, так что перестаньте пытаться изменить мир :)
Yanick Rochon 11 дек. 2010, в 20:38
9

@muntoo: парадигмы приходят и уходят, но устаревший код навсегда. Любая будущая версия C должна будет продолжать поддерживать строки с нулем в конце, в противном случае устаревший код на 30+ лет придется переписать (чего не произойдет). И пока старый способ доступен, это то, что люди будут продолжать использовать, так как это то, с чем они знакомы.
John Bode 11 дек. 2010, в 23:48
7

@ Джон Сожги весь старый код. (Распечатай, а потом сожги.);)
Mateen Ulhaq 11 дек. 2010, в 23:55
8

@muntoo: Поверь мне, иногда я хотел бы. Но я все же предпочел бы строки с концами 0 вместо строк Паскаля.
John Bode 12 дек. 2010, в 00:29
1

Поговорим о наследии ... Строки C ++ теперь должны иметь NUL-концевые символы.
Jim Balter 05 март 2015, в 19:25

Показать ещё 6 комментариев

28

Calavera , но поскольку люди, похоже, не понимают, Приведем примеры кода.

Сначала рассмотрим, что такое C: простой язык, где весь код имеет довольно прямой перевод на машинный язык. Все типы вписываются в регистры и в стек, и для этого не требуется операционная система или большая библиотека времени выполнения, поскольку она предназначена для написания этих вещей (задача, к которой прекрасно подходит, учитывая даже не является вероятным конкурентом по сей день).

Если C имел тип string, например int или char, это был бы тип, который не вписывался в регистр или в стек, и требовал бы выделения памяти (со всей своей поддерживающей инфраструктурой ) для обработки любым способом. Все это противоречит основным принципам C.

Итак, строка в C:

char s*;

Итак, допустим, что это было префиксом длины. Давайте напишем код, чтобы объединить две строки:

char* concat(char* s1, char* s2)
{
    /* What? What is the type of the length of the string? */
    int l1 = *(int*) s1;
    /* How much? How much must I skip? */
    char *s1s = s1 + sizeof(int);
    int l2 = *(int*) s2;
    char *s2s = s2 + sizeof(int);
    int l3 = l1 + l2;
    char *s3 = (char*) malloc(l3 + sizeof(int));
    char *s3s = s3 + sizeof(int);
    memcpy(s3s, s1s, l1);
    memcpy(s3s + l1, s2s, l2);
    *(int*) s3 = l3;
    return s3;
}

Другой альтернативой может быть использование структуры для определения строки:

struct {
  int len; /* cannot be left implementation-defined */
  char* buf;
}

В этот момент для всех манипуляций с строками потребуются два распределения, которые на практике означают, что вы проходите через библиотеку, чтобы справиться с ней.

Самое смешное, что такие структуры существуют в C! Они просто не используются для ежедневного отображения сообщений для обработки пользователей.

Итак, вот точка, которую Calavera делает: в C. нет строкового типа. Чтобы что-то сделать с ней, вам нужно будет взять указатель и декодировать его как указатель на два разных типа, а затем он станет очень важно, каков размер строки, и ее нельзя просто оставить как "реализованную реализацию".

Теперь C может обрабатывать память в любом случае, а функции mem в библиотеке (в <string.h>, даже!) предоставляют все инструменты, необходимые для обработки памяти как пары указателя и размера. Так называемые "строки" на C были созданы только для одной цели: показ сообщений в контексте написания операционной системы, предназначенной для текстовых терминалов. И для этого нулевого завершения достаточно.

Daniel C. Sobral 13 дек. 2010, в 12:48

2

1. +1. 2. Очевидно, что если бы поведение языка по умолчанию было выполнено с использованием префиксов длины, были бы другие способы сделать это проще. Например, все ваши приведения были бы скрыты при вызовах strlen и друзей. Что касается проблемы с «оставлением на усмотрение реализации», вы можете сказать, что префикс - это любой short в целевом блоке. Тогда все ваши кастинги все равно будут работать. 3. Я могу придумывать надуманные сценарии в течение всего дня, которые делают ту или иную систему плохой.
Billy ONeal 13 дек. 2010, в 17:56
5

@Billy Суть библиотеки достаточно верна, за исключением того факта, что C был разработан для минимального использования библиотеки или вообще без него. Например, использование прототипов не было обычным делом на ранних этапах. Сказать, что префикс short эффективно ограничивает размер строки, что, похоже, является одной из причин, которой они не увлекались. Я сам, работая с 8-битными строками BASIC и Pascal, строками COBOL фиксированного размера и подобными вещами, быстро стал большим поклонником C-строк неограниченного размера. В настоящее время 32-битный размер будет обрабатывать любую практическую строку, но добавление этих байтов на ранних этапах было проблематичным.
Daniel C. Sobral 13 дек. 2010, в 18:12
1

@ Билли: Во-первых, спасибо, Дэниел ... ты, кажется, понимаешь, к чему я клоню. Во-вторых, Билли, я думаю, ты все еще не понимаешь, что здесь делается. Я, например, не спорю о плюсах и минусах префиксов строковых типов данных с их длиной. То , что я говорю, и что Дэниел очень четко подчеркнул, что существует решение , принятое в ходе осуществления C , чтобы не обрабатывать этот аргумент вообще. Строки не существуют в том, что касается базового языка. Решение о том, как обрабатывать строки, оставлено на усмотрение программиста ... и нулевое завершение стало популярным.
Robert S Ciaccio 20 дек. 2010, в 22:40
1

+1 мной. Еще одну вещь, которую я хотел бы добавить; структура, как вы предлагаете, пропускает важный шаг к реальному типу string : она не знает символов. Это массив «char» («char» в машинном жаргоне - это такой же символ, как «слово» - это то, что люди называют словом в предложении). Строка символов - это концепция более высокого уровня, которая может быть реализована поверх массива char если вы введете понятие кодирования.
Frerich Raabe 22 дек. 2010, в 09:02
0

@Frerich Хотя это может быть правдой в наше время, char во время создания C был в значительной степени персонажем. Только недавно усилия изменились, что означает «характер».
Daniel C. Sobral 22 дек. 2010, в 13:53
2

@ DanielC.Sobral: Кроме того, структура, которую вы упоминаете, не требует двух выделений. Либо используйте его так, как он есть в стеке (поэтому только buf требует выделения), либо используйте struct string {int len; char buf[]}; и распределить все это одним распределением как элемент гибкого массива, и передать его как string* . (Или, возможно, struct string {int capacity; int len; char buf[]}; по очевидным причинам производительности)
Mooing Duck 18 июнь 2014, в 22:03

Показать ещё 4 комментария

17

Очевидно, что для повышения производительности и безопасности вы должны будете поддерживать длину строки во время работы с ней, а не многократно выполнять strlen или эквивалент на ней. Тем не менее, сохранение длины в фиксированном месте непосредственно перед содержимым строки является невероятно плохим дизайном. Как отметил Йорген в комментариях к ответе Санджита, это исключает обработку хвоста строки в виде строки, которая, например, делает невозможным множество обычных операций, таких как path_to_filename или filename_to_extension, без выделения новой памяти (и при этом возникает возможность ошибок и ошибок). И тогда, конечно, существует проблема, по которой никто не может согласиться с тем, сколько байтов должно занимать поле длины строки (много плохих "языковых строк Pascal" используют 16-битные поля или даже 24-битные поля, которые исключают обработку длинных строк).

C дизайн, позволяющий программисту выбрать, будет ли/где/как хранить длину, намного более гибким и мощным. Но, конечно, программист должен быть умным. C наказывает глупость программами, которые выходят из строя, останавливаются, или дают вашим врагам корень.

R.. 11 дек. 2010, в 23:50

1

да, наиболее важным моментом, вероятно, является распределение памяти.
kriss 12 дек. 2010, в 00:26
0

+1. Было бы неплохо иметь стандартное место для хранения длины, хотя бы тем из нас, кто хочет что-то вроде префикса длины, не приходилось везде писать тонны «клеевого кода».
Billy ONeal 12 дек. 2010, в 04:28
2

Нет никакого стандартного места относительно строковых данных, но вы, конечно, можете использовать отдельную локальную переменную (пересчитывать ее, а не передавать ее, когда последняя не удобна, а первая не слишком расточительна) или структуру с указателем к строке (а еще лучше - флаг, указывающий, «владеет» ли структура указателем для целей выделения или является ли это ссылкой на строку, принадлежащую в другом месте. И, конечно, вы можете включить в структуру гибкий элемент массива для гибкости выделения строка со структурой, когда она вам подходит.
R.. 12 дек. 2010, в 16:09

Показать ещё 1 комментарий

10

Lazyness, регистрируйте бережливость и переносимость, учитывая сборку кишки любого языка, особенно C, которая на один шаг выше сборки (таким образом, наследует много устаревшего кода сборки). Вы согласитесь, что null char был бы бесполезен в те ASCII-дни, он (и, вероятно, такой же хороший, как EOF-контроль char).

см. в псевдокоде

function readString(string) // 1 parameter: 1 register or 1 stact entries
    pointer=addressOf(string) 
    while(string[pointer]!=CONTROL_CHAR) do
        read(string[pointer])
        increment pointer

всего 1 использование регистра

случай 2

 function readString(length,string) // 2 parameters: 2 register used or 2 stack entries
     pointer=addressOf(string) 
     while(length>0) do 
         read(string[pointer])
         increment pointer
         decrement length

всего 2 используемых регистра

Это может показаться недальновидным в то время, но, учитывая бережливость кода и регистра (которые были в то время PREMIUM, время, когда вы знаете, они используют перфокарту). Таким образом, будучи быстрее (когда скорость процессора может быть подсчитана в кГц), этот "Hack" был довольно неплохим и портативным для безрезультатного процессора.

Для аргументации я реализую 2 операции с общей строкой

stringLength(string)
     pointer=addressOf(string)
     while(string[pointer]!=CONTROL_CHAR) do
         increment pointer
     return pointer-addressOf(string)

сложность O (n), где в большинстве случаев строка PASCAL является O (1), поскольку длина строки предварительно привязана к строковой структуре (что также означает, что эта операция должна быть перенесена на более раннюю стадию).

concatString(string1,string2)
     length1=stringLength(string1)
     length2=stringLength(string2)
     string3=allocate(string1+string2)
     pointer1=addressOf(string1)
     pointer3=addressOf(string3)
     while(string1[pointer1]!=CONTROL_CHAR) do
         string3[pointer3]=string1[pointer1]
         increment pointer3
         increment pointer1
     pointer2=addressOf(string2)
     while(string2[pointer2]!=CONTROL_CHAR) do
         string3[pointer3]=string2[pointer2]
         increment pointer3
         increment pointer1
     return string3

сложность O (n) и добавление длины строки не изменят сложность операции, хотя я допускаю, что это займет 3 раза меньше времени.

С другой стороны, если вы используете строку PASCAL, вам придется переконфигурировать ваш API для учета длины регистра и битовой сущности, строка PASCAL получила известное ограничение 255 char (0xFF), поскольку длина была сохранена в 1 байт (8 бит), и вам нужна более длинная строка (16 бит → что угодно), которую вам нужно будет учитывать архитектуру на одном уровне вашего кода, что в большинстве случаев будет несовместимым строковым API, если вы хотите более длинную строку,

Пример:

Один файл был написан с вашей добавленной строкой api на 8-битном компьютере, а затем должен быть прочитан на 32-битном компьютере, что бы ленивая программа считала, что ваши 4 байта - это длина строки, а затем выделяют много памяти затем попытаются прочитать это много байтов. Другим случаем будет чтение строки в байтах PPC 32 (little endian) на x86 (big endian), конечно, если вы не знаете, что один написан другим, это будет проблемой. 1 байтовая длина (0x00000001) станет 16777216 (0x0100000), что составляет 16 МБ для чтения 1 байтовой строки. Конечно, вы бы сказали, что люди должны согласиться на один стандарт, но даже 16-битный юникод получил малое и большое значение.

Конечно, C тоже будет иметь свои проблемы, но будет очень мало затронут затронутыми здесь проблемами.

dvhh 12 дек. 2010, в 05:17

0

Тогда почему манипулирование строками в C менее эффективно, чем где бы то ни было?
Billy ONeal 12 дек. 2010, в 05:19
0

@Billy ONeal: Можете ли вы определить, что вы подразумеваете под «эффективнее, чем где-либо еще»?
thing2k 12 дек. 2010, в 09:22
0

Эффективность очень субъективна
dvhh 12 дек. 2010, в 10:29
0

@ Билли ОНил, что тут за эффективность? Манипулирование строкой C является настолько эффективным (с точки зрения памяти, сложности скомпилированного кода), насколько это возможно. Что заставляет вас думать, что манипуляции со строками C менее эффективны?
Andrei Sosnin 12 дек. 2010, в 16:40
2

@deemoowoor: Concat: O(m+n) с нулевыми строками, O(n) типично везде. Длина O(n) с нулевыми строками, O(1) везде. Соединение: O(n^2) с нулевыми строками, O(n) везде. В некоторых случаях строки с нулевым символом в конце более эффективны (т. Е. Просто добавляют единицу в регистр указателя), но concat и length являются наиболее распространенными операциями (длина, по крайней мере, требуется для форматирования, вывода файла, отображения на консоли и т. Д.) , Если вы кэшируете длину, чтобы амортизировать O(n) вы просто отметили, что длина должна быть сохранена вместе со строкой.
Billy ONeal 12 дек. 2010, в 16:50
1

Я согласен с тем, что в сегодняшнем коде этот тип строки неэффективен и подвержен ошибкам, но, например, для отображения консоли не обязательно знать длину строки, чтобы отобразить ее эффективно, вывод файла не должен был знать о строке длина (только выделение кластера на ходу), и форматирование строки в это время выполнялось с фиксированной длиной строки в большинстве случаев. В любом случае, вы должны писать плохой код, если ваш concat в C имеет сложность O (n ^ 2), я почти уверен, что могу написать один в сложности O (n)
dvhh 13 дек. 2010, в 03:00
1

@dvhh: я не сказал n ^ 2 - я сказал m + n - он по-прежнему линейный, но вам нужно искать конец исходной строки, чтобы выполнить конкатенацию, тогда как с префиксом длины поиск не выполняется необходимо. (Это на самом деле просто еще одно следствие длины, требующей линейного времени)
Billy ONeal 13 дек. 2010, в 18:25
1

@Billy ONeal: из простого любопытства я сделал grep в моем текущем C-проекте (около 50000 строк кода) для вызовов функций манипуляции со строками. strlen 101, strcpy и варианты (strncpy, strlcpy): 85 (у меня также есть несколько сотен литеральных строк, используемых для сообщений, подразумеваемых копий), strcmp: 56, strcat: 13 (и 6 - это конкатенации строки нулевой длины для вызова strncat) , Я согласен, что префикс длины ускоряет вызовы к strlen, но не к strcpy или strcmp (возможно, если strcmp API не использует общий префикс). Самое интересное, что касается приведенных выше комментариев, это то, что strcat встречается очень редко.
kriss 13 дек. 2010, в 21:30
0

@Billy: Смысл этой публикации является скрытым постоянная в вашей O нотации. Итерирование по символам строки с префиксом длины требует дополнительного регистра, который не требуется при итерации по символам строки с нулевым символом в конце, что означает, что все, что вы пытаетесь сделать со строкой, должно быть реализовано с одним меньшим количеством регистров. , что может повлиять на производительность. Чтобы помочь вам понять, когда я впервые выучил язык ассемблера, он был для микропроцессора, где у вас было только три доступных регистра.
Hurkyl 06 март 2015, в 04:59
0

@Hurkyl: Это не правда. В случае нулевого завершения, на каждом шаге сравнения необходимо иметь указатель на строку (1 регистр), загружать символ, на который она указывает (2 регистра), и сравнивать с 0 (3 регистра). В случае с префиксом длины вам нужно сравнить указатель на строку (1 регистр) с указателем на конец строки (2 регистра) и загрузить символ, на который она указывает (снова 3 регистра).
Billy ONeal 06 март 2015, в 17:05
0

@Billy: Некоторые архитектуры имеют режим немедленной адресации, поэтому вам не нужно загружать 0 в регистр. Некоторые архитектуры имеют специальные регистры, которые всегда равны нулю. Некоторые архитектуры устанавливают нулевой флаг при загрузке символа, поэтому вам даже не нужно делать тест. Некоторые архитектуры имеют инструкции «ветвь, если ноль». И даже если вы не используете ни одну из этих архитектур, вы можете освободить регистр после теста, в отличие от версии с префиксом длины, которая требует от вас сохранить указатель конца строки в регистре (или перезагрузить из памяти, я полагаю, ).
Hurkyl 06 март 2015, в 19:34
0

@kriss: я думаю, что strcat встречается редко, потому что это плохо разработанный метод. Если он принимает указатели на начало каждой строки и конец выделенного пространства и возвращает указатель на записанный нулевой байт, он может использоваться безопасно и эффективно без необходимости заранее искать длины строк. Однако, strcat безопасное и эффективное использование strcat обычно требует, чтобы каждый знал длину как строк, так и буфера, а в тех случаях, когда он знает эти вещи, memcpy , как правило, будет более эффективным.
supercat 26 май 2015, в 21:26
0

@supercat: забавный факт о strcat (действительно плохо спроектированный) заключается в том, что некоторые современные компиляторы теперь могут правильно оптимизировать его и не будут снова и снова вычислять некоторые скрытые strlen.
kriss 27 май 2015, в 07:22
0

@kriss: Думая о строках, я обнаружил, что, зная, что C будет продолжать использоваться в качестве объема памяти, превышающего четыре гигабайта, я мог бы разработать строковый тип, который был бы очень практичным во времена K & R (возможно, даже более того) чем z-строки, так как z-строки часто требуют отдельного целого числа или двух для отслеживания длины строки и / или длины буфера), но остаются практичными сегодня. С другой стороны, нетрудно поверить, что кто-то, пытающийся проектировать строки с префиксом без такого предвидения, мог бы реализовать их ...
supercat 27 май 2015, в 14:46
0

... таким образом, что это затруднило бы написание переносимого кода или позволило бы вырастить строки за пределы 255 или 65535 байт. Я не уверен, какое сочетание стилей префикса было бы оптимальным тогда или сейчас, но допускает, например, строку фиксированного размера 0-127 байт с однобайтовым префиксом, буферы переменной длины до 4095 байт с двухбайтовым префиксом или больше с ((sizeof size_t) +1) -байтовым префиксом и т. д., а также с несколькими типами «косвенного указателя» казалось бы практичным сочетанием. Ключом к созданию компактного и переносимого кода будет использование ...
supercat 27 май 2015, в 14:53
0

... стандартные библиотечные методы для преобразования строковых указателей в структуры, определяющие местоположение буфера, длину буфера и длину строки, а также для обновления длин хранимых строк. Пользовательский код может затем в основном передавать строковые указатели и, таким образом, неявно передавать длину строки и буфера. Кроме того, если назначение для метода, такого как strcat или sprintf было строкой, выделенной в куче, метод мог бы автоматически корректировать распределение по мере необходимости, что сейчас невозможно.
supercat 27 май 2015, в 14:56
0

@supercat: то, что вы описываете, очень похоже на класс C ++ String. Я не вижу ничего, что запрещало бы кодировать некоторый эквивалент C через стандартные библиотечные вызовы (предпочтительно интрикс, потому что скорость часто является проблемой), включая, например, периметр printf и scanf. Конечно, это нечто совершенно отличное от представления C строк, таких как массивы байтов, где двойные кавычки являются просто синтаксическим сахаром и могут вызвать много проблем: такие строки нельзя использовать с нейтральными примитивами манипулирования памятью.
kriss 27 май 2015, в 15:36
0

@kriss: Поведение библиотечных методов строго определено в терминах нулевых последовательностей char , поэтому придется использовать методы с другими именами. Самые большие трудности при работе с альтернативными типами связаны со строковыми литералами и библиотечными методами, которые используют строки, но основное назначение которых находится в другом месте (например, fopen ). Можно написать макрос для разрешения, например, ShortString(fred, "My name is Fred"); вывести union { struct { char header; char dat[15];} STRINGREF stringref; } fred = {{30, "My name is Fred"}}; а также с MedString , LongString и т. д.
supercat 27 май 2015, в 16:09
0

... или написать метод, который может превратить строку с префиксом длины в char* если она оканчивается нулем (может иметь смысл, чтобы все, кроме самых коротких, по умолчанию заканчивались нулем или, возможно, имели все строки завершается нулем и мирится с потерянным пространством), но это далеко не так хорошо, как возможность использовать строковые литералы в строке.
supercat 27 май 2015, в 16:11
0

@kriss: Кроме того, я вижу, что мой подход немного отличается от класса C ++ String, поскольку большинство переменных строкового буфера будут объявлены с использованием MedString(george,255); в области объявления [объявить строковый буфер с двухбайтовым префиксом и местом для 255 символов]. Для действительно раннего C, отдельный InitMedString(george); шаг будет необходим в исполняемой области [существующие компиляторы C допускают char george[256]; strcpy(george,whatever); без предварительной инициализации Джорджа, но по моей схеме обычный метод копирования строк проверял бы длину назначения перед продолжением.
supercat 27 май 2015, в 16:29
0

@kriss: большинство реализаций класса C ++ String предназначены для использования в первую очередь хранимых в куче строк переменной длины, которые для большинства целей более дороги, чем предварительно выделенные строковые буферы фиксированной длины. Что отличает мой подход от C, так это то, что я бы включил текущую и максимальную длину в строковые данные таким способом, который эффективен для коротких, средних и длинных строк.
supercat 27 май 2015, в 16:31
1

@supercat: не совсем, посмотрите на некоторые реализации. Короткие строки используют буфер на основе короткого стека (без выделения кучи), куча используется только тогда, когда они становятся больше. Но не стесняйтесь представить реальную реализацию вашей идеи как библиотеки. Обычно проблемы проявляются только тогда, когда мы добрались до деталей, а не в общем дизайне.
kriss 28 май 2015, в 06:01
0

Я знаю об оптимизации коротких строк, но она требует, чтобы у всех экземпляров строки в глобальном масштабе было одинаковое количество «на месте» выделения; нет никакого способа объявить переменную как резервирующую 127 символов "на месте". Что касается публикации реализации, где мне лучше всего это сделать?
supercat 28 май 2015, в 15:12

Показать ещё 21 комментарий

6

Предполагая на мгновение, что C реализованные строки, путь Pascal, путем префикса их по длине: это длинная строка длиной 7 char того же ТИПА ДАННЫХ, как строка 3 char? Если да, то какой код должен генерировать компилятор, когда я назначаю первое последнему? Должна ли строка быть усечена или автоматически изменяться? Если изменить размер, следует ли защищать эту операцию блокировкой, чтобы сделать ее безопасной? Сторона подхода С сделала все эти проблемы, вроде этого или нет:)

Cristian 12 дек. 2010, в 05:10

2

Эээ .. нет, это не так. Подход C вообще не позволяет назначать строку длиной 7 символов для строки длиной 3 символа.
Billy ONeal 12 дек. 2010, в 04:41
0

@Billy ONeal: почему бы и нет? Насколько я понимаю, в этом случае все строки имеют одинаковый тип данных (char *), поэтому длина не имеет значения. В отличие от Паскаля. Но это было ограничением Паскаля, а не проблемой строк с префиксом длины.
Oliver Mason 12 дек. 2010, в 09:43
3

@ Билли: Я думаю, что вы только что изложили точку зрения Кристиана. С занимается этими вопросами, вообще не решая их. Вы все еще думаете на языке C, на самом деле содержащем понятие строки. Это просто указатель, так что вы можете назначить его как угодно.
Robert S Ciaccio 12 дек. 2010, в 12:48
2

Это как ** матрица: «нет строки».
Robert S Ciaccio 12 дек. 2010, в 12:50
1

@calavera: я не вижу, как это доказывает что-либо. Вы можете решить это таким же образом с префиксом длины ... т.е. вообще не разрешать назначение.
Billy ONeal 12 дек. 2010, в 16:41

Показать ещё 3 комментария

6

Во многих отношениях C был примитивным. И мне это понравилось.

Это был шаг выше языка ассемблера, давая вам почти такую же производительность с языком, который гораздо проще писать и поддерживать.

Нулевой терминатор прост и не требует специальной поддержки языка.

Оглядываясь назад, это не кажется удобным. Но я использовал ассемблерный язык еще в 80-х годах, и в то время он казался очень удобным. Я просто думаю, что программное обеспечение постоянно развивается, и платформы и инструменты постоянно становятся все более сложными.

Jonathan Wood 11 дек. 2010, в 23:58

0

Я не вижу ничего более примитивного в строках с нулевым символом в конце, чем все остальное. Паскаль предшествует C и использует префикс длины. Конечно, он был ограничен 256 символами на строку, но простое использование 16-битного поля решило бы проблему в подавляющем большинстве случаев.
Billy ONeal 12 дек. 2010, в 04:29
0

Тот факт, что количество символов ограничено, является именно тем типом проблем, о которых вам нужно подумать, когда вы делаете что-то подобное. Да, вы можете сделать это длиннее, но тогда байты имели значение. И будет ли 16-битное поле достаточно длинным для всех случаев? Да ладно, вы должны признать, что нулевой термин является концептуально примитивным.
Jonathan Wood 12 дек. 2010, в 04:47
10

Либо вы ограничиваете длину строки, либо ограничиваете содержимое (без нулевых символов), либо вы соглашаетесь с дополнительными издержками в количестве от 4 до 8 байтов. Там нет бесплатного обеда. На момент начала нулевая завершенная строка имела смысл. В сборке я иногда использовал верхний бит символа, чтобы отметить конец строки, сохранив еще один байт!
Mark Ransom 12 дек. 2010, в 05:14
0

Точно, Марк: Там нет бесплатного обеда. Это всегда компромисс. В наши дни нам не нужно идти на подобные компромиссы. Но тогда этот подход казался таким же хорошим, как и любой другой.
Jonathan Wood 12 дек. 2010, в 05:34

Показать ещё 2 комментария

5

Как-то я понял, что вопрос подразумевает отсутствие поддержки компилятора строк с префиксом длины в C. В следующем примере показано, по крайней мере, вы можете запустить свою собственную библиотеку строк C, где длины строк подсчитываются во время компиляции, с конструкцией например:

#define PREFIX_STR(s) ((prefix_str_t){ sizeof(s)-1, (s) })

typedef struct { int n; char * p; } prefix_str_t;

int main() {
    prefix_str_t string1, string2;

    string1 = PREFIX_STR("Hello!");
    string2 = PREFIX_STR("Allows \0 chars (even if printf directly doesn't)");

    printf("%d %s\n", string1.n, string1.p); /* prints: "6 Hello!" */
    printf("%d %s\n", string2.n, string2.p); /* prints: "48 Allows " */

    return 0;
}

Это, однако, не будет иметь проблем, так как вам нужно быть осторожным, когда специально освобождать этот указатель на строку и когда он статически назначен (литерал char array).

Изменить:. Как более прямой ответ на вопрос, я считаю, что это способ, которым C мог поддерживать как имеющую длину строки (как постоянную времени компиляции), если она вам нужна, но все еще без накладных расходов памяти, если вы хотите использовать только указатели и нулевое завершение.

Конечно, кажется, что работа с нулевыми строками была рекомендуемой практикой, поскольку стандартная библиотека вообще не принимает длину строки в качестве аргументов, а так как извлечение длины не является таким простым кодом, как char * s = "abc", как показывает мой пример.

Pyry Jahkola 12 дек. 2010, в 09:10

0

Проблема в том, что библиотеки не знают о существовании вашей структуры и по-прежнему неправильно обрабатывают такие вещи, как встроенные нули. Кроме того, это на самом деле не отвечает на вопрос, который я задал.
Billy ONeal 12 дек. 2010, в 07:31
1

Это правда. Таким образом, большая проблема заключается в том, что нет лучшего стандартного способа предоставления интерфейсов со строковыми параметрами, чем простые старые строки с нулевым окончанием. Я бы по-прежнему утверждал, что есть библиотеки, которые поддерживают подачу пар длины указателя (ну, по крайней мере, вы можете создать из них строку std :: string C ++).
Pyry Jahkola 12 дек. 2010, в 08:08
2

Даже если вы храните длину, вы никогда не должны разрешать строки со встроенными нулями. Это основной здравый смысл. Если ваши данные могут содержать нули, вы никогда не должны использовать их с функциями, которые ожидают строки.
R.. 12 дек. 2010, в 16:36
0

@R ..: многим приложениям необходимо передавать байтовые последовательности произвольной длины. Типы строк, не зависящие от данных, часто хорошо работают для этой цели. В то время как некоторые могут назвать это «злоупотреблением», разработчики языка считают избыточным тип строки двоичных данных, не зависящих от данных, и тип двоичных данных переменного размера.
supercat 05 март 2015, в 14:43
0

@supercat: С точки зрения безопасности, я бы приветствовал эту избыточность. В противном случае неосведомленные (или лишенные сна) программисты заканчивают тем, что объединяют двоичные данные и строки и передают их в вещи, которые ожидают [завершенные нулем] строки ...
R.. 05 март 2015, в 18:21
0

@R ..: Хотя методы, которые ожидают строки с нулевым символом в конце, обычно ожидают char* , многие методы, которые не ожидают нулевого завершения, также ожидают char* . Более существенное преимущество разделения типов будет связано с поведением Unicode. Может быть целесообразно, чтобы реализация строки поддерживала флаги того, известно ли, что строки содержат определенные виды символов, или известно, что они не содержат их [например, обнаружение 999 990-й кодовой точки в строке из миллиона символов, которая, как известно, не содержит любые символы за пределами основной многоязычной плоскости будут на порядки быстрее ...
supercat 05 март 2015, в 18:54
0

... чем найти 999 990-ую кодовую точку строки, которая может содержать такие символы]. Однако такие флаги были бы бесполезны для строк, которые использовались для хранения упакованных двоичных данных. Кроме того, часто необходимо сериализовать строки, используя кодировку, отличную от их внутреннего хранилища, но двоичные данные, как правило, должны сериализоваться независимо от содержимого. Жаль, что ни в Java, ни в .NET нет типа «blob».
supercat 05 март 2015, в 18:58

Показать ещё 5 комментариев

4

Нулевое завершение позволяет выполнять операции с быстрым указателем.

Sanjit Saluja 11 дек. 2010, в 21:12

5

А? Какие «быстрые операции с указателями» не работают с префиксом длины? Что еще более важно, другие языки, которые используют префикс длины, работают быстрее, чем манипуляции со строками.
Billy ONeal 11 дек. 2010, в 20:23
12

@billy: Со строками с префиксом длины вы не можете просто взять указатель на строку и добавить 4 к нему, и ожидать, что он все еще будет действительной строкой, потому что у нее нет префикса длины (в любом случае, не является действительным).
Jörgen Sigvardsson 11 дек. 2010, в 20:30
1

@Jorgen: Ладно, ты не можешь быстро отключить начало. Но вы можете делать все остальное (то есть, подкачку, сдвиг, memcpy, memmove и т. Д.) Без затруднений.
Billy ONeal 11 дек. 2010, в 20:32
1

@Billy ONeal: все эти операции (swapping, memcpy, memmove) имеют одинаковую сложность времени для строк ASCIIZ. Не уверен, что вы подразумеваете под «сдвигом». Единственная модификация строки с худшей временной сложностью для строк ASCIIZ - это удаление суффикса, который равен O (1) для строк с префиксом длины.
j_random_hacker 11 дек. 2010, в 20:57
3

@j_random_hacker: конкатенация намного хуже для строк asciiz (O (m + n) вместо потенциально O (n)), и concat встречается гораздо чаще, чем любые другие операции, перечисленные здесь.
Billy ONeal 11 дек. 2010, в 21:00
1

@Billy: чтобы сделать возможным использование concat за O (n), вам также необходимо сохранить размер зарезервированной памяти. Также это не асимптотическая сложность, так как для больших n вы должны перераспределить всю строку.
ybungalobill 11 дек. 2010, в 21:10
3

есть одна маленькая операция, которая становится более дорогой для строк с нулевым символом в конце: strlen . Я бы сказал, что это небольшой недостаток.
jalf 11 дек. 2010, в 21:10
0

@ybungalobill: Моя точка зрения заключается в том, что все остальные используют префикс длины, и все остальные работают быстрее, чем C, в строковых операциях, несмотря на то, что они работают медленнее всего. Меня не волнует теоретическая сложность, меня больше волнует типичное использование программы.
Billy ONeal 11 дек. 2010, в 21:15
10

@Billy ONeal: все остальные также поддерживают регулярные выражения. И что ? Используйте библиотеки, для которых они созданы. С о максимальной эффективности и минимализме, не включая батареи. Инструменты C также позволяют очень легко реализовать длину строки с префиксом, используя структуры. И ничто не запрещает вам реализовывать программы для работы со строками, управляя собственной длиной и буферами символов. Это обычно то, что я делаю, когда я хочу повысить эффективность и использовать C, не вызывая горстку функций, которые ожидают ноль в конце буфера символов, не проблема.
kriss 12 дек. 2010, в 00:24
2

@kriss: есть много что сказать о том, что стандартное поведение, хотя. Библиотеки будут нуждаться в «стандартных» интерфейсах для строк, поэтому, если вы пишете свои собственные структуры / библиотеки, вы в конечном итоге пишете тонны клея.
Billy ONeal 12 дек. 2010, в 04:39
0

@Jorgen: В C, если вы возьмете строковый указатель и добавите к нему 4, вы получите недопустимую строку, если длина исходной строки меньше 4. Итак, нет, математика указателя не гарантированная правильная операция.
Mike DeSimone 13 дек. 2010, в 03:47
0

Кого волнует стандартное поведение? Если вы боитесь, что вы все испортите, просто напишите поверх него структуру оболочки (mystring).
Thomas Eding 13 дек. 2010, в 04:30
0

@Mike: конечно, цифра 4 была произвольной. Предположим, вы нашли последний \ в позиции 4 внутри строки, и вам просто нужно имя файла, а не весь путь. В этом случае filename = path + 4 . Вам не нужно создавать новую строку перед передачей ее другой функции, которая ожидает строку. Это была моя точка зрения. :)
Jörgen Sigvardsson 17 дек. 2010, в 19:33
0

Пока ваш алгоритм не предполагает, что он всегда находит \. Тем не менее, некоторые другие операции пути (извлечение пути к файлу, извлечение имени файла без суффикса типа) по-прежнему требуют копий. Я не думаю, что этого достаточно, чтобы противодействовать тому, что вы можете протолкнуть всю программу размером 4 МБ через имя файла с помощью эксплойта с переполнением буфера, тогда как в однобайтовой системе независимо от того, что будет 255-байтным предел.
Mike DeSimone 18 дек. 2010, в 00:25

Показать ещё 12 комментариев

3

"Даже на 32-битной машине, если вы разрешаете строке быть размером доступной памяти, длина префиксной строки всего на три байта шире, чем строка с нулевым завершением".

Во-первых, дополнительные 3 байта могут быть значительными накладными расходами для коротких строк. В частности, строка с нулевой длиной теперь занимает в 4 раза больше памяти. Некоторые из нас используют 64-битные машины, поэтому нам нужно 8 байтов для хранения строки нулевой длины, или формат строки не может справиться с самыми длинными строками, поддерживаемыми платформой.

Также могут возникать проблемы с выравниванием. Предположим, у меня есть блок памяти, содержащий 7 строк, например "solo\0second\0\0four\0five\0\0seventh". Вторая строка начинается со смещения 5. Аппаратное обеспечение может требовать, чтобы 32-разрядные целые числа были выровнены по адресу, кратное 4, поэтому вам нужно добавить отступы, увеличив накладные расходы еще больше. Представление C очень экономично для сравнения. (Эффективность работы с памятью хороша, например, она позволяет работать с кешем.)

Brangdon 23 июль 2012, в 13:22

0

Я полагаю, что обратился ко всему этому в вопросе. Да, на платформах x64 32-битный префикс не может вместить все возможные строки. С другой стороны, вам никогда не нужно, чтобы строка была такой же большой, как строка с нулевым символом в конце, потому что для того, чтобы что-то сделать, вам нужно изучить все 4 миллиарда байтов, чтобы найти конец почти для каждой операции, которую вы можете захотеть сделать с ней. Кроме того, я не говорю, что строки с нулевым символом в конце всегда являются злом - если вы строите одну из этих блочных структур, и ваше конкретное приложение ускоряется подобной конструкцией, продолжайте. Я просто хотел бы, чтобы поведение языка по умолчанию не делало этого.
Billy ONeal 23 июль 2012, в 16:52
2

Я процитировал эту часть вашего вопроса, потому что, на мой взгляд, он недооценил проблему эффективности. Удвоение или увеличение требований к памяти (на 16-битной и 32-битной памяти соответственно) может привести к значительным потерям производительности. Длинные строки могут быть медленными, но, по крайней мере, они поддерживаются и продолжают работать. Мой другой вопрос, о выравнивании, вы вообще не упоминаете.
Brangdon 12 авг. 2012, в 15:13
0

С выравниванием можно справиться, указав, что значения за пределами UCHAR_MAX должны вести себя так, как если бы они были упакованы и распакованы с использованием доступа к байтам и сдвига битов. Соответствующим образом разработанный тип строки может предложить эффективность хранения, по существу сопоставимую с строками с нулевым символом в конце, и в то же время разрешить проверку границ для буферов без дополнительных затрат памяти (используйте один бит в префиксе, чтобы сказать, заполнен ли буфер); это не так, и последний байт ненулевой, этот байт будет представлять оставшееся пространство. Если буфер не заполнен, а последний байт равен нулю, то последние 256 байт будут неиспользованными, так что ...
supercat 06 март 2015, в 04:47
0

... в этом пространстве можно хранить точное количество неиспользуемых байтов с нулевой стоимостью дополнительной памяти). Стоимость работы с префиксами будет компенсирована возможностью использовать такие методы, как fgets () без необходимости передавать длину строки (поскольку буферы будут знать, насколько они велики).
supercat 06 март 2015, в 04:50

Показать ещё 2 комментария

1

Одна точка, о которой еще не упоминалось: когда C был спроектирован, было много машин, где "char" не было восьми бит (даже сегодня есть платформы DSP, где это не так). Если вы решите, что строки должны быть префиксом длины, то сколько префиксов длины char стоит использовать один? Используя два, накладывается искусственный предел длины строки для машин с 8-разрядным char и 32-разрядным адресным пространством, в то же время теряя пространство на машинах с 16-разрядным char и 16-разрядным адресным пространством.

Если бы хотелось, чтобы строки произвольной длины были эффективно сохранены, а если "char" всегда были 8 бит, можно было бы - за некоторые расходы по скорости и размеру кода - определить схему - это строка с префиксом четного числа N будет длиной в N/2 байта, строка с префиксом нечетного значения N и четное значение M (чтение назад) может быть ((N-1) + M * char_max)/2 и т.д. и т.д. требуют, чтобы любой буфер, который, как утверждается, предлагал определенное количество места для хранения строки, должен позволять достаточным байтам, предшествующим этому пространству, обрабатывать максимальную длину. Однако тот факт, что "char" не всегда является 8 битами, может усложнить такую схему, поскольку число "char", необходимое для хранения длины строки, будет зависеть от архитектуры ЦП.

supercat 25 янв. 2012, в 17:38

0

Префикс может легко иметь размер, определенный реализацией, так же как и sizeof(char) .
Billy ONeal 25 янв. 2012, в 17:31
0

@BillyONeal: sizeof(char) один. Всегда. Можно иметь префикс, определяемый размером реализации, но это будет неудобно. Кроме того, нет никакого реального способа узнать, каким должен быть «правильный» размер. Если один содержит много 4-символьных строк, заполнение нулями будет накладывать 25% накладных расходов, в то время как префикс длины в четыре байта будет накладывать 100% накладных расходов. Кроме того, время, потраченное на упаковку и распаковку четырехбайтовых префиксов длины, может превысить стоимость сканирования 4-байтовых строк на нулевой байт.
supercat 25 янв. 2012, в 17:42
0

О да. Ты прав. Префикс может легко быть чем-то иным, чем char, хотя. Все, что могло бы привести в соответствие требования выравнивания на целевой платформе, было бы хорошо. Я не пойду туда, хотя - я уже доказывал это до смерти.
Billy ONeal 25 янв. 2012, в 17:57
0

Если предположить, что строки имеют префикс длины, то, вероятно, самым разумным будет префикс size_t (чертовски бесполезная трата памяти, это был бы самый разумный - разрешающий строки любой возможной длины, которые могли бы поместиться в памяти). На самом деле, это то, что делает D; массивами являются struct { size_t length; T* ptr; } , а строки - это просто массивы immutable(char) .
Tim Čas 10 фев. 2015, в 22:44
0

@ TimČas: Если строки не должны быть выровнены по словам, стоимость работы с короткими строками на многих платформах будет зависеть от необходимости упаковки и распаковки длины; Я действительно не считаю это практичным. Если кто-то хочет, чтобы строки были независимыми от содержимого байтовыми массивами произвольного размера, я думаю, что было бы лучше хранить длину отдельно от указателя на символьные данные и иметь язык, позволяющий получать обе части информации для буквенных строк. ,
supercat 10 фев. 2015, в 22:53
0

@supercat: я смущен тем, что вы имеете в виду; Реализация D выше имеет отдельный указатель, и вы можете получить к нему доступ через str.ptr . Сама структура передается по значению (в терминах C: это ARRAY(char) foo; а не ARRAY(char)* foo; ).
Tim Čas 10 фев. 2015, в 22:58
0

@ TimČas: Извините - я прочитал, что вы используете «префикс» как ссылку на длину, сохраненную в памяти, непосредственно предшествующую самим символам , поскольку вы сказали «что-то вроде» того, что делает D, я думал, что вы ожидаете, что строки будут чем-то вроде struct {size_t length; char text[]; }
supercat 10 фев. 2015, в 23:03
0

@supercat: Ах нет; это символ * по разным причинам, включая нарезку. Например, вы можете сделать это: str[5..10] , который вычисляет новый массив { .length = 10 - 5; .ptr = old_ptr + 5; } Это также работает с «простыми» указателями T* и используется для преобразования обратно из указателей в массивы: ptr[0..len]
Tim Čas 10 фев. 2015, в 23:14
0

@ TimČas: Это хороший формат, но я бы не назвал его префиксом длины. Системы, которые я бы описал как использующие «префикс длины» (например, классическая ОС Macintosh или Turbo Pascal на ПК), сохраняют длину, непосредственно предшествующую тексту строки.
supercat 10 фев. 2015, в 23:18
0

@supercat: Действительно. Следовательно, «вид» - не совсем то же самое, но достижение (в основном; на самом деле немного больше) того же эффекта.
Tim Čas 10 фев. 2015, в 23:20

Показать ещё 8 комментариев

0

По словам Джоэла Спольского в этом сообщении в блоге,

Это потому, что микропроцессор PDP-7, на котором был изобретен язык программирования UNIX и C, имел тип строки ASCIZ. ASCIZ означало "ASCII с Z (ноль) в конце".

После просмотра всех других ответов здесь я убежден, что даже если это так, это лишь часть причины, когда C имеет "строки" с нулевым символом. Этот пост достаточно освещает, как простые вещи, такие как строки, могут быть довольно сложными.

BenK 24 июнь 2016, в 07:16

2

Смотри, я уважаю Джоэла за многие вещи; но это то, что он спекулирует. Ответ Ханса Пассанта исходит непосредственно от изобретателей Си.
Billy ONeal 24 июнь 2016, в 06:12
1

Да, но если то, что говорит Спольский, вообще верно, то это было бы частью «удобства», о котором они говорили. Отчасти поэтому я включил этот ответ.
BenK 24 июнь 2016, в 06:30
0

.ASCIZ был просто оператором ассемблера для построения последовательности байтов, за которой следовал 0 . Это просто означает, что строка с нулем в конце была хорошо известной концепцией в то время. Это не означает, что строки с нулевым символом в конце были чем-то связанным с архитектурой PDP- *, за исключением того, что вы могли писать плотные циклы, состоящие из MOVB (копировать байт) и BNE (ветвь, если последний скопированный байт не был нулевым).
Adrian W 04 июль 2018, в 22:22
0

Предполагается показать, что C старый, дряблый, дряхлый язык.
purec 30 сен. 2018, в 08:43

Показать ещё 2 комментария

0

Многие проектные решения, связанные с C, связаны с тем, что, когда он был первоначально реализован, передача параметров была несколько дорогой. Учитывая выбор между, например,

void add_element_to_next(arr, offset)
  char[] arr;
  int offset;
{
  arr[offset] += arr[offset+1];
}

char array[40];

void test()
{
  for (i=0; i<39; i++)
    add_element_to_next(array, i);
}

против

void add_element_to_next(ptr)
  char *p;
{
  p[0]+=p[1];
}

char array[40];

void test()
{
  int i;
  for (i=0; i<39; i++)
    add_element_to_next(arr+i);
}

последний был бы немного дешевле (и, следовательно, предпочтителен), поскольку требовалось пройти только один параметр, а не два. Если вызываемый метод не должен знать базовый адрес массива или индекс внутри него, то передача одного указателя, объединяющего два, будет дешевле, чем передача значений отдельно.

Хотя существует множество разумных способов, в которых C может иметь кодированные длины строк, подходы, которые были изобретены до того времени, будут иметь все необходимые функции, которые должны иметь возможность работать с частью строки, чтобы принять базовый адрес строка и желаемый индекс как два отдельных параметра. Использование обхода нулевого байта позволило избежать этого требования. Хотя другие подходы были бы лучше с сегодняшними машинами (современные компиляторы часто передают параметры в регистрах, а memcpy можно оптимизировать способами, которые не могут быть реализованы с помощью strcpy() - эквивалентов). В достаточном производственном коде используются строки с нулевым байтом, которые трудно изменить ни на что другое.

PS. В обмен на небольшое ограничение скорости на некоторые операции и крошечный бит дополнительных накладных расходов на более длинных строках, было бы возможно иметь методы, которые работают со строками, принимают указатели непосредственно на строки, bounds-checked string буферов или структур данных, идентифицирующих подстроки другой строки. Функция типа "strcat" выглядела бы как [современный синтаксис]

void strcat(unsigned char *dest, unsigned char *src)
{
  struct STRING_INFO d,s;
  str_size_t copy_length;

  get_string_info(&d, dest);
  get_string_info(&s, src);
  if (d.si_buff_size > d.si_length) // Destination is resizable buffer
  {
    copy_length = d.si_buff_size - d.si_length;
    if (s.src_length < copy_length)
      copy_length = s.src_length;
    memcpy(d.buff + d.si_length, s.buff, copy_length);
    d.si_length += copy_length;
    update_string_length(&d);
  }
}

Немного больше, чем метод K & R strcat, но он будет поддерживать проверку границ, которую не использует метод K & R. Кроме того, в отличие от текущего способа, можно было бы легко конкатенировать произвольную подстроку, например.

/* Concatenate 10th through 24th characters from src to dest */

void catpart(unsigned char *dest, unsigned char *src)
{
  struct SUBSTRING_INFO *inf;
  src = temp_substring(&inf, src, 10, 24);
  strcat(dest, src);
}

Обратите внимание, что время жизни строки, возвращаемой temp_substring, будет ограничено значениями s и src, которые когда-либо были короче (поэтому метод требует, чтобы inf был передан - если он был local, он умрет, когда метод вернется).

С точки зрения стоимости памяти, строки и буферы до 64 байтов имеют один байт служебных данных (так же, как строки с нулевым завершением); более длинные строки будут иметь немного больше (независимо от того, разрешено ли количество накладных расходов между двумя байтами и максимально необходимым, это компромисс между временем/пространством). Специальное значение байта длины/режима будет использоваться, чтобы указать, что строковой функции была предоставлена структура, содержащая байт-указатель, указатель и длину буфера (которые затем могут произвольно индексироваться в любую другую строку).

Конечно, K & R не реализовал такую вещь, но это, скорее всего, потому, что они не хотели тратить много усилий на обработку строк - область, где даже сегодня многие языки кажутся довольно анемичными.

supercat 05 март 2015, в 22:13

0

Нет ничего, что могло бы помешать char* arr указывать на структуру вида struct { int length; char characters[ANYSIZE_ARRAY] }; или подобный, который все еще мог бы быть проходимым как единственный параметр.
Billy ONeal 05 март 2015, в 21:30
0

@BillyONeal: две проблемы с этим подходом: (1) Это позволило бы только передать строку целиком, тогда как настоящий подход также позволяет передавать хвост строки; (2) он будет тратить значительное пространство при использовании с небольшими струнами. Если бы K & R захотели потратить некоторое время на струны, они могли бы сделать вещи намного более надежными, но я не думаю, что они предполагали, что их новый язык будет использоваться через десять лет, а тем более - сорок.
supercat 06 март 2015, в 03:50
0

@BillyONeal: я набросал то, что, по-моему, могло бы быть лучшим дизайном для строк в C (и, вероятно, все равно было бы хорошим дизайном для встроенных систем, если не возражать запускать код через препроцессор для преобразования строковых литералов в подходящие префиксные массивы символов.
supercat 06 март 2015, в 04:26
0

Структура информации о строке выглядит несколько волшебно в примере. Будет ли он полагаться на некоторый глобальный скрытый массив или будет иметь полное изменение значения символа char * (то есть: только указатель на массив, который больше не имеет значения в качестве указателя на отдельный символ?). До сих пор неясно, что предлагается для новой реализации catr. Не могли бы вы уточнить немного больше.
kriss 06 март 2015, в 08:23
0

@kriss: не требуется никакой магии, поведения, зависящего от реализации, глобальных переменных и т. д. Первый байт каждого заголовка строки будет идентифицировать цель как строку нулевой длины, строку длиной 1-63 байта, буфер байтов размером 1-63, по крайней мере, с одним пустым байтом, более длинную строку или буфер, который будет использовать больше байтов. хранить его длину или struct SUBSTRING_INFO { unsigned char mflag; struct SUBSTRING_INFO inf; } [если последнее, mflag установит значение байта, которое идентифицирует SUBSTRING_INFO ].
supercat 06 март 2015, в 14:07
0

@kriss: последний байт, используемый для хранения размера, будет использовать один бит, чтобы указать, была ли цель строкой или не полным буфером. Для незаполненного буфера последний байт будет указывать, было ли свободно 1-255 байт или что непосредственно предшествующие байты будут указывать, сколько свободного места было свободно. Структура STRING_INFO будет иметь вид char *dat; stringsize_t length,buffsize; , Функция get_string_info будет смотреть на цель и загружать значения STRING_INFO соответствующим образом (если целью является SUBSTRING_INFO она будет копировать значения из нее).
supercat 06 март 2015, в 14:10
0

@kriss: были бы некоторые компромиссы между переносимостью и скоростью, но даже полностью переносимая версия, вероятно, превзошла бы строки с нулевым символом в большинстве сценариев использования; в то время как тот факт, что strcpy () не нужно заранее знать длину строк, дает ему преимущество для коротких строк, он должен тратить больше времени на каждый байт, чем memcpy - иногда намного дольше. Я предполагаю, что версия моей библиотеки, которая была ограничена строками байтов INT_MAX [независимо от того, что случилось на данной платформе] и была настроена для этого размера, будет превосходить ...
supercat 06 март 2015, в 14:22
0

... строки C с нулевым символом в конце практически на любой платформе, для почти любой операции, включающей более дюжины символов или около того [точка безубыточности будет зависеть от операции]. Любая идея, если бы было хорошее место, чтобы опубликовать это? Это становится немного не по теме здесь.
supercat 06 март 2015, в 14:23
0

@supercat: Понятно, но я не уверен, что согласен. Это действительно может быть в языке, но не как char * а как совершенно другой тип. Это может быть какая-то предопределенная структура (назовем это «строка»). На самом деле это может быть тип того, что помещается между двойными кавычками вместо символа *. То, что вы предлагаете, сильно напоминает мне Струны Паскаля. Если бы Паскаль все еще был там, было бы не трудно заставить их развиваться таким образом.
kriss 06 март 2015, в 14:29
0

@supercat: Понятно, но я не уверен, что согласен. Это действительно может быть в языке, но не как char * а как совершенно другой тип. Это может быть какая-то предопределенная структура (назовем это «строка»). На самом деле это может быть тип того, что помещается между двойными кавычками вместо символа *. То, что вы предлагаете, сильно напоминает мне Струны Паскаля. Если бы Паскаль все еще был там, было бы не трудно заставить их развиваться таким образом.
kriss 06 март 2015, в 14:29
0

@kriss: я предполагал, что unsigned char* вместо char* указывает на строковые заголовки. С точки зрения языка можно сказать, что строковые литералы будут иметь два представления в зависимости от длины. Для длины до UCHAR_MAX/4 сохраните длину, за которой следует текст; вернуть указатель на длину. Для большей длины выделите выровненный unsigned , за которым UCHAR_MAX байт UCHAR_MAX , за которым следует текст; вернуть указатель на байт UCHAR_MAX . Таким образом, любой строковый литерал будет давать указатель на значение 0-UCHAR_MAX/4-1 или же UCHAR_MAX .
supercat 06 март 2015, в 15:11
0

@kriss: я не думаю, что "буфер символов начинается с целого, содержащего длину", более волшебно, чем "конец буфера символов заканчивается этим специальным символом"
Billy ONeal 06 март 2015, в 17:06
0

@BillyONeal: Что вы думаете об идее использования байта или байта int + в начале строкового буфера, чтобы указать его длину, а также, является ли это фиксированной строкой, переполненным строковым буфером с изменяемым размером или изменяемым размером строковый буфер заполнен меньше чем? Можно использовать разные значения байтов флага для включения индикатора длины нескольких размеров, но добавление четырех или даже восьми байтов к 64-символьным строкам будет незначительным расходом по сравнению с добавлением даже двух дополнительных байтов к четырехсимвольной строке.
supercat 06 март 2015, в 19:09
0

@supercat: Я думаю, что такой дизайн был бы непрактичным в 1975 году по причинам размера кода. Сейчас? Без понятия. Нужно было бы проверить, чтобы быть уверенным.
Billy ONeal 06 март 2015, в 20:46
0

@BillyONeal: выбор оптимального компромисса между скоростью, размером данных и размером кода был бы непростым делом (и вполне вероятно, что кто-то, пытавшийся сделать это в 1975 году, установил бы трудно исправимые архитектурные ограничения), но я думаю, что хорошая хорошо написанная строковая библиотека могла бы уменьшить общий код приложения и размер данных даже в 1975 году, избегая необходимости в приложениях отдельно отслеживать длину буфера, длину строки и содержимое строки, а также позволяя эффективные операции с подстроками (а не только хвосты).
supercat 06 март 2015, в 21:06
0

@supercat: единственная проблема заключается в том, что нарушается семантика unsigned char * или char * . Оба они могут быть указателями на один или несколько последовательных символов, что мы привыкли называть «строками». Это реальная причина, по которой нужен новый выделенный тип строки.
kriss 06 март 2015, в 23:43
0

@BillyONeal: конечно, либо добавление префикса (один байт или немного более сложный, как предлагает суперкат), либо добавление специального завершающего байта, когда мы используем синтаксис двойной кавычки, являются магическим поведением. Мы все знаем, что первое поведение было выбрано Паскалем, в то время как второе было выбрано C. Единственная реальная точка зрения в том, что если мы выбираем первый вариант с префиксом, это уже не char * а немного более сложный объект, лучше всего описываемый структура на языке Си. Конечно, эта структура может быть предопределена как «строка» и добавлены библиотечные функции. Нет необходимости ломать систему типов C для этого.
kriss 06 март 2015, в 23:56
0

@kriss: Основное преимущество выбора второго варианта состоит в том, что если у вас есть указатель на строку, которая, как известно, содержит по крайней мере n символов, можно легко получить указатель на строку, содержащую часть после n-го символа. С другой стороны, если кто-то использует префикс и оставляет некоторые значения зарезервированными , и желает использовать вызов подпрограммы, прежде чем получить доступ к символам из строки, можно получить множество возможностей, включая возможность передавать ссылку на произвольную часть строка [не только хвост], проверка границ и т. д. Наличие такой вещи, как языковая особенность ...
supercat 07 март 2015, в 17:53
0

... было бы полезно, так как объявление string[23] foo; может позволить компилятору не только выделить 24 байта для foo но и инициализировать первое слово, чтобы идентифицировать его как пустой 23-байтовый буфер. В противном случае использование буферов с проверкой границ потребовало бы, чтобы в пользовательском коде использовались отдельные методы для «сохранения строки в унифицированном буфере, который, как известно, достаточно велик» и «сохранения строки в буфере с проверкой границ» - немного неприятно. -или еще макрос для инициализации буферов перед использованием. Тем не менее, я считаю очень прискорбным, что усилия по экономии нескольких байтов ...
supercat 07 март 2015, в 17:58
0

... на оборудовании PDP-серии сохранились десятилетия спустя, на платформах, где они уже не реально экономят много [и, фактически, накладывают дополнительные расходы на любой код, который хочет быть безопасным].
supercat 07 март 2015, в 17:59
1

Этот бит о соглашении о вызовах - это просто история, не имеющая отношения к реальности ... она не учитывалась в дизайне. И соглашения о вызовах на основе регистров уже были «изобретены». Кроме того, подходы, такие как два указателя, не были опцией, потому что структуры не были первого класса ... только примитивы были назначаемыми или проходимыми; копирование структуры не дошло до UNIX V7. Необходимость в memcpy (который также не существует) просто для копирования указателя строки - шутка. Попробуйте написать полную программу, а не только изолированные функции, если вы делаете вид, что создаете язык.
Jim Balter 08 март 2015, в 20:28
1

«это скорее всего потому, что они не хотели тратить много сил на обработку строк» - ерунда; вся область приложения ранней UNIX была обработкой строк. Если бы не это, мы бы никогда не услышали об этом.
Jim Balter 08 март 2015, в 20:29
1

«Я не думаю, что« символьный буфер начинается с int, содержащего длину », больше не волшебно» - это если вы собираетесь заставить str[n] обращаться к правильному символу. Это те вещи, о которых люди, обсуждающие это , не задумываются .
Jim Balter 08 март 2015, в 20:36
0

@JimBalter: То, что C действительно должно было бы заставить работать со строкой, как я описываю, было бы синтаксисом средства для запроса выделения структуры, за которым следуют дополнительные n элементов последнего типа или объявленного в нем массива. Тогда можно объявить struct TINYSTR { unsigned char head; char dat[0]; } struct MEDSTR { unsigned int head; char dat[0];} и struct LONGSTR {unsigned long head; char dat[0]; } и struct ISTRING {char *ptr; unsigned int length; unsigned int alloc; unsigned head; char dat[0];}, and given an initialized variable v` любого из этих типов, передайте v.dat строковым методам.
supercat 09 март 2015, в 00:12
0

@JimBalter: Поддержка VLA была бы простой [не беспокойтесь об отклонении массивов нулевого размера и не допуская синтаксиса для запроса выделения большего размера, чем обычно], и это избавило бы от кода, который должен был сойтись с отсутствием поддержки. Однократная инициализация заголовка буфера устранит необходимость дальнейшей передачи размера буфера в методы обработки строк. Код, который хочет передать произвольную часть строкового буфера (а не только хвост), может создать ISTRING и передать указатель на его поле dat[] . В любом случае самое важное наблюдение ...
supercat 09 март 2015, в 00:17
0

... в том, что K & R основывала конструкцию C на наборах команд, таких как серия PDP, где доступ к указателю был дешевле, чем индексирование в массив, а передача указателя в массив была дешевле, чем передача base и index по отдельности. На многих платформах ни одно предположение все еще не выполнено. Передача base + index означает, что можно использовать проверку границ или нет, как считает нужным, в то время как передача одного указателя исключает эту возможность. Лично я предпочел бы иметь возможность проверять границы массивов, чем решать, что любой ошибочный доступ к массиву будет просто иметь необратимый UB.
supercat 09 март 2015, в 00:25
0

K & R не основывал C на наборе команд PDP; Ричи опроверг этот слух в печати. В любом случае это не имеет значения, потому что этот вопрос был о том, почему в дизайне C использовались строки, оканчивающиеся NUL, и о неоднократном утверждении OP, что это был «худший» дизайн. Остальные комментарии выше также не имеют значения, особенно тот, что касается VLA. Теперь ТАК мудро советует нам избегать длительных обсуждений ...
Jim Balter 09 март 2015, в 20:20
0

@JimBalter: Не могли бы вы отрицать, что дизайн C и его библиотек во многом основан на идее, что *dest++ = *src++; будет быстрее чем dest[i]=src[i]; ? Основная идея первой части моего ответа - и если вы можете указать мне на исторические ссылки, чтобы помочь мне исправить любые неточности, которые были бы велики, - это то, что C разработан вокруг концепции передачи указателей в середины массивов, без каких-либо средств для получателя знать что-либо о массивах, в которых они появляются, и это, в свою очередь, мотивируется тем, что указатель доступа быстрее, чем индексированный доступ. Вы не согласны?
supercat 09 март 2015, в 20:41

Показать ещё 26 комментариев

-4

gcc принять следующие коды:

char s [4] = "abcd";

и это нормально, если мы рассматриваем это как массив символов, но не строку. То есть мы можем получить к нему доступ с помощью s [0], s [1], s [2] и s [3] или даже с memcpy (dest, s, 4). Но мы будем получать беспорядочные символы, когда мы пытаемся использовать puts (s), или хуже, с помощью strcpy (dest, s).

kkaaii 20 июнь 2017, в 01:30

1

Это просто неправильно. "abcd" требует пять байтов (из-за завершающего нулевого байта) и не помещается в char[4] .
Adrian W 04 июль 2018, в 22:25

Ещё вопросы

Я всегда думал, что для всех программистов C ++ это был обряд, когда они пишут свою собственную библиотеку строк.
@Juliet: Lol - это правда. Но это не значит, что они должны использовать свою библиотеку строк в производственном коде. Я буду придерживаться стандартных битов TYVM :)
@Juliet: тогда вы начинаете задаваться вопросом, как будет выглядеть ваше приложение, если вам нужно позаботиться о различной реализации строк для каждой библиотеки, от которой она зависит.
Что это значит ожидать рациональных объяснений сейчас. Я полагаю, вы хотите услышать обоснование для x86 или DOS дальше? Насколько мне известно, худшая технология выигрывает. Каждый раз. И худшее строковое представление.
@jalf: 1. x86 выиграл, потому что это было дешевле, а не по какой-либо технической причине. (Но это еще один аргумент) 2. Префикс длины выиграл везде, но C. Не понимаю (ха!), Как это победа для нулевого завершения.
Даже большие системы, построенные на C, часто создают собственную структуру строковых данных, которая хранит длину рядом с байтами и создает вокруг нее библиотеку манипуляций. Win NT UNICODE_STRING, например.
@Billy: потому что C стал смехотворно популярным языком? ;)
Я написал об этом в 2003 году и придерживаюсь того, что сказал тогда.
Бьярне Страуструп, к сожалению, не может видеть будущее.
Почему вы утверждаете, что строки префикса длины лучше? В конце концов, C стал популярным, потому что он использовал строки с нулевым символом в конце, что отличало его от других языков.
@Daniel: C стал популярным, потому что это простое, эффективное и переносимое представление программ, исполняемых на машинах фон Неймана, и потому, что оно использовалось для Unix. Это, конечно, не потому, что он решил использовать строки с нулевым символом в конце. Если бы это было хорошее дизайнерское решение, люди бы скопировали его, а они нет. Они, конечно, скопировали почти все остальное из C.
Я не понимаю, почему использование префикса длины вместо нулевого завершения приводит к "загроможденной семантике". В обоих случаях у вас есть кусок байтов. Если вы хотите поговорить о C # / Java, который выполняет такие вещи, как интернирование строк, то у вас может быть аргумент ....
@Джульетта. Неправильно. Обряд каждого программиста C ++ - это собственная библиотека умных указателей. Библиотека строк является внеклассной.
где ярлык священной войны, когда вам это нужно?
Префикс длины не является частью «блока байтов», если ваш код не обрабатывает его как таковой (который будет очень медленным при постоянном использовании). Это объект данных, зависящий от компьютера (размер, порядковый номер, требование выравнивания и т. Д.), Который заставляет строки требовать значительной сериализации для хранения в файлах, передачи по сети и т. Д. Посмотрите, сколько новичков вы видите, отправляя (машинные) двоичные данные по линии связи на SO, и представьте, насколько хуже было бы, если бы строки содержали двоичные данные ...
@calavera: Ха-ха - священная война не так уж и плоха, если люди на самом деле пытаются атаковать вышеупомянутые пункты. Ответы «это должен быть правильный ответ, потому что это сделал С» чрезвычайно раздражают. Независимо от того, насколько хороша какая-либо конкретная система, будут части, которые отстой. Просто жаль, что они не осознают, что вполне возможно копировать один из атрибутов Си, как и сам Си. Любить язык не значит, что тебе нравится все. (то же самое относится к любому «это должен быть ответ, потому что X делает это», заменяя X на «C», «Linus», <ВСТАВЬТЕ ИЗБРАННОЕ ЯЗЫК ПРОГРАММИРОВАНИЯ / ЧЕЛОВЕКА / СИСТЕМЫ ЗДЕСЬ>)
Я не могу поверить, что я попал в шапку сегодня из-за вопроса. (Хорошо, 20 баллов пришли из ответов, но черт!)
я не могу поверить, что я ударил репутацию за мой ответ, учитывая, сколько раз он был понижен: P
Все делают это. Вы не собираетесь отступать, не так ли? Или ты курица?
Why would null terminated strings have been chosen instead of the obviously superior length prefixing? Я, честно говоря, не вижу, насколько длина строки с префиксом obviously superior . У обоих вариантов есть явные недостатки и преимущества, поэтому слово « superior имеет смысла.
@trinithis: это своего рода пример того, чтобы задавать вопрос, по моему мнению.
@ Билли Ну, вопросы «это должно быть неправильно, потому что другие этого не делали» тоже надоедливые. Вы предоставили НЕТ ФАКТОВ о том, что лучше, и, на самом деле, есть много вещей, которые проще с нулевыми завершенными строками. И вы не предоставили доказательств того, что C не победил, потому что он использует строки с нулевым символом в конце. И вот в чем проблема: этот вопрос - чистое пламя и спекуляция, и я никогда не видел ни одного вопроса о переполнении стека, который не заслуживал бы закрытия больше, чем этот.
@ Даниель: нет фактов? Я думаю, что я перечислил много в моем вопросе.
@Daniel: я немного отредактировал вопрос. Лучше?
@ Билли Нет фактов. 1. Возраст! = Лучше. 2. Обратное также верно. 3. Неверно, при управлении собственной памятью переполнение буфера может быть в любом случае. 4. Это всего лишь защита, а не преимущество. 5. Популярность! = Лучше. 6. Не имеет значения - C ++ не существовал до C. 7. Не имеет значения - C может нормально обрабатывать буферы памяти с нулями, а строки C используются для отображения объектов на экране, а null не является графическим символом. Таким образом, нет фактов, указывающих на то, что строки с префиксом размера лучше, чем строки с нулевым символом в конце.
@Daniel: 1. Я никогда не хотел сказать, что возраст значит лучше - больше хотел сказать, что префикс длины не датируется C и, следовательно, мог быть рассмотрен при разработке. 2. Я полагаю, что обосновал это лучше с моей правкой. 7. Но стандартная библиотека C не может. Ни одна из библиотек C не может ожидать простых "строк C". Так что, если вы читаете на диске формат, который должен содержать строку, и кто-то поставил туда ноль, ваша программа окажется на коленях. Это "просто работает" на других языках без труда.
Concat - это только O (m) с префиксом длины, если вы уничтожаете одну из строк. В остальном же скорость. Наиболее часто используемые строки C (исторически) были печать и сканирование. В обоих случаях нулевое завершение выполняется быстрее, поскольку оно сохраняет один регистр.
@Daniel: strcat уничтожает одну из строк.
@Billy Извините, но моя стандартная библиотека C имеет множество функций, начинающихся с "mem", которые основаны на ВСЕХ размерах. Ни одно из них не является новым дополнением.
@Billy Вы сказали, что «стандартная библиотека C не может», но может.
@Billy Каким образом невозможно использовать функции mem * для обработки содержимого, в котором есть нули? Я, конечно, использовал это, и если вы когда-либо использовали Unix, то вы наверняка использовали код, который также использовал его преимущества. Конечно, вы не можете распечатать его, потому что нулевые символы не могут быть напечатаны. Но вы можете манипулировать им так, как хотите. Вот заголовок справочной страницы: «bcmp (3), bcopy (3), bzero (3), memccpy (3), memchr (3), memcmp (3), memcpy (3), memmove (3), memset (3) - операции с байтовой строкой ". Ни одна из этих (и других) функций не имеет значения для нулей, так в чем же проблема?
Это самая глупая война пламени. У меня нет предпочтений ни по одному из стилей, но глупая настойчивость Билли подталкивает меня к пустым цепочкам. (Плюс, когда определение длины строки является одной из наиболее распространенных операций строки? Конкат, конечно. Вывод, конечно. Длина ... нет. Даже при рассмотрении конкат, m + n -> 2max (m, n) -> 2n -> n -> без разницы.)
Кроме того, большинство строк, с которыми я имею дело, являются постоянными. Даже при рассмотрении непостоянных, вы никогда не заметите разницу между скоростями. И если вы это сделаете, то вы все равно используете неправильный тип данных. Вы даже упоминаете, the efficiency argument doesn't sell me here , поэтому ваши аргументы в пользу эффективности строковых алгоритмов меня не продают (даже если я посчитал это важным).
Если бы я мог поставить себя в любое место во времени, это было бы, когда K & R определил C. Почти каждый эксплойт безопасности когда-либо был переполнением строки или буфера. Если бы они включали строки / массивы с префиксом длины и соответствующие языковые конструкции для управления ими. (А потом я бываю у Коперника; скажите ему, что это эллипсы, а не большие раковины. В обоих случаях люди будут избавлены от десятилетий боли.)
@trinithis: Я должен отметить, что я говорю о больших различиях эффективности с точки зрения алгоритмов, но только с 3 байтами с точки зрения различий в памяти. Первое большое дело. Второй маленький сыр. Что касается «глупой настойчивости», если бы вы объяснили, как я был глуп, а не назвал меня глупым, возможно, вас бы посчитали более серьезным.
Если вы помните Microsoft Assembler (MASM), он использовал строки с $ завершением. Таким образом, терминатор (или его отсутствие) является произвольным выбором авторов языка.
@TimBray: IMHO, Java должен был включать string примитив, который был бы 32-битным непрозрачным типом, который мог бы содержать ссылку на объект Java, но не обязательно должен был бы делать это. Я занимался реализацией в C ++ пула строк / массивов для сбора мусора для систем с ограниченной оперативной памятью, где каждая строковая ссылка занимала бы 2 байта вне пула и 2-3 байта внутри него; строки длиной до 32 байт будут иметь один дополнительный байт для длины, а более длинные строки добавят немного больше. Массивы ссылок, хранящиеся в пуле, будут занимать всего два байта на строку.
@TimBray: единственный раз, когда я вижу строки с нулевым окончанием как полезные, это когда передается строка по значению методу, которому не нужно будет использовать строку после ее возврата. Во всех других контекстах коду, который должен работать со строками, длина которых заранее не известна, нужно будет каким-то образом отслеживать длины выделенных блоков памяти, и если это необходимо, нулевой терминатор на самом деле не покупает много. ,
«Я написал об этом в 2003 году и поддерживаю то, что сказал тогда». - Это, пожалуй, худшая статья, когда-либо написанная на струнах. strncpy это "лучшая практика"? Печаль во благо.
Напоминание C позволяет избежать автоматически выполняемых расчетов по соображениям производительности. Таким образом, вы должны были хранить длину самостоятельно, так же, как и при использовании \0 . И, на мой взгляд, поддерживать \0 в конце каждой строки самостоятельно, намного проще, чем поддерживать число в начале и отслеживать количество данных, следующих за ним, и если количество меняется, мне также нужно изменить число ,
@Zaibis: Вам нужно изменить, где находится нулевой терминатор, что функционально является тем же преобразованием.
«Длина и конкат являются наиболее распространенными строковыми операциями». [цитата нужна] Я нахожу код, который хранит длину в дополнение к строке (либо в виде префикса, либо в блоке дескриптора), имеет тенденцию много использовать длину. Но код, который использует строки с нулевым символом в конце, часто вообще не заботится о длине. И concat по-прежнему O (n + m), потому что, за исключением особых случаев, сначала нужно скопировать исходную строку в буфер, достаточно большой, чтобы содержать оба. Я не против заранее просчитанных строк, но вопрос делает много предположений, которые смещают ответы.
«строка с префиксом length [-] всего на три байта шире строки с нулевым символом в конце» плюс некоторые отступы для выравнивания, потому что вы, вероятно, хотите, чтобы счетчик был выровнен. Строки с нулевым символом в конце, которые выделяются в куче, также будут выровнены, но строковые литералы могут быть упакованы во время компиляции и компоновки и, таким образом, не будут иметь затрат на выравнивание.
«... любой другой язык ...» написан на C
@purec: Это не значит, что они используют NTCTS. (И это не так в любом случае)
@calavera это не неправильный вопрос. это asciiz тип asciiz или символьные массивы с нулевым символом в asciiz .
char *temp = "foo bar"; является действительным утверждением на C ... эй! разве это не строка? разве это не завершено?
@Yanick: это просто удобный способ сообщить компилятору о создании массива char с нулем в конце. это не «строка»
@calavera: Но это могло бы означать просто «Создать буфер памяти с этим строковым содержимым и двухбайтовым префиксом»,
@calavera, «строка» по определению является «линейной последовательностью символов» и необязательно является типом данных. Это было сделано типом более высокими уровнями языка для удобства. В C это строка, в C # это нечто другое. Вопрос о C-строках, вот и все; указатель на линейную последовательность символов, за которой следует символ \0 .
Это может быть не строковый объект, как можно было бы подумать в C ++, но по определению это строка C. Перестань пытаться это отрицать.
1) C имеет строки. 2) Строки C не являются типами, они определены как массивы char или wchar_t, которые содержат только один нулевой символ в конце. 3) То, что вы говорите, не имеет смысла. Почему "str" завершается нулем, а не имеет префикс размера?
@Billy: хорошо, поскольку «строка» - это на самом деле просто указатель на символ, который эквивалентен указателю на байт, как вы узнали бы, что буфер, с которым вы работаете, действительно предназначен для «строки»? вам потребуется новый тип, отличный от char / byte *, чтобы обозначить это. может быть структура?
@calavera: Вы бы не. Но вы действительно не знаете этого и со строкой Си. Кто-то может передать вам ненулевой завершенный буфер в любое время.
chill y'all :) Я просто указываю на то, что для того, чтобы строка имела смысл для самого машинного языка, должен быть какой-то способ определить, является ли тип строкой или нет. авторы языка, очевидно, решили использовать один из самых простых и наиболее эффективных способов сделать это. По общему признанию, не идеальный и все еще неоднозначный, но простое добавление длины к началу байтового массива не решит проблему, если вы не знаете, что все байтовые массивы предваряются их длиной.
@ Билли: см. Мой комментарий выше. Я признаю, что это не однозначно, но это менее двусмысленно, чем просто добавление длины к байтовому массиву.
Я думаю, что @calavera прав, у C нет типа данных для строк. Хорошо, вы можете рассматривать массив символов как строку, но это не значит, что это всегда строка (под строкой я подразумеваю последовательность символов с определенным значением). Бинарный файл - это массив символов, но эти символы ничего не значат для человека.
@ Яник: абсолютно не соответствует действительности. определение слова «строка» меняется в зависимости от контекста. Я говорю в контексте типов данных.
@tiftik: вы задаете правильный вопрос.
Строка не должна быть удобочитаемой для человека - «В информатике строка - это любая конечная последовательность символов (т. Е. Букв, цифр, символов и знаков препинания)».
@Billy: даже если бы мы объединили два подхода (с добавлением длины и добавлением нуля), результирующий массив char / byte все равно необходимо будет просмотреть, чтобы определить, действительно ли байты представляют строку или нет. Таким образом, этот подход был бы менее эффективным на начальном этапе, но более эффективным, когда мы вроде как подтвердили, что имеем дело со строкой. единственный недвусмысленный способ работы со строками с использованием существующих типов - это создать структуру, которая представляет строки, а не разрешать такие операторы, как char* myStr = "Hello World"; , но только strStruct* str = "hello world";
@jweyrich: Вы правы, я имею в виду, никто не будет читать двоичный файл и помещать его содержимое в строковую переменную, верно? Ну, я бы не стал делать, но я не знаю с ++.
@calvera: Зачем вам нужно пересечь строку? Большинство C, которые я видел, не беспокоятся о том, что буфер, который он получает, обнуляется; если это не нуль, прекращено результаты сбоя. (Потому что, как правило, невозможно обнаружить этот тип отказа)
@ Билли: да, и именно поэтому это отстой, когда в язык не интегрирован строковый тип. а также почему такие функции, как strcpy_s и тому подобное, заменили старые версии.
@ Марк Рэнсом: Вы не правы и не говорите мне, что прекратить делать. Если вы так уверены в своем определении, попробуйте следующее: int* str = "this is just bytes, i have no idea what a string is"; часть с правой стороны является строковым литералом . Си не знает, что такое строковый тип, он знает только, как назначить строковый литерал указателю.
@ Яник Рошон: char a[4] = "toto"; также является допустимым оператором C, но в этом случае «toto» может быть строкой, но не заканчивается нулем (одно из самых игнорируемых небольших различий между C и C ++).
@calavera: Извините, хотел сказать вам +1 раньше. @ BlackBear: я не понимаю, почему префикс длины не позволяет хранить двоичные данные в строковой переменной. Я также не понимаю, почему нулевое завершение делает то же самое. Люди используют char * чтобы указывать на простые байты все время, и это вполне разумно.
Тот факт, что C не имеет строкового типа, не означает, что он не имеет строковых значений. Он имеет четко определенное соглашение, восходящее к началу языка, которое поддерживается языком через строковые литералы. Любая попытка заявить о другом просто чрезмерно педантична.
@ Билли: спасибо, я ценю, что мы можем обсудить это и не согласиться, не прибегая к тому, чтобы говорить друг другу, что думать или делать. :)
@ Билли: я не хотел этого говорить. Я только что сказал, что согласен с @Calavera: «хорошо, поскольку« строка »на самом деле является просто указателем на символ, который эквивалентен указателю на байт, откуда вы знаете, что буфер, с которым вы имеете дело, действительно предназначен для строка'?".
@ BlackBear: нет. По крайней мере, не в C.
+1 от меня. Понимание того, что массив char - это не то же самое, что строка символов (например, из-за отсутствия понятия кодировки), является ключевым моментом.
@BillyONeal: в отношении вашего оператора char * ; люди могут делать это, но разве это не плохая практика? По умолчанию предполагается использование unsigned char . Если они действительно имеют дело с двоичными данными, а не со строками ASCII в системе, которая имеет signed char , есть проблема.
@mrduclaw: Нет, это действительно не предполагает ничего о подписанном или неподписанном символе. Если вы никогда не обращаетесь к данным через тип char, не имеет значения, какой тип вашего буфера на самом деле. (Что является обычным явлением при работе с непрозрачными данными, загруженными из файла или в другом месте)
«Но это могло бы означать просто« Создать буфер памяти с этим строковым содержимым и двухбайтовым префиксом »» - Нет, этого не могло быть, потому что это поместило бы n-й символ temp в значение temp [n + 2 ], что является ужасной вещью, которую можно закрепить на языке программирования. Другая очевидная причина иметь строки, заканчивающиеся на NULL, заключается в том, что вы можете иметь указатели на строки ... именно так всегда выполнялась обработка строк в C до тех пор, пока не появились машины и компиляторы с эффективными операциями над индексами.
«Строка» четко определена стандартом C как (в основном) последовательность символов с нулевым символом в конце.
Есть много других неориентированных языков и все еще есть поддержка строк
@JimBalter: как насчет указателя на первый символ и указать, что если предыдущий символ не больше, чем UCHAR_MAX / 2, он представляет длину; в противном случае, если предшествующий символ не больше, чем UCHAR_MAX / 2, длина будет p [-2] * (CHAR_MAX / 2 + 1) + p [-1] и т. д. до столько предшествующих байтов, сколько требуется?
@supercat У вашей сумасшедшей идеи есть множество проблем, таких как невозможность добавления в строку ... даже копирование такой вещи в существующий буфер было бы невозможным. А поскольку ваша схема cockamamie требует как минимум 2 байта длины, она была бы хуже простого использования фиксированной 16-битной предшествующей длины на оригинальных машинах C. И, конечно, ваша поразительно плохая идея по-прежнему не позволила бы указатель на строку для ее обхода - второй пункт комментария, на который вы отвечаете.
@JimBalter: для строк длиной до 127 байт потребуется один байт, для строк длиной до 16383 байт - два, для строк длиной до 2097151 байт - три, и т. Д. При выделении строкового буфера определенного размера оставьте подходящее количество пространство для длины. Если методу сообщают, что в буфере есть место для 32768 байтов, он имеет право предположить, что три байта, предшествующие указателю, были доступны.
@JimBalter: Небольшая коррекция: укажите, что весь код, изменяющий длину строки, должен записывать новую длину в том же формате, что и старая. Чтобы выделить строку длиной 32768 байт, char *s=malloc(32768+3)+3; s[-1]=0x80; s[-2]=0x80; s[-3]=0x00. Given a pointer to a string, one could find the allocation base via char p = s; do {--p;} while (* p & 0x80); `. Фактически, однажды можно было бы усилить эту идею, потребовав, чтобы всем * записываемым строкам предшествовали два числа переменной длины: чем ближе текущая длина, тем дальше выделенная длина. Таким образом...
... можно эффективно защититься от переполнения буфера, не требуя, чтобы код вручную отслеживал длину буфера.
@supercat "Это потребует одного байта длины" - извините, я неправильно прочитал ваш дизайн. Но я не собираюсь больше тратить время на эту глупую и спорную идею. Если вы хотите создать новый старомодный PL, который использует его, сделайте это.
"Строка" в C - это просто указатель на символ ... "это не так ( указатель ); это 0 массив char .
@alk: массив в C это просто указатель ! Насколько я знаю, array[3] на самом деле делает *(array + 3) за кулисами. (Конечно, игнорируя такие вещи, как ASLR .) Я на самом деле видел, как люди перебирают строки, используя манипуляции с указателями.
@kriss: очень хороший ответ. Я ценю, что кто-то еще признает, что исходный вопрос имеет некоторую редакционную актуальность и не совсем то, чем кажется.
@kriss: Мой вопрос: «почему были выбраны строки с нулевым символом в конце». Я знаю, что есть лучшие способы решения проблем с использованием библиотек. Но всякий раз, когда вы обращаетесь к решению библиотеки, как эта проблема, большая часть того, что вы получаете, теряется из-за необходимости склеивать вашу библиотеку, используя код к существующему коду. Учитывая, что стандарт использует строки с нулевым символом в конце, это то, что вы застряли. (И иногда мне все еще приходится писать этот вид клея, потому что существующий код не поддерживает i18n GRRR). Кроме того, я думаю, что некоторые из ваших пунктов в равной степени применимы к префиксу длины (то есть библиотечные функции).
... продолжение ... Некоторые из ваших пунктов, я думаю, просто неверны, то есть аргумент "все - файл". Файлы имеют последовательный доступ, строки C - нет. Префикс длины также может быть сделан с минимальным синтаксическим сахаром. Единственным разумным аргументом здесь является попытка управлять 32-битными префиксами на небольшом (то есть 8-битном) оборудовании; Я думаю, что это может быть просто решено, сказав, что размер длины определяется реализацией. В конце концов, это то, что делает std::basic_string .
@Billy ONeal: на самом деле в моем ответе есть две разные части. Один о том, что является частью «основного языка Си», другой - о том, что должны предоставлять стандартные библиотеки. Что касается поддержки строк, в базовом языке есть только один элемент: значение двойной кавычки заключено в байты. Я не очень счастлив, чем вы с поведением C. Я волшебным образом добавляю, что ноль в конце каждого двойного замыкания заключает в себе кучу байтов, что достаточно плохо. Я бы предпочел и явный \0 в конце, когда программисты хотят этого вместо неявного. Предварительная длина намного хуже.
@kriss: пользователю языка не важно, что определяет основной язык, а не то, что определяет стандартная библиотека. (Вообще говоря) Все, что волнует программиста на языке C, это «У меня есть строка здесь, и я хочу ее на консоли» ... и функции, которые принимают строки с нулевым символом в конце Это мое утверждение, что строки с нулевым символом в конце были ошибкой проекта , Я подтверждаю это тем, что указываю на тот факт, что C (и C ++) - единственное (популярное) место, где они используются. Я не понимаю, почему привязка префикса длины к символьным данным внутри "" более инвазивна, чем нулевая.
@Billy ONeal: это просто неправда, пользователи заботятся о том, что является ядром и что такое библиотеки. Самый большой момент - когда C используется для реализации ОС. На этом уровне нет доступных библиотек. C также часто используется во встроенных контекстах или для программирования устройств, где у вас часто бывают такие же ограничения. Во многих случаях Joes's, вероятно, вообще не следует использовать C в настоящее время: «Хорошо, вы хотите это на консоли? У вас есть консоль? Нет? Очень плохо ...»
@kriss: Ну, для 0,01% программистов на C, использующих операционные системы, хорошо. Я буду придерживаться других 99,9%. А именно, потому что C без стандартной библиотеки - это не C. Когда я говорю о C, я говорю о стандартном C, а не о какой-то ограниченной версии, используемой для начальной загрузки ОС.
@Billy ONeal: вы также должны учитывать, что C и C ++ являются единственными языками, используемыми для реализации ядер ОС. Вам просто нужно иметь средство для инициализации группы байтов. C строки легко. Если вы измените значение двойных кавычек на какой-то элемент с предварительно добавленной строкой (единственная часть, отсутствующая в библиотеках) ... Вы должны найти другое среднее значение, как простое и простое, для инициализации константных байтовых литералов. Кстати, вы можете использовать sizeof константных строковых литералов. Это известно во время компиляции, зачем вам это куда угодно?
@kriss: я не предлагаю менять C. Я спросил, почему С принял решение, которое он изначально принял. Там есть разница Тот факт, что для реализации ОС используется ограниченная форма C, не означает, что это делают 99% пользователей языка. C - это язык программирования общего назначения, и, будучи универсальным языком, означает, что он не идет на компромиссы, чтобы облегчить выполнение конкретной задачи (то есть ОС).
@Billy ONeal: выбор C позволяет легко реализовывать поведение с предваряющей длиной (эй, библиотеки других языков в основном написаны с использованием C). Обратный путь просто невозможен. Если язык не включает в себя какой - либо способ определить кучу байт вы просто обреченными, есть вещи , которые не могут быть сделаны.
@kriss: это включает в себя, char myBunchOfBytes[] = {'a', 'b', 'c'};
@Billy ONeal: еще один аспект C, который очень похож, это длина массивов. На самом деле я считаю, что выбор дизайна здесь тот же. Большинство lnaguage хранят длину массива где-нибудь. С сделал другой выбор. Это ошибка дизайна?
@Billy ONeal: ты шутишь? Длина имеет значение!
@kriss: Вы сказали «если язык не предоставляет никакой возможности» - я сказал, что есть способ. И есть. Синтаксис "" не был разработан и не предназначен для использования в качестве случайного способа вставки байтов в вашу программу. Он предназначен для использования в удобочитаемых для человека строках , которые вы можете легко увидеть, если вы возьмете себе копию оригинальной (или редакции ANSI) книги K & R C, где это единственное, для чего она когда-либо использовалась .
@Billy ONeal: f = open({'m', 'y', ' ', 'p', 'a', 't', 'h'}, flags);
@kriss: И нет никаких причин, по которым open не принимает строку с префиксом длины, и в этом случае вы просто используете простой "" синтаксис, который вы уже используете. Более того, open - это не функция C, это системный вызов POSIX.
@Billy ONeal: и теперь мы должны навязать использование строки с добавлением размера на уровне ядра? Потому что это то, что открыто. И, насколько я знаю, ядра не вызывают большую часть библиотек C-манипуляции со строками ...
@kriss: Точно так же, как вы применяете нулевое завершение сейчас. Вы не
@Billy ONeal: есть системные вызовы, где используется размер, и выбранное соглашение (а в прошлом это соглашение C) состоит в том, чтобы передавать как строковые данные, так и длину как отдельные параметры, потому что это более сложный метод. Строки с заранее установленным размером просто склеивают эти две части информации, и в этом нет необходимости. Передайте длину, когда это необходимо, не передавайте ее, когда это не так.
@kriss: я знаю, что есть история как Си-конвенция. Мой вопрос был: «Почему эта конвенция была там в первую очередь?». Потому что, если бы C был определен по-другому, то системные вызовы также были бы определены по-другому. Насколько "необходимо", вам нужен какой-то способ, чтобы функция могла определить, где находится конец строки. Есть несколько способов сделать это. Один из них - префикс длины, второй - нулевое завершение, один передает указатель на начало и конец диапазона. Вы действительно передали две части информации для open в приведенном выше коде - ноль указывает, где заканчивается строка.
@Billy ONeal: я не понимаю ваш предыдущий комментарий. Может быть, это слово «принуждение», которое я использовал, неоднозначно. Я имею в виду, что вы должны изменить APIS ядра очень низкого уровня, даже API для таких функций, как open, где длина строки не является ненужной и не даст никакой производительности. И вместо этого выберите API, в котором вы предоставляете гетерогенные данные (int и массив char). Это не похоже на хороший выбор дизайна.
@Billy ONeal: еще один простой выбор - передать в open() два параметра, скажем data и length. Теперь вам нужно использовать регистр для хранения длины, но вам все равно нужно прочитать символы, чтобы использовать их, возможно, сравнивая их с записями в файловой системе. Это менее эффективно, потому что вы используете два регистра вместо одного. В этом случае размещение терминатора внутри строки более экономично. Я совершенно уверен, что если вы внимательно изучите системные вызовы, то же самое будет справедливо для всех из них, включая входные строки с нулевым завершением.
@kriss: Вы реализуете, каким должен быть API в терминах C. Если бы это была «стандартная вещь, которую все делают», чтобы использовать префикс длины, то это то, что вы использовали бы. Это не будет думать «я передаю два значения», это будет «я передаю строку». Не забывайте, что C предшествует POSIX, стандарту, который определяет большинство системных вызовов, о которых вы говорите. И вы не станете меня сильно убеждать в аргументе распределения скорости / регистра, потому что другие языки, несмотря на то, что в среднем они медленнее, чем C, намного быстрее, чем манипуляции со строками в C.
@kriss: я закончил спорить об этом. Если бы это было хорошее дизайнерское решение, то были бы другие языки программирования, которые бы копировали поведение. (Они копировали почти все остальные действия из C - должна была быть чертовски веская причина, чтобы пропустить этот бит)
@Billy "Ну, для 0,01% программистов на C, которые внедряют операционные системы, хорошо." Другие программисты могут пойти в поход. C был создан для написания операционной системы.
@ Даниель: Моя книга K & R C не согласна с вами.
Зачем? Потому что он говорит, что это язык общего назначения? Говорит ли он, что люди, которые написали это, делали, когда это создавало? Для чего он использовался в течение первых нескольких лет своей жизни? Итак, что же это говорит о том, что не согласен со мной? Это язык общего назначения, созданный для написания операционной системы . Это отрицает это?
+1 от меня; Я не совсем согласен со всеми вашими пунктами, но я ценю, что вы действительно приложили усилия и перечислили несколько мнений в пользу строк с нулевым символом в конце.
strdup - это стандартизированная функция. Это не в спецификации C, но это в спецификации POSIX.
@dreamlax: да. Правда, но POSIX - это не C, и к тому же это не главное. Я только что указал, что все функции, скрывающие malloc, кроме явных, могут привести к трудным для поиска ошибкам (и проблема обычно намного хуже при использовании библиотек C ++, чем библиотек C). Как личный опыт, я потерял несколько недель, указав на утечку памяти, возникающую из-за накопления ... и я, вероятно, стал слишком осторожен в таких вещах.
@ Даниель: нет, это не отрицает. Однако он определяет стандартную библиотеку и предполагает, что пользователь этого языка будет иметь доступ к этой стандартной библиотеке. Это абсолютно ничего не говорит об операционных системах.
@Billy Я все еще жду, чтобы услышать, что K & R говорит, что противоречит тому, что C был создан для написания операционной системы. Которого, на самом деле, вы не найдете, потому что C был создан для написания операционной системы. Язык программирования C & R на языке C - это просто книга для обучения людей программированию на нем, написанная спустя годы после создания языка. Совершенно смешно, что вы даже пытаетесь спорить, был ли C создан для написания операционной системы - общеизвестный факт - и совершенно глупо пытаться игнорировать это как имеющее проектные последствия.
@Daniel: Конечно, он не был создан для написания операционной системы за счет всех возможных вариантов использования языка. Он был создан, чтобы быть языком системного программирования, который можно использовать для написания операционной системы. Он не был создан с единственной целью написания операционной системы, потому что если бы это было правдой, это не был бы язык системного программирования.
@BillyONeal «Язык программирования C был разработан в начале 1970-х годов в качестве языка реализации системы для зарождающейся операционной системы Unix», - так говорит Деннис Ритчи на cm.bell-labs.com/who/dmr/chist.html. Первым утверждением Дэниела было то, что вы говорите, что K & R не согласен с: «C был создан для написания операционной системы». Дело в том, что Даниил прав, а ты неправ.
@BillyONeal Что касается того, почему строки заканчиваются NUL: главным образом, а) так, чтобы первый символ строки был в str [0], а не в str [1] или str [2] или str [4], в зависимости от длины длина и б) так что строки могут быть пройдены указателями. Эти причины связаны с другими аспектами конструкции C.
@Jim: я уже описал дизайн строк с префиксом длины, который позволял бы str[0] оставаться первым символом строки.
@BillyONeal Ваш «дизайн» эквивалентен добавлению строкового типа к языку ... строки не могут быть просто массивом символов с одним из символов, означающих «терминатор». Это сделало бы язык более сложным и, как было отмечено, потребовало бы больше места и регистров, что очень ценно для pdp-7 и pdp-11. Все это спорный вопрос, потому что дизайн был выбран давно и не может измениться. Если вам есть какая-то причина полагать, что они допустили ошибку, сделайте это, но на самом деле это неверный вопрос SO.
@Jim: нет, я не предлагаю добавлять отдельный тип для этого. Это не будет использовать больше регистров, я уже прошел через это. Что касается обоснованности вопроса, по крайней мере 160 человек не согласны с вами.
Я думаю, что вы ошибаетесь во всех трех пунктах, и, к сожалению, так много людей потратили столько времени на то, что не может прийти ни к чему, включая меня самого. Конец связи.
«Я не предлагаю добавлять отдельный тип для этого» - еще раз отмечу, что это невозможно; Префикс скрытой длины, такой как используемый CString MSFT, требует нового типа (перегрузка структуры и оператора), а два указателя, один на начало и один на конец, также требуют структуру ... и они должны быть примитивными на язык для обработки строковых литералов.
«Если бы это было хорошее дизайнерское решение, то были бы другие языки программирования, которые копировали бы поведение. (Они копировали большинство других действий из C - должна была быть чертовски веская причина, чтобы пропустить этот бит») - - это так глупо и интеллектуально нечестно. Все эти другие языки имеют строковый тип, который является примитивом в языке, и у них нет ограничений памяти PDP-7, на который изначально был нацелен C.
@JimBalter: если строковые литералы дают указатели на строки с префиксом, и многие методы ожидали получить указатели либо на строку с префиксом, либо на struct {char kind; char *data; int length; int avail;} (функция, получающая указатель, может посмотреть на первый байт, чтобы увидеть, была ли это строка с префиксом или структура string-info), а затем программисты могут отслеживать, какие указатели были подходящими для передачи таким методам, а какие указатели были «т. Правильные типы строк будут лучше, но не обязательно.
@supercat Я уже объяснил, почему литералы C не могут быть представлены в виде строк с префиксом без перегрузки типа и оператора ... str [n] выдает неправильный символ. А компилятор выделяет место при отрицательных смещениях адресов для префикса - это кошмар. И только NUL-концевые строки обеспечивают, чтобы указатели на строки указывали на сами строки ... это существенная особенность ранней обработки C-строк. В любом случае NUL-концевые строки не были плохим дизайнерским решением для языка Си. И это последнее, что я скажу об этой глупости.
Хорошо, только еще одна вещь: указатели на начало и конец строки также обеспечат указатели на строки, указывающие на сами строки, но они означают еще 3 байта на строку, больше времени, проходящих вокруг двух указателей вместо одного, и встроенный в строковом типе, в раннем C даже не было структурного копирования, встроенного в язык.
@JimBalter: Мало кто жалуется, что почти во всех здравомыслящих реализациях malloc возвращает указатель на данные, в которых указан префикс выделенного размера (точный формат префикса блока памяти варьируется, но требование, чтобы можно было free освобождать блок памяти без когда говорят, что его размер означает, что размер должен быть найден из указателя на сам блок). Общий способ, которым C использует указатели, был разумным компромиссом между программистом и усилием памяти в 1970-х годах; это не означает, что это разумный компромисс для процессоров с режимами адресации base + index и передачей параметров на основе регистров.
Маллок управляет кучей! Это не доступно программисту и не требует поддержки компилятора так, как если бы каждая строка имела байты перед своим адресом. Ваша ссылка на malloc является идиотской и интеллектуально нечестной. Дело не в том, на что «жалуются» люди, а в том, что для этого потребуется ... хранимая длина malloc (фактически, указатель на следующий блок) не требует ничего, кроме malloc. «был разумным компромиссом между программистом и усилием памяти в 1970-х», - вот тема здесь! Прощай.
@kriss: использование количества байтов для длин UTF-8 - единственное, что имеет смысл. По своей сути они являются uint8[] . Вы могли бы иметь длину в терминах кодовых точек, но это не поможет вам - в конце концов, несколько кодовых точек должны быть объединены в некоторых случаях в один глиф (алгоритм для этого может зависеть от таких вещей, как версия Unicode, так ...). В большинстве случаев (например, конкатенация, запись в консоль / поток / файл, ...) вам нужен размер в байтах, а не точка кода. Единственное место, где вам нужны кодовые точки, - это непосредственная работа с высокоуровневыми символами.
@kriss: (продолжение) ... и если вы имеете дело с высокоуровневыми персонажами, вам нужно начать рассматривать версию Unicode и культурные различия. Видите ли, нет ни одной спецификации, которая имеет дело с последним - она требует много знаний, специфичных для предметной области, и подвержена изменениям в случае изменения грамматики [да, это происходит даже искусственно; например, Германия, 1996], или если какая-то ошибка в обращении будет обнаружена. Вам нужна библиотека вроде HarfBuzz. (С другой стороны: действительно, это сводит на нет подавляющее большинство предполагаемых преимуществ UCS-4 / UTF-32)
@Tim Čas: ну, количество байтов часто имеет значение, но не единственное, что имеет смысл. В моем приложении я выполняю рендеринг глифов. В этом случае я должен найти определение глифа из моей строки, и я нахожу правильный глиф, используя кодовую точку (и, конечно, я должен знать текущую полицию). Для таких случаев использования длина символа имеет смысл. Объединение кодовых точек не станет одним глифом, я просто должен нарисовать оба.
@Tim Čas: у меня тоже есть другой вариант использования. Я транскодирую данные из одной системы в другую, а иногда и Avec для преобразования UTF-8 в UTF-16. Знание длины символа помогает определить размер целевой буферной памяти (хорошо, если честно, в этом случае я не хочу длину символа, я просто хочу UTF-16 эквивалентную длину некоторой строки UTF-8. Как в этом случае я действительно работа с подмножеством UTF-16 без расширенной длины символов достаточно хороша для меня).
@kriss: в первом случае кодовых точек по-прежнему недостаточно - вам нужно обрабатывать комбинированные символы. Где вы этого не делаете, вы все равно итерируете по нему (не делаете произвольный доступ), так почему это важно? Что касается транскодирования, конечно, но это очень специфический вариант использования, в то время как подавляющему большинству потребуется длина в байтах, а не кодовая точка.
@Tim Čas: комбинирование символов не является чем-то особенным, они учитываются метриками глифа, по крайней мере, так, как я это делаю. В других случаях использования (разговорный текст?) Все было бы иначе. Мне не нужно знать, будет ли читатель воспринимать результат как один или несколько символов. Я согласен, я не буду делать случайный доступ в этом случае. Длина символа сама по себе не очень полезна. Но легко перебирать по символу, а не по байту. Также на самом деле знание длины байта будет полезно только для копирования полной строки, поэтому я просто хочу получить все это. Меня не волнует длина.
@kriss: Да, для очень и очень широкого определения «метрик глифа». Проверьте сочетание OpenType характера материал --- только базовые показатели не достаточно. И вы можете легко выполнять итерации по символам, не имея .lengthInCharacters . На самом деле языки высокого уровня уже выполняют итерацию таким образом. Что касается полезности длины байта по сравнению с символом, вы забываете тот факт, что смещения и такая работа отлично подходят для нарезки строк (те же проблемы, что и с кодами).
@kriss (продолжение) По сути, вы хотите, чтобы длина байта , а не символа, для (и список неполный): конкатенация строк (включая: печать в консоль, запись в файл, манипулирование строками), поиск строк (это быстрее, чем за -character [который в любом случае преобразуется вниз в байт] и с теми же ограничениями), копии строк (будь то срез или нет; опять же, быстрее, чем на символ), и так далее. Конечно, поиск можно сделать лучше, но для этого нужно выйти за пределы доступа к каждой точке кода и заняться комбинированием символов.
Но это было давно! Почему стандарт не меняется, так что строка имеет 4-байтовый «заголовок Паскаля»?
@muntoo: потому что это сломало бы огромное количество существующего кода на C и C ++.
BASIC имел 4-байтовый заголовок для своей строки; 2-байтовый тип данных и 2-байтовая (unsigned int) длина данных ... но мы не говорим ни о строках Pascal, ни BASIC, так что перестаньте пытаться изменить мир :)
@muntoo: парадигмы приходят и уходят, но устаревший код навсегда. Любая будущая версия C должна будет продолжать поддерживать строки с нулем в конце, в противном случае устаревший код на 30+ лет придется переписать (чего не произойдет). И пока старый способ доступен, это то, что люди будут продолжать использовать, так как это то, с чем они знакомы.
@ Джон Сожги весь старый код. (Распечатай, а потом сожги.);)
@muntoo: Поверь мне, иногда я хотел бы. Но я все же предпочел бы строки с концами 0 вместо строк Паскаля.
Поговорим о наследии ... Строки C ++ теперь должны иметь NUL-концевые символы.
1. +1. 2. Очевидно, что если бы поведение языка по умолчанию было выполнено с использованием префиксов длины, были бы другие способы сделать это проще. Например, все ваши приведения были бы скрыты при вызовах strlen и друзей. Что касается проблемы с «оставлением на усмотрение реализации», вы можете сказать, что префикс - это любой short в целевом блоке. Тогда все ваши кастинги все равно будут работать. 3. Я могу придумывать надуманные сценарии в течение всего дня, которые делают ту или иную систему плохой.
@Billy Суть библиотеки достаточно верна, за исключением того факта, что C был разработан для минимального использования библиотеки или вообще без него. Например, использование прототипов не было обычным делом на ранних этапах. Сказать, что префикс short эффективно ограничивает размер строки, что, похоже, является одной из причин, которой они не увлекались. Я сам, работая с 8-битными строками BASIC и Pascal, строками COBOL фиксированного размера и подобными вещами, быстро стал большим поклонником C-строк неограниченного размера. В настоящее время 32-битный размер будет обрабатывать любую практическую строку, но добавление этих байтов на ранних этапах было проблематичным.
@ Билли: Во-первых, спасибо, Дэниел ... ты, кажется, понимаешь, к чему я клоню. Во-вторых, Билли, я думаю, ты все еще не понимаешь, что здесь делается. Я, например, не спорю о плюсах и минусах префиксов строковых типов данных с их длиной. То , что я говорю, и что Дэниел очень четко подчеркнул, что существует решение , принятое в ходе осуществления C , чтобы не обрабатывать этот аргумент вообще. Строки не существуют в том, что касается базового языка. Решение о том, как обрабатывать строки, оставлено на усмотрение программиста ... и нулевое завершение стало популярным.
+1 мной. Еще одну вещь, которую я хотел бы добавить; структура, как вы предлагаете, пропускает важный шаг к реальному типу string : она не знает символов. Это массив «char» («char» в машинном жаргоне - это такой же символ, как «слово» - это то, что люди называют словом в предложении). Строка символов - это концепция более высокого уровня, которая может быть реализована поверх массива char если вы введете понятие кодирования.
@Frerich Хотя это может быть правдой в наше время, char во время создания C был в значительной степени персонажем. Только недавно усилия изменились, что означает «характер».
@ DanielC.Sobral: Кроме того, структура, которую вы упоминаете, не требует двух выделений. Либо используйте его так, как он есть в стеке (поэтому только buf требует выделения), либо используйте struct string {int len; char buf[]}; и распределить все это одним распределением как элемент гибкого массива, и передать его как string* . (Или, возможно, struct string {int capacity; int len; char buf[]}; по очевидным причинам производительности)
да, наиболее важным моментом, вероятно, является распределение памяти.
+1. Было бы неплохо иметь стандартное место для хранения длины, хотя бы тем из нас, кто хочет что-то вроде префикса длины, не приходилось везде писать тонны «клеевого кода».
Нет никакого стандартного места относительно строковых данных, но вы, конечно, можете использовать отдельную локальную переменную (пересчитывать ее, а не передавать ее, когда последняя не удобна, а первая не слишком расточительна) или структуру с указателем к строке (а еще лучше - флаг, указывающий, «владеет» ли структура указателем для целей выделения или является ли это ссылкой на строку, принадлежащую в другом месте. И, конечно, вы можете включить в структуру гибкий элемент массива для гибкости выделения строка со структурой, когда она вам подходит.
Тогда почему манипулирование строками в C менее эффективно, чем где бы то ни было?
@Billy ONeal: Можете ли вы определить, что вы подразумеваете под «эффективнее, чем где-либо еще»?
Эффективность очень субъективна
@ Билли ОНил, что тут за эффективность? Манипулирование строкой C является настолько эффективным (с точки зрения памяти, сложности скомпилированного кода), насколько это возможно. Что заставляет вас думать, что манипуляции со строками C менее эффективны?
@deemoowoor: Concat: O(m+n) с нулевыми строками, O(n) типично везде. Длина O(n) с нулевыми строками, O(1) везде. Соединение: O(n^2) с нулевыми строками, O(n) везде. В некоторых случаях строки с нулевым символом в конце более эффективны (т. Е. Просто добавляют единицу в регистр указателя), но concat и length являются наиболее распространенными операциями (длина, по крайней мере, требуется для форматирования, вывода файла, отображения на консоли и т. Д.) , Если вы кэшируете длину, чтобы амортизировать O(n) вы просто отметили, что длина должна быть сохранена вместе со строкой.
Я согласен с тем, что в сегодняшнем коде этот тип строки неэффективен и подвержен ошибкам, но, например, для отображения консоли не обязательно знать длину строки, чтобы отобразить ее эффективно, вывод файла не должен был знать о строке длина (только выделение кластера на ходу), и форматирование строки в это время выполнялось с фиксированной длиной строки в большинстве случаев. В любом случае, вы должны писать плохой код, если ваш concat в C имеет сложность O (n ^ 2), я почти уверен, что могу написать один в сложности O (n)
@dvhh: я не сказал n ^ 2 - я сказал m + n - он по-прежнему линейный, но вам нужно искать конец исходной строки, чтобы выполнить конкатенацию, тогда как с префиксом длины поиск не выполняется необходимо. (Это на самом деле просто еще одно следствие длины, требующей линейного времени)
@Billy ONeal: из простого любопытства я сделал grep в моем текущем C-проекте (около 50000 строк кода) для вызовов функций манипуляции со строками. strlen 101, strcpy и варианты (strncpy, strlcpy): 85 (у меня также есть несколько сотен литеральных строк, используемых для сообщений, подразумеваемых копий), strcmp: 56, strcat: 13 (и 6 - это конкатенации строки нулевой длины для вызова strncat) , Я согласен, что префикс длины ускоряет вызовы к strlen, но не к strcpy или strcmp (возможно, если strcmp API не использует общий префикс). Самое интересное, что касается приведенных выше комментариев, это то, что strcat встречается очень редко.
@Billy: Смысл этой публикации является скрытым постоянная в вашей O нотации. Итерирование по символам строки с префиксом длины требует дополнительного регистра, который не требуется при итерации по символам строки с нулевым символом в конце, что означает, что все, что вы пытаетесь сделать со строкой, должно быть реализовано с одним меньшим количеством регистров. , что может повлиять на производительность. Чтобы помочь вам понять, когда я впервые выучил язык ассемблера, он был для микропроцессора, где у вас было только три доступных регистра.
@Hurkyl: Это не правда. В случае нулевого завершения, на каждом шаге сравнения необходимо иметь указатель на строку (1 регистр), загружать символ, на который она указывает (2 регистра), и сравнивать с 0 (3 регистра). В случае с префиксом длины вам нужно сравнить указатель на строку (1 регистр) с указателем на конец строки (2 регистра) и загрузить символ, на который она указывает (снова 3 регистра).
@Billy: Некоторые архитектуры имеют режим немедленной адресации, поэтому вам не нужно загружать 0 в регистр. Некоторые архитектуры имеют специальные регистры, которые всегда равны нулю. Некоторые архитектуры устанавливают нулевой флаг при загрузке символа, поэтому вам даже не нужно делать тест. Некоторые архитектуры имеют инструкции «ветвь, если ноль». И даже если вы не используете ни одну из этих архитектур, вы можете освободить регистр после теста, в отличие от версии с префиксом длины, которая требует от вас сохранить указатель конца строки в регистре (или перезагрузить из памяти, я полагаю, ).
@kriss: я думаю, что strcat встречается редко, потому что это плохо разработанный метод. Если он принимает указатели на начало каждой строки и конец выделенного пространства и возвращает указатель на записанный нулевой байт, он может использоваться безопасно и эффективно без необходимости заранее искать длины строк. Однако, strcat безопасное и эффективное использование strcat обычно требует, чтобы каждый знал длину как строк, так и буфера, а в тех случаях, когда он знает эти вещи, memcpy , как правило, будет более эффективным.
@supercat: забавный факт о strcat (действительно плохо спроектированный) заключается в том, что некоторые современные компиляторы теперь могут правильно оптимизировать его и не будут снова и снова вычислять некоторые скрытые strlen.
@kriss: Думая о строках, я обнаружил, что, зная, что C будет продолжать использоваться в качестве объема памяти, превышающего четыре гигабайта, я мог бы разработать строковый тип, который был бы очень практичным во времена K & R (возможно, даже более того) чем z-строки, так как z-строки часто требуют отдельного целого числа или двух для отслеживания длины строки и / или длины буфера), но остаются практичными сегодня. С другой стороны, нетрудно поверить, что кто-то, пытающийся проектировать строки с префиксом без такого предвидения, мог бы реализовать их ...
... таким образом, что это затруднило бы написание переносимого кода или позволило бы вырастить строки за пределы 255 или 65535 байт. Я не уверен, какое сочетание стилей префикса было бы оптимальным тогда или сейчас, но допускает, например, строку фиксированного размера 0-127 байт с однобайтовым префиксом, буферы переменной длины до 4095 байт с двухбайтовым префиксом или больше с ((sizeof size_t) +1) -байтовым префиксом и т. д., а также с несколькими типами «косвенного указателя» казалось бы практичным сочетанием. Ключом к созданию компактного и переносимого кода будет использование ...
... стандартные библиотечные методы для преобразования строковых указателей в структуры, определяющие местоположение буфера, длину буфера и длину строки, а также для обновления длин хранимых строк. Пользовательский код может затем в основном передавать строковые указатели и, таким образом, неявно передавать длину строки и буфера. Кроме того, если назначение для метода, такого как strcat или sprintf было строкой, выделенной в куче, метод мог бы автоматически корректировать распределение по мере необходимости, что сейчас невозможно.
@supercat: то, что вы описываете, очень похоже на класс C ++ String. Я не вижу ничего, что запрещало бы кодировать некоторый эквивалент C через стандартные библиотечные вызовы (предпочтительно интрикс, потому что скорость часто является проблемой), включая, например, периметр printf и scanf. Конечно, это нечто совершенно отличное от представления C строк, таких как массивы байтов, где двойные кавычки являются просто синтаксическим сахаром и могут вызвать много проблем: такие строки нельзя использовать с нейтральными примитивами манипулирования памятью.
@kriss: Поведение библиотечных методов строго определено в терминах нулевых последовательностей char , поэтому придется использовать методы с другими именами. Самые большие трудности при работе с альтернативными типами связаны со строковыми литералами и библиотечными методами, которые используют строки, но основное назначение которых находится в другом месте (например, fopen ). Можно написать макрос для разрешения, например, ShortString(fred, "My name is Fred"); вывести union { struct { char header; char dat[15];} STRINGREF stringref; } fred = {{30, "My name is Fred"}}; а также с MedString , LongString и т. д.
... или написать метод, который может превратить строку с префиксом длины в char* если она оканчивается нулем (может иметь смысл, чтобы все, кроме самых коротких, по умолчанию заканчивались нулем или, возможно, имели все строки завершается нулем и мирится с потерянным пространством), но это далеко не так хорошо, как возможность использовать строковые литералы в строке.
@kriss: Кроме того, я вижу, что мой подход немного отличается от класса C ++ String, поскольку большинство переменных строкового буфера будут объявлены с использованием MedString(george,255); в области объявления [объявить строковый буфер с двухбайтовым префиксом и местом для 255 символов]. Для действительно раннего C, отдельный InitMedString(george); шаг будет необходим в исполняемой области [существующие компиляторы C допускают char george[256]; strcpy(george,whatever); без предварительной инициализации Джорджа, но по моей схеме обычный метод копирования строк проверял бы длину назначения перед продолжением.
@kriss: большинство реализаций класса C ++ String предназначены для использования в первую очередь хранимых в куче строк переменной длины, которые для большинства целей более дороги, чем предварительно выделенные строковые буферы фиксированной длины. Что отличает мой подход от C, так это то, что я бы включил текущую и максимальную длину в строковые данные таким способом, который эффективен для коротких, средних и длинных строк.
@supercat: не совсем, посмотрите на некоторые реализации. Короткие строки используют буфер на основе короткого стека (без выделения кучи), куча используется только тогда, когда они становятся больше. Но не стесняйтесь представить реальную реализацию вашей идеи как библиотеки. Обычно проблемы проявляются только тогда, когда мы добрались до деталей, а не в общем дизайне.
Я знаю об оптимизации коротких строк, но она требует, чтобы у всех экземпляров строки в глобальном масштабе было одинаковое количество «на месте» выделения; нет никакого способа объявить переменную как резервирующую 127 символов "на месте". Что касается публикации реализации, где мне лучше всего это сделать?
Эээ .. нет, это не так. Подход C вообще не позволяет назначать строку длиной 7 символов для строки длиной 3 символа.
@Billy ONeal: почему бы и нет? Насколько я понимаю, в этом случае все строки имеют одинаковый тип данных (char *), поэтому длина не имеет значения. В отличие от Паскаля. Но это было ограничением Паскаля, а не проблемой строк с префиксом длины.
@ Билли: Я думаю, что вы только что изложили точку зрения Кристиана. С занимается этими вопросами, вообще не решая их. Вы все еще думаете на языке C, на самом деле содержащем понятие строки. Это просто указатель, так что вы можете назначить его как угодно.
@calavera: я не вижу, как это доказывает что-либо. Вы можете решить это таким же образом с префиксом длины ... т.е. вообще не разрешать назначение.
Я не вижу ничего более примитивного в строках с нулевым символом в конце, чем все остальное. Паскаль предшествует C и использует префикс длины. Конечно, он был ограничен 256 символами на строку, но простое использование 16-битного поля решило бы проблему в подавляющем большинстве случаев.
Тот факт, что количество символов ограничено, является именно тем типом проблем, о которых вам нужно подумать, когда вы делаете что-то подобное. Да, вы можете сделать это длиннее, но тогда байты имели значение. И будет ли 16-битное поле достаточно длинным для всех случаев? Да ладно, вы должны признать, что нулевой термин является концептуально примитивным.
Либо вы ограничиваете длину строки, либо ограничиваете содержимое (без нулевых символов), либо вы соглашаетесь с дополнительными издержками в количестве от 4 до 8 байтов. Там нет бесплатного обеда. На момент начала нулевая завершенная строка имела смысл. В сборке я иногда использовал верхний бит символа, чтобы отметить конец строки, сохранив еще один байт!
Точно, Марк: Там нет бесплатного обеда. Это всегда компромисс. В наши дни нам не нужно идти на подобные компромиссы. Но тогда этот подход казался таким же хорошим, как и любой другой.
Проблема в том, что библиотеки не знают о существовании вашей структуры и по-прежнему неправильно обрабатывают такие вещи, как встроенные нули. Кроме того, это на самом деле не отвечает на вопрос, который я задал.
Это правда. Таким образом, большая проблема заключается в том, что нет лучшего стандартного способа предоставления интерфейсов со строковыми параметрами, чем простые старые строки с нулевым окончанием. Я бы по-прежнему утверждал, что есть библиотеки, которые поддерживают подачу пар длины указателя (ну, по крайней мере, вы можете создать из них строку std :: string C ++).
Даже если вы храните длину, вы никогда не должны разрешать строки со встроенными нулями. Это основной здравый смысл. Если ваши данные могут содержать нули, вы никогда не должны использовать их с функциями, которые ожидают строки.
@R ..: многим приложениям необходимо передавать байтовые последовательности произвольной длины. Типы строк, не зависящие от данных, часто хорошо работают для этой цели. В то время как некоторые могут назвать это «злоупотреблением», разработчики языка считают избыточным тип строки двоичных данных, не зависящих от данных, и тип двоичных данных переменного размера.
@supercat: С точки зрения безопасности, я бы приветствовал эту избыточность. В противном случае неосведомленные (или лишенные сна) программисты заканчивают тем, что объединяют двоичные данные и строки и передают их в вещи, которые ожидают [завершенные нулем] строки ...
@R ..: Хотя методы, которые ожидают строки с нулевым символом в конце, обычно ожидают char* , многие методы, которые не ожидают нулевого завершения, также ожидают char* . Более существенное преимущество разделения типов будет связано с поведением Unicode. Может быть целесообразно, чтобы реализация строки поддерживала флаги того, известно ли, что строки содержат определенные виды символов, или известно, что они не содержат их [например, обнаружение 999 990-й кодовой точки в строке из миллиона символов, которая, как известно, не содержит любые символы за пределами основной многоязычной плоскости будут на порядки быстрее ...
... чем найти 999 990-ую кодовую точку строки, которая может содержать такие символы]. Однако такие флаги были бы бесполезны для строк, которые использовались для хранения упакованных двоичных данных. Кроме того, часто необходимо сериализовать строки, используя кодировку, отличную от их внутреннего хранилища, но двоичные данные, как правило, должны сериализоваться независимо от содержимого. Жаль, что ни в Java, ни в .NET нет типа «blob».
А? Какие «быстрые операции с указателями» не работают с префиксом длины? Что еще более важно, другие языки, которые используют префикс длины, работают быстрее, чем манипуляции со строками.
@billy: Со строками с префиксом длины вы не можете просто взять указатель на строку и добавить 4 к нему, и ожидать, что он все еще будет действительной строкой, потому что у нее нет префикса длины (в любом случае, не является действительным).
@Jorgen: Ладно, ты не можешь быстро отключить начало. Но вы можете делать все остальное (то есть, подкачку, сдвиг, memcpy, memmove и т. Д.) Без затруднений.
@Billy ONeal: все эти операции (swapping, memcpy, memmove) имеют одинаковую сложность времени для строк ASCIIZ. Не уверен, что вы подразумеваете под «сдвигом». Единственная модификация строки с худшей временной сложностью для строк ASCIIZ - это удаление суффикса, который равен O (1) для строк с префиксом длины.
@j_random_hacker: конкатенация намного хуже для строк asciiz (O (m + n) вместо потенциально O (n)), и concat встречается гораздо чаще, чем любые другие операции, перечисленные здесь.
@Billy: чтобы сделать возможным использование concat за O (n), вам также необходимо сохранить размер зарезервированной памяти. Также это не асимптотическая сложность, так как для больших n вы должны перераспределить всю строку.
есть одна маленькая операция, которая становится более дорогой для строк с нулевым символом в конце: strlen . Я бы сказал, что это небольшой недостаток.
@ybungalobill: Моя точка зрения заключается в том, что все остальные используют префикс длины, и все остальные работают быстрее, чем C, в строковых операциях, несмотря на то, что они работают медленнее всего. Меня не волнует теоретическая сложность, меня больше волнует типичное использование программы.
@Billy ONeal: все остальные также поддерживают регулярные выражения. И что ? Используйте библиотеки, для которых они созданы. С о максимальной эффективности и минимализме, не включая батареи. Инструменты C также позволяют очень легко реализовать длину строки с префиксом, используя структуры. И ничто не запрещает вам реализовывать программы для работы со строками, управляя собственной длиной и буферами символов. Это обычно то, что я делаю, когда я хочу повысить эффективность и использовать C, не вызывая горстку функций, которые ожидают ноль в конце буфера символов, не проблема.
@kriss: есть много что сказать о том, что стандартное поведение, хотя. Библиотеки будут нуждаться в «стандартных» интерфейсах для строк, поэтому, если вы пишете свои собственные структуры / библиотеки, вы в конечном итоге пишете тонны клея.
@Jorgen: В C, если вы возьмете строковый указатель и добавите к нему 4, вы получите недопустимую строку, если длина исходной строки меньше 4. Итак, нет, математика указателя не гарантированная правильная операция.
Кого волнует стандартное поведение? Если вы боитесь, что вы все испортите, просто напишите поверх него структуру оболочки (mystring).
@Mike: конечно, цифра 4 была произвольной. Предположим, вы нашли последний \ в позиции 4 внутри строки, и вам просто нужно имя файла, а не весь путь. В этом случае filename = path + 4 . Вам не нужно создавать новую строку перед передачей ее другой функции, которая ожидает строку. Это была моя точка зрения. :)
Пока ваш алгоритм не предполагает, что он всегда находит \. Тем не менее, некоторые другие операции пути (извлечение пути к файлу, извлечение имени файла без суффикса типа) по-прежнему требуют копий. Я не думаю, что этого достаточно, чтобы противодействовать тому, что вы можете протолкнуть всю программу размером 4 МБ через имя файла с помощью эксплойта с переполнением буфера, тогда как в однобайтовой системе независимо от того, что будет 255-байтным предел.
Я полагаю, что обратился ко всему этому в вопросе. Да, на платформах x64 32-битный префикс не может вместить все возможные строки. С другой стороны, вам никогда не нужно, чтобы строка была такой же большой, как строка с нулевым символом в конце, потому что для того, чтобы что-то сделать, вам нужно изучить все 4 миллиарда байтов, чтобы найти конец почти для каждой операции, которую вы можете захотеть сделать с ней. Кроме того, я не говорю, что строки с нулевым символом в конце всегда являются злом - если вы строите одну из этих блочных структур, и ваше конкретное приложение ускоряется подобной конструкцией, продолжайте. Я просто хотел бы, чтобы поведение языка по умолчанию не делало этого.
Я процитировал эту часть вашего вопроса, потому что, на мой взгляд, он недооценил проблему эффективности. Удвоение или увеличение требований к памяти (на 16-битной и 32-битной памяти соответственно) может привести к значительным потерям производительности. Длинные строки могут быть медленными, но, по крайней мере, они поддерживаются и продолжают работать. Мой другой вопрос, о выравнивании, вы вообще не упоминаете.
С выравниванием можно справиться, указав, что значения за пределами UCHAR_MAX должны вести себя так, как если бы они были упакованы и распакованы с использованием доступа к байтам и сдвига битов. Соответствующим образом разработанный тип строки может предложить эффективность хранения, по существу сопоставимую с строками с нулевым символом в конце, и в то же время разрешить проверку границ для буферов без дополнительных затрат памяти (используйте один бит в префиксе, чтобы сказать, заполнен ли буфер); это не так, и последний байт ненулевой, этот байт будет представлять оставшееся пространство. Если буфер не заполнен, а последний байт равен нулю, то последние 256 байт будут неиспользованными, так что ...
... в этом пространстве можно хранить точное количество неиспользуемых байтов с нулевой стоимостью дополнительной памяти). Стоимость работы с префиксами будет компенсирована возможностью использовать такие методы, как fgets () без необходимости передавать длину строки (поскольку буферы будут знать, насколько они велики).
Префикс может легко иметь размер, определенный реализацией, так же как и sizeof(char) .
@BillyONeal: sizeof(char) один. Всегда. Можно иметь префикс, определяемый размером реализации, но это будет неудобно. Кроме того, нет никакого реального способа узнать, каким должен быть «правильный» размер. Если один содержит много 4-символьных строк, заполнение нулями будет накладывать 25% накладных расходов, в то время как префикс длины в четыре байта будет накладывать 100% накладных расходов. Кроме того, время, потраченное на упаковку и распаковку четырехбайтовых префиксов длины, может превысить стоимость сканирования 4-байтовых строк на нулевой байт.
О да. Ты прав. Префикс может легко быть чем-то иным, чем char, хотя. Все, что могло бы привести в соответствие требования выравнивания на целевой платформе, было бы хорошо. Я не пойду туда, хотя - я уже доказывал это до смерти.
Если предположить, что строки имеют префикс длины, то, вероятно, самым разумным будет префикс size_t (чертовски бесполезная трата памяти, это был бы самый разумный - разрешающий строки любой возможной длины, которые могли бы поместиться в памяти). На самом деле, это то, что делает D; массивами являются struct { size_t length; T* ptr; } , а строки - это просто массивы immutable(char) .
@ TimČas: Если строки не должны быть выровнены по словам, стоимость работы с короткими строками на многих платформах будет зависеть от необходимости упаковки и распаковки длины; Я действительно не считаю это практичным. Если кто-то хочет, чтобы строки были независимыми от содержимого байтовыми массивами произвольного размера, я думаю, что было бы лучше хранить длину отдельно от указателя на символьные данные и иметь язык, позволяющий получать обе части информации для буквенных строк. ,
@supercat: я смущен тем, что вы имеете в виду; Реализация D выше имеет отдельный указатель, и вы можете получить к нему доступ через str.ptr . Сама структура передается по значению (в терминах C: это ARRAY(char) foo; а не ARRAY(char)* foo; ).
@ TimČas: Извините - я прочитал, что вы используете «префикс» как ссылку на длину, сохраненную в памяти, непосредственно предшествующую самим символам , поскольку вы сказали «что-то вроде» того, что делает D, я думал, что вы ожидаете, что строки будут чем-то вроде struct {size_t length; char text[]; }
@supercat: Ах нет; это символ * по разным причинам, включая нарезку. Например, вы можете сделать это: str[5..10] , который вычисляет новый массив { .length = 10 - 5; .ptr = old_ptr + 5; } Это также работает с «простыми» указателями T* и используется для преобразования обратно из указателей в массивы: ptr[0..len]
@ TimČas: Это хороший формат, но я бы не назвал его префиксом длины. Системы, которые я бы описал как использующие «префикс длины» (например, классическая ОС Macintosh или Turbo Pascal на ПК), сохраняют длину, непосредственно предшествующую тексту строки.
@supercat: Действительно. Следовательно, «вид» - не совсем то же самое, но достижение (в основном; на самом деле немного больше) того же эффекта.
Смотри, я уважаю Джоэла за многие вещи; но это то, что он спекулирует. Ответ Ханса Пассанта исходит непосредственно от изобретателей Си.
Да, но если то, что говорит Спольский, вообще верно, то это было бы частью «удобства», о котором они говорили. Отчасти поэтому я включил этот ответ.
.ASCIZ был просто оператором ассемблера для построения последовательности байтов, за которой следовал 0 . Это просто означает, что строка с нулем в конце была хорошо известной концепцией в то время. Это не означает, что строки с нулевым символом в конце были чем-то связанным с архитектурой PDP- *, за исключением того, что вы могли писать плотные циклы, состоящие из MOVB (копировать байт) и BNE (ветвь, если последний скопированный байт не был нулевым).
Предполагается показать, что C старый, дряблый, дряхлый язык.
Нет ничего, что могло бы помешать char* arr указывать на структуру вида struct { int length; char characters[ANYSIZE_ARRAY] }; или подобный, который все еще мог бы быть проходимым как единственный параметр.
@BillyONeal: две проблемы с этим подходом: (1) Это позволило бы только передать строку целиком, тогда как настоящий подход также позволяет передавать хвост строки; (2) он будет тратить значительное пространство при использовании с небольшими струнами. Если бы K & R захотели потратить некоторое время на струны, они могли бы сделать вещи намного более надежными, но я не думаю, что они предполагали, что их новый язык будет использоваться через десять лет, а тем более - сорок.
@BillyONeal: я набросал то, что, по-моему, могло бы быть лучшим дизайном для строк в C (и, вероятно, все равно было бы хорошим дизайном для встроенных систем, если не возражать запускать код через препроцессор для преобразования строковых литералов в подходящие префиксные массивы символов.
Структура информации о строке выглядит несколько волшебно в примере. Будет ли он полагаться на некоторый глобальный скрытый массив или будет иметь полное изменение значения символа char * (то есть: только указатель на массив, который больше не имеет значения в качестве указателя на отдельный символ?). До сих пор неясно, что предлагается для новой реализации catr. Не могли бы вы уточнить немного больше.
@kriss: не требуется никакой магии, поведения, зависящего от реализации, глобальных переменных и т. д. Первый байт каждого заголовка строки будет идентифицировать цель как строку нулевой длины, строку длиной 1-63 байта, буфер байтов размером 1-63, по крайней мере, с одним пустым байтом, более длинную строку или буфер, который будет использовать больше байтов. хранить его длину или struct SUBSTRING_INFO { unsigned char mflag; struct SUBSTRING_INFO inf; } [если последнее, mflag установит значение байта, которое идентифицирует SUBSTRING_INFO ].
@kriss: последний байт, используемый для хранения размера, будет использовать один бит, чтобы указать, была ли цель строкой или не полным буфером. Для незаполненного буфера последний байт будет указывать, было ли свободно 1-255 байт или что непосредственно предшествующие байты будут указывать, сколько свободного места было свободно. Структура STRING_INFO будет иметь вид char *dat; stringsize_t length,buffsize; , Функция get_string_info будет смотреть на цель и загружать значения STRING_INFO соответствующим образом (если целью является SUBSTRING_INFO она будет копировать значения из нее).
@kriss: были бы некоторые компромиссы между переносимостью и скоростью, но даже полностью переносимая версия, вероятно, превзошла бы строки с нулевым символом в большинстве сценариев использования; в то время как тот факт, что strcpy () не нужно заранее знать длину строк, дает ему преимущество для коротких строк, он должен тратить больше времени на каждый байт, чем memcpy - иногда намного дольше. Я предполагаю, что версия моей библиотеки, которая была ограничена строками байтов INT_MAX [независимо от того, что случилось на данной платформе] и была настроена для этого размера, будет превосходить ...
... строки C с нулевым символом в конце практически на любой платформе, для почти любой операции, включающей более дюжины символов или около того [точка безубыточности будет зависеть от операции]. Любая идея, если бы было хорошее место, чтобы опубликовать это? Это становится немного не по теме здесь.
@supercat: Понятно, но я не уверен, что согласен. Это действительно может быть в языке, но не как char * а как совершенно другой тип. Это может быть какая-то предопределенная структура (назовем это «строка»). На самом деле это может быть тип того, что помещается между двойными кавычками вместо символа *. То, что вы предлагаете, сильно напоминает мне Струны Паскаля. Если бы Паскаль все еще был там, было бы не трудно заставить их развиваться таким образом.
@kriss: я предполагал, что unsigned char* вместо char* указывает на строковые заголовки. С точки зрения языка можно сказать, что строковые литералы будут иметь два представления в зависимости от длины. Для длины до UCHAR_MAX/4 сохраните длину, за которой следует текст; вернуть указатель на длину. Для большей длины выделите выровненный unsigned , за которым UCHAR_MAX байт UCHAR_MAX , за которым следует текст; вернуть указатель на байт UCHAR_MAX . Таким образом, любой строковый литерал будет давать указатель на значение 0-UCHAR_MAX/4-1 или же UCHAR_MAX .
@kriss: я не думаю, что "буфер символов начинается с целого, содержащего длину", более волшебно, чем "конец буфера символов заканчивается этим специальным символом"
@BillyONeal: Что вы думаете об идее использования байта или байта int + в начале строкового буфера, чтобы указать его длину, а также, является ли это фиксированной строкой, переполненным строковым буфером с изменяемым размером или изменяемым размером строковый буфер заполнен меньше чем? Можно использовать разные значения байтов флага для включения индикатора длины нескольких размеров, но добавление четырех или даже восьми байтов к 64-символьным строкам будет незначительным расходом по сравнению с добавлением даже двух дополнительных байтов к четырехсимвольной строке.
@supercat: Я думаю, что такой дизайн был бы непрактичным в 1975 году по причинам размера кода. Сейчас? Без понятия. Нужно было бы проверить, чтобы быть уверенным.
@BillyONeal: выбор оптимального компромисса между скоростью, размером данных и размером кода был бы непростым делом (и вполне вероятно, что кто-то, пытавшийся сделать это в 1975 году, установил бы трудно исправимые архитектурные ограничения), но я думаю, что хорошая хорошо написанная строковая библиотека могла бы уменьшить общий код приложения и размер данных даже в 1975 году, избегая необходимости в приложениях отдельно отслеживать длину буфера, длину строки и содержимое строки, а также позволяя эффективные операции с подстроками (а не только хвосты).
@supercat: единственная проблема заключается в том, что нарушается семантика unsigned char * или char * . Оба они могут быть указателями на один или несколько последовательных символов, что мы привыкли называть «строками». Это реальная причина, по которой нужен новый выделенный тип строки.
@BillyONeal: конечно, либо добавление префикса (один байт или немного более сложный, как предлагает суперкат), либо добавление специального завершающего байта, когда мы используем синтаксис двойной кавычки, являются магическим поведением. Мы все знаем, что первое поведение было выбрано Паскалем, в то время как второе было выбрано C. Единственная реальная точка зрения в том, что если мы выбираем первый вариант с префиксом, это уже не char * а немного более сложный объект, лучше всего описываемый структура на языке Си. Конечно, эта структура может быть предопределена как «строка» и добавлены библиотечные функции. Нет необходимости ломать систему типов C для этого.
@kriss: Основное преимущество выбора второго варианта состоит в том, что если у вас есть указатель на строку, которая, как известно, содержит по крайней мере n символов, можно легко получить указатель на строку, содержащую часть после n-го символа. С другой стороны, если кто-то использует префикс и оставляет некоторые значения зарезервированными , и желает использовать вызов подпрограммы, прежде чем получить доступ к символам из строки, можно получить множество возможностей, включая возможность передавать ссылку на произвольную часть строка [не только хвост], проверка границ и т. д. Наличие такой вещи, как языковая особенность ...
... было бы полезно, так как объявление string[23] foo; может позволить компилятору не только выделить 24 байта для foo но и инициализировать первое слово, чтобы идентифицировать его как пустой 23-байтовый буфер. В противном случае использование буферов с проверкой границ потребовало бы, чтобы в пользовательском коде использовались отдельные методы для «сохранения строки в унифицированном буфере, который, как известно, достаточно велик» и «сохранения строки в буфере с проверкой границ» - немного неприятно. -или еще макрос для инициализации буферов перед использованием. Тем не менее, я считаю очень прискорбным, что усилия по экономии нескольких байтов ...
... на оборудовании PDP-серии сохранились десятилетия спустя, на платформах, где они уже не реально экономят много [и, фактически, накладывают дополнительные расходы на любой код, который хочет быть безопасным].
Этот бит о соглашении о вызовах - это просто история, не имеющая отношения к реальности ... она не учитывалась в дизайне. И соглашения о вызовах на основе регистров уже были «изобретены». Кроме того, подходы, такие как два указателя, не были опцией, потому что структуры не были первого класса ... только примитивы были назначаемыми или проходимыми; копирование структуры не дошло до UNIX V7. Необходимость в memcpy (который также не существует) просто для копирования указателя строки - шутка. Попробуйте написать полную программу, а не только изолированные функции, если вы делаете вид, что создаете язык.
«это скорее всего потому, что они не хотели тратить много сил на обработку строк» - ерунда; вся область приложения ранней UNIX была обработкой строк. Если бы не это, мы бы никогда не услышали об этом.
«Я не думаю, что« символьный буфер начинается с int, содержащего длину », больше не волшебно» - это если вы собираетесь заставить str[n] обращаться к правильному символу. Это те вещи, о которых люди, обсуждающие это , не задумываются .
@JimBalter: То, что C действительно должно было бы заставить работать со строкой, как я описываю, было бы синтаксисом средства для запроса выделения структуры, за которым следуют дополнительные n элементов последнего типа или объявленного в нем массива. Тогда можно объявить struct TINYSTR { unsigned char head; char dat[0]; } struct MEDSTR { unsigned int head; char dat[0];} и struct LONGSTR {unsigned long head; char dat[0]; } и struct ISTRING {char *ptr; unsigned int length; unsigned int alloc; unsigned head; char dat[0];}, and given an initialized variable v` любого из этих типов, передайте v.dat строковым методам.
@JimBalter: Поддержка VLA была бы простой [не беспокойтесь об отклонении массивов нулевого размера и не допуская синтаксиса для запроса выделения большего размера, чем обычно], и это избавило бы от кода, который должен был сойтись с отсутствием поддержки. Однократная инициализация заголовка буфера устранит необходимость дальнейшей передачи размера буфера в методы обработки строк. Код, который хочет передать произвольную часть строкового буфера (а не только хвост), может создать ISTRING и передать указатель на его поле dat[] . В любом случае самое важное наблюдение ...
... в том, что K & R основывала конструкцию C на наборах команд, таких как серия PDP, где доступ к указателю был дешевле, чем индексирование в массив, а передача указателя в массив была дешевле, чем передача base и index по отдельности. На многих платформах ни одно предположение все еще не выполнено. Передача base + index означает, что можно использовать проверку границ или нет, как считает нужным, в то время как передача одного указателя исключает эту возможность. Лично я предпочел бы иметь возможность проверять границы массивов, чем решать, что любой ошибочный доступ к массиву будет просто иметь необратимый UB.
K & R не основывал C на наборе команд PDP; Ричи опроверг этот слух в печати. В любом случае это не имеет значения, потому что этот вопрос был о том, почему в дизайне C использовались строки, оканчивающиеся NUL, и о неоднократном утверждении OP, что это был «худший» дизайн. Остальные комментарии выше также не имеют значения, особенно тот, что касается VLA. Теперь ТАК мудро советует нам избегать длительных обсуждений ...
@JimBalter: Не могли бы вы отрицать, что дизайн C и его библиотек во многом основан на идее, что *dest++ = *src++; будет быстрее чем dest[i]=src[i]; ? Основная идея первой части моего ответа - и если вы можете указать мне на исторические ссылки, чтобы помочь мне исправить любые неточности, которые были бы велики, - это то, что C разработан вокруг концепции передачи указателей в середины массивов, без каких-либо средств для получателя знать что-либо о массивах, в которых они появляются, и это, в свою очередь, мотивируется тем, что указатель доступа быстрее, чем индексированный доступ. Вы не согласны?
Это просто неправильно. "abcd" требует пять байтов (из-за завершающего нулевого байта) и не помещается в char[4] .

Hans Passant · Accepted Answer · 2010-12-11T21-03-00.000Z

Из лошадиного устья

Нет поддержки BCPL, B или C символьных данных в язык; каждый трактует строки много как векторы целых чисел и дополняет общие правила несколькими конвенций. Как в BCPL, так и в B a Строковый литерал обозначает адрес статическая область, инициализированная символы строки, упакованные в клетки. В BCPL первый упакованный байт содержит количество символов в Струна; в B нет счета и строки заканчиваются специальный символ, который B пишется *e. Это изменение было сделано частично во избежание ограничения длины строки, вызванной счет в 8- или 9-битном слоте и отчасти потому, что поддержание счета казалось, по нашему опыту, меньше удобно, чем использование терминатора.

_{Деннис М Ричи, разработка языка C}

Другая релевантная цитата: «... семантика строк полностью подчиняется более общим правилам, регулирующим все массивы, и в результате язык проще описать ...»