Почему оператор стрелки (->) в C существует?

Question

Почему оператор стрелки (->) в C существует?

219

Оператор dot (.) используется для доступа к члену структуры, а оператор стрелки (->) в C используется для доступа к члену структуры, на который ссылается данный указатель.

В самом указателе нет элементов, к которым можно получить доступ с помощью оператора точки (это фактически только номер, описывающий местоположение в виртуальной памяти, так что у него нет каких-либо членов). Таким образом, не было бы никакой двусмысленности, если бы мы просто определили оператор точки, чтобы автоматически разыменовать указатель, если он используется на указателе (информация, которая известна компилятору во время компиляции afaik).

Итак, почему создатели языка решили усложнить ситуацию, добавив этот, казалось бы, ненужный оператор? Что такое большое дизайнерское решение?

Askaga 13 нояб. 2012, в 17:19

Источник

1

Связанный: stackoverflow.com/questions/221346/… - также вы можете переопределить ->
Krease 13 нояб. 2012, в 18:00
14

@Cris Это касается C ++, что, конечно, имеет большое значение. Но так как мы говорим о том, почему C был разработан таким образом, давайте представим, что мы вернулись в 1970-е годы - до того, как появился C ++.
Mysticial 13 нояб. 2012, в 18:02
4

Мое лучшее предположение состоит в том, что оператор стрелки существует, чтобы визуально выразить «смотрите это! Вы имеете дело с указателем здесь»
Chris 13 нояб. 2012, в 18:04
4

С первого взгляда я чувствую, что этот вопрос очень странный. Не все вещи продуманно разработаны. Если вы сохраните этот стиль на всю жизнь, ваш мир будет полон вопросов. Ответ, получивший большинство голосов, действительно информативен и понятен. Но это не затрагивает ключевой момент вашего вопроса. Следуйте стилю вашего вопроса, я могу задать слишком много вопросов. Например, ключевое слово int является аббревиатурой от integer; почему ключевое слово "double" также не будет короче?
junwanghe 11 дек. 2012, в 06:54
1

@junwanghe Этот вопрос на самом деле представляет собой серьезную проблему - почему . оператор имеет более высокий приоритет, чем оператор * ? Если это не так, мы могли бы иметь * ptr.member и var.member.
milleniumbug 18 дек. 2012, в 20:30
0

. и -> операторы представляют совершенно разные операции. Первый указывает на смещение, известное во время компиляции. Последний разыменовывает указатель во время выполнения и затем применяет смещение. Разыменование указателя может вызвать неопределенное поведение (и привести к сбою и т. Д.). Выражая оба с. скрывает разницу и делает код более трудным для чтения и более подверженным ошибкам.
martinkunev 11 сен. 2014, в 15:26

Показать ещё 4 комментария

Теги:

c

pointers

dereference

3 ответа

40

Помимо исторических (хороших и уже сообщаемых) причин, есть также небольшая проблема с приоритетом операторов: оператор точки имеет более высокий приоритет, чем оператор звезды, поэтому, если у вас есть структура, содержащая указатель на структуру, содержащую указатель на структуру... Эти два эквивалентны:

(*(*(*a).b).c).d

a->b->c->d

Но вторая, очевидно, более читаема. Оператор Arrow имеет наивысший приоритет (точно так же, как точка) и сопоставляет слева направо. Я думаю, что это яснее, чем использовать оператор-точка как для указателей на struct и struct, потому что мы знаем тип из выражения, не должны смотреть на объявление, которое может быть даже в другом файле.

effeffe 13 нояб. 2012, в 18:50

2

С вложенными типами данных, содержащими как структуры, так и указатели на структуры, это может усложнить задачу, поскольку вы должны подумать о выборе правильного оператора для каждого доступа к подчиненному элементу. Вы можете получить ab-> c-> d или a-> bc-> d (у меня была эта проблема при использовании библиотеки freetype - мне нужно было постоянно искать ее исходный код). Также это не объясняет, почему компилятору не разрешается автоматически разыменовывать указатель при работе с указателями.
Askaga 13 нояб. 2012, в 18:38
0

@BillAskaga: ну, я не думаю, что это сложнее понять, чем все эти скобки, но, возможно, это просто вопрос вкуса. Во всяком случае, нет необходимости в причине, почти все на языке может быть сделано по-другому, я просто попытался сказать, почему оператор полезен. Не все строго необходимо, мы могли бы даже жить без выключателя или для, но они полезны.
effeffe 13 нояб. 2012, в 18:45
0

Почему отрицательный голос? Пожалуйста, оставьте комментарий.
effeffe 25 нояб. 2012, в 11:42
2

Хотя изложенные вами факты верны, они никак не отвечают на мой первоначальный вопрос. Вы объясняете равенство a-> и * (a). примечания (которые уже были объяснены несколько раз в других вопросах), а также дают смутное утверждение о том, что дизайн языка является несколько произвольным. Я не нашел ваш ответ очень полезным, поэтому отрицательный голос.
Askaga 28 нояб. 2012, в 20:13
0

@BillAskaga: моя точка зрения не в равенстве двух разных форм, а в возможном преимуществе оператора стрелки, и ваш вопрос был о том, почему это было добавлено в язык. Но если вы ищете доказанную историческую причину, да, мой ответ не может это обеспечить. Спасибо, что вернулись, чтобы объяснить ваше решение в любом случае.
effeffe 28 нояб. 2012, в 20:35
14

@effeffe, ОП говорит, что язык мог бы легко интерпретировать abcd как (*(*(*a).b).c).d , что делает оператор -> бесполезным. Таким образом, версия OP ( abcd ) одинаково читаема (по сравнению с a->b->c->d ). Вот почему ваш ответ не отвечает на вопрос ОП.
Shahbaz 04 июнь 2013, в 09:11
0

@ Shahbaz Хм, да, наверное, единственная важная часть моего ответа - последний, но он все еще немного произвольный. Я слишком поздно понял вопрос.
effeffe 04 июнь 2013, в 11:38
3

@Shahbaz Это может быть случай для программиста java, программист C / C ++ будет понимать abcd и a->b->c->d как две совершенно разные вещи: первая - это доступ к вложенному подобъекту с помощью одной памяти (в данном случае существует только один объект памяти), второй - три обращения к памяти, преследующие указатели через четыре вероятных различных объекта. Это огромная разница в разметке памяти, и я считаю, что Си прав в различении этих двух случаев очень наглядно.
cmaster 17 окт. 2017, в 08:45
1

@cmaster, насколько я с вами оскорбляю Java-программистов, ваш аргумент не очень хороший. Например, в случае a + b существует огромная разница в производительности, если a и b являются int s или float s, особенно там, где нет FPU. Должен ли C проводить синтаксическое различие между int plus и float plus? Как насчет запрета целочисленного продвижения, потому что это скрытый mov ? Дело в том , что ab могут сделать работу как ab и a->b в зависимости от того является указателем или нет. a Здесь нет никакой двусмысленности.
Shahbaz 17 окт. 2017, в 14:56
1

@cmaster, и ты не получаешь ничего от различий. Если вы пишете ab а компилятор выдает ошибку, говоря, что a является указателем, вы вдруг передумаете, потому что a->b дороже и реструктуризируете свой код, возможно, написав макрос, чтобы избежать передачи указателя на функцию или передачу структура по значению? Или вы просто измените ab на a->b и снова скомпилируете?
Shahbaz 17 окт. 2017, в 14:58
1

@ Shahbaz Я не имел в виду, что как оскорбление программистов на Java они просто привыкли к языку с полностью неявными указателями. Если бы я вырос как программист java, я бы, наверное, думал так же ... Во всяком случае, я действительно считаю, что перегрузка операторов, которую мы видим в C, не оптимальна. Однако я признаю, что все мы были избалованы математиками, которые щедро перегружают своих операторов практически всем. Я также понимаю их мотивацию, так как набор доступных символов довольно ограничен. Я думаю, в конце концов, это просто вопрос, где вы рисуете линию ...
cmaster 17 окт. 2017, в 15:33
1

@ Shahbaz вы получаете немного безопасности, когда вы разыменовываете указатели, вы должны убедиться, что вы не разыменовываете нуль-указатели. abcd гарантированно будет успешным, пока a полностью сформирован (инициализирован). a-> b-> c-> d будет сегфо, если любой из a, b, c равен нулю. В качестве альтернативы a-> bc-> d скажет вам, где вы делаете косвенный доступ к памяти.
pruzinat 27 сен. 2018, в 13:30

Показать ещё 10 комментариев

18

C также хорошо справляется с тем, что он не делает ничего двусмысленного.

Конечно, точка может быть перегружена, чтобы означать обе вещи, но стрелка гарантирует, что программист знает, что он работает с указателем, так же, как когда компилятор не позволит вам смешивать два несовместимых типа.

mukunda 03 дек. 2014, в 04:57

4

Это простой и правильный ответ. C в основном старается избегать перегрузок, а IMO - одна из лучших вещей в C.
jforberg 14 сен. 2015, в 11:51
3

Многое в С неоднозначно и нечетко. Существуют неявные преобразования типов, математические операторы перегружены, цепная индексация делает что-то совершенно другое в зависимости от того, индексируете ли вы многомерный массив или массив указателей, и все, что угодно, может быть макросом, скрывающим что-либо (соглашение об именовании в верхнем регистре помогает, но C не делает этого) т).
PSkocik 13 июнь 2018, в 11:28

Ещё вопросы

Связанный: stackoverflow.com/questions/221346/… - также вы можете переопределить ->
@Cris Это касается C ++, что, конечно, имеет большое значение. Но так как мы говорим о том, почему C был разработан таким образом, давайте представим, что мы вернулись в 1970-е годы - до того, как появился C ++.
Мое лучшее предположение состоит в том, что оператор стрелки существует, чтобы визуально выразить «смотрите это! Вы имеете дело с указателем здесь»
С первого взгляда я чувствую, что этот вопрос очень странный. Не все вещи продуманно разработаны. Если вы сохраните этот стиль на всю жизнь, ваш мир будет полон вопросов. Ответ, получивший большинство голосов, действительно информативен и понятен. Но это не затрагивает ключевой момент вашего вопроса. Следуйте стилю вашего вопроса, я могу задать слишком много вопросов. Например, ключевое слово int является аббревиатурой от integer; почему ключевое слово "double" также не будет короче?
@junwanghe Этот вопрос на самом деле представляет собой серьезную проблему - почему . оператор имеет более высокий приоритет, чем оператор * ? Если это не так, мы могли бы иметь * ptr.member и var.member.
. и -> операторы представляют совершенно разные операции. Первый указывает на смещение, известное во время компиляции. Последний разыменовывает указатель во время выполнения и затем применяет смещение. Разыменование указателя может вызвать неопределенное поведение (и привести к сбою и т. Д.). Выражая оба с. скрывает разницу и делает код более трудным для чтения и более подверженным ошибкам.
С вложенными типами данных, содержащими как структуры, так и указатели на структуры, это может усложнить задачу, поскольку вы должны подумать о выборе правильного оператора для каждого доступа к подчиненному элементу. Вы можете получить ab-> c-> d или a-> bc-> d (у меня была эта проблема при использовании библиотеки freetype - мне нужно было постоянно искать ее исходный код). Также это не объясняет, почему компилятору не разрешается автоматически разыменовывать указатель при работе с указателями.
@BillAskaga: ну, я не думаю, что это сложнее понять, чем все эти скобки, но, возможно, это просто вопрос вкуса. Во всяком случае, нет необходимости в причине, почти все на языке может быть сделано по-другому, я просто попытался сказать, почему оператор полезен. Не все строго необходимо, мы могли бы даже жить без выключателя или для, но они полезны.
Почему отрицательный голос? Пожалуйста, оставьте комментарий.
Хотя изложенные вами факты верны, они никак не отвечают на мой первоначальный вопрос. Вы объясняете равенство a-> и * (a). примечания (которые уже были объяснены несколько раз в других вопросах), а также дают смутное утверждение о том, что дизайн языка является несколько произвольным. Я не нашел ваш ответ очень полезным, поэтому отрицательный голос.
@BillAskaga: моя точка зрения не в равенстве двух разных форм, а в возможном преимуществе оператора стрелки, и ваш вопрос был о том, почему это было добавлено в язык. Но если вы ищете доказанную историческую причину, да, мой ответ не может это обеспечить. Спасибо, что вернулись, чтобы объяснить ваше решение в любом случае.
@effeffe, ОП говорит, что язык мог бы легко интерпретировать abcd как (*(*(*a).b).c).d , что делает оператор -> бесполезным. Таким образом, версия OP ( abcd ) одинаково читаема (по сравнению с a->b->c->d ). Вот почему ваш ответ не отвечает на вопрос ОП.
@ Shahbaz Хм, да, наверное, единственная важная часть моего ответа - последний, но он все еще немного произвольный. Я слишком поздно понял вопрос.
@Shahbaz Это может быть случай для программиста java, программист C / C ++ будет понимать abcd и a->b->c->d как две совершенно разные вещи: первая - это доступ к вложенному подобъекту с помощью одной памяти (в данном случае существует только один объект памяти), второй - три обращения к памяти, преследующие указатели через четыре вероятных различных объекта. Это огромная разница в разметке памяти, и я считаю, что Си прав в различении этих двух случаев очень наглядно.
@cmaster, насколько я с вами оскорбляю Java-программистов, ваш аргумент не очень хороший. Например, в случае a + b существует огромная разница в производительности, если a и b являются int s или float s, особенно там, где нет FPU. Должен ли C проводить синтаксическое различие между int plus и float plus? Как насчет запрета целочисленного продвижения, потому что это скрытый mov ? Дело в том , что ab могут сделать работу как ab и a->b в зависимости от того является указателем или нет. a Здесь нет никакой двусмысленности.
@cmaster, и ты не получаешь ничего от различий. Если вы пишете ab а компилятор выдает ошибку, говоря, что a является указателем, вы вдруг передумаете, потому что a->b дороже и реструктуризируете свой код, возможно, написав макрос, чтобы избежать передачи указателя на функцию или передачу структура по значению? Или вы просто измените ab на a->b и снова скомпилируете?
@ Shahbaz Я не имел в виду, что как оскорбление программистов на Java они просто привыкли к языку с полностью неявными указателями. Если бы я вырос как программист java, я бы, наверное, думал так же ... Во всяком случае, я действительно считаю, что перегрузка операторов, которую мы видим в C, не оптимальна. Однако я признаю, что все мы были избалованы математиками, которые щедро перегружают своих операторов практически всем. Я также понимаю их мотивацию, так как набор доступных символов довольно ограничен. Я думаю, в конце концов, это просто вопрос, где вы рисуете линию ...
@ Shahbaz вы получаете немного безопасности, когда вы разыменовываете указатели, вы должны убедиться, что вы не разыменовываете нуль-указатели. abcd гарантированно будет успешным, пока a полностью сформирован (инициализирован). a-> b-> c-> d будет сегфо, если любой из a, b, c равен нулю. В качестве альтернативы a-> bc-> d скажет вам, где вы делаете косвенный доступ к памяти.
Это простой и правильный ответ. C в основном старается избегать перегрузок, а IMO - одна из лучших вещей в C.
Многое в С неоднозначно и нечетко. Существуют неявные преобразования типов, математические операторы перегружены, цепная индексация делает что-то совершенно другое в зависимости от того, индексируете ли вы многомерный массив или массив указателей, и все, что угодно, может быть макросом, скрывающим что-либо (соглашение об именовании в верхнем регистре помогает, но C не делает этого) т).

AnT · Accepted Answer · 2012-11-13T19-54-00.000Z

Я рассмотрю ваш вопрос как два вопроса: 1) почему -> даже существует, и 2) почему . не автоматически разыгрывает указатель. Ответы на оба вопроса имеют исторические корни.

Почему существует ->?

В одной из первых версий языка C (которую я буду называть CRM для Справочное руководство по C", который пришел с 6-м Edition Unix в мае 1975 года), оператор -> имел очень исключительное значение, а не синоним комбинации * и .

Язык C, описанный CRM, во многом отличался от современного C. В элементах CRM-структуры реализована глобальная концепция смещения байтов, которая может быть добавлена к любому значению адреса без ограничений типа. То есть все имена всех членов структуры имели независимый глобальный смысл (и, следовательно, должны были быть уникальными). Например, вы можете объявить

struct S {
  int a;
  int b;
};

и имя a будет стоять за смещение 0, а имя b будет стоять за смещение 2 (предполагая int тип размера 2 и без заполнения). Язык требует, чтобы все члены всех структур в блоке перевода либо имели уникальные имена, либо стояли за одно и то же значение смещения. Например. в той же системе перевода вы можете дополнительно объявить

struct X {
  int a;
  int x;
};

и это будет нормально, так как имя a будет постоянно стоять на смещение 0. Но это дополнительное объявление

struct Y {
  int b;
  int a;
};

будет формально недействительным, поскольку он попытался "переопределить" a как смещение 2 и b как смещение 0.

И здесь приходит оператор ->. Поскольку каждое имя члена структуры имеет свой собственный самодостаточный глобальный смысл, выражения, поддерживаемые языком, такие как

int i = 5;
i->b = 42;  /* Write 42 into `int` at address 7 */
100->a = 0; /* Write 0 into `int` at address 100 */

Первое назначение интерпретировалось компилятором как "принимать адрес 5, добавлять смещение 2 к нему и назначать 42 значению int на результирующем адресе". То есть приведенное выше присваивало значение 42 int по адресу 7. Обратите внимание, что это использование -> не заботилось о типе выражения в левой части. Левая сторона была интерпретирована как числовой адрес rvalue (будь то указатель или целое число).

Такая комбинация невозможна с комбинациями * и .. Вы не могли сделать

(*i).b = 42;

поскольку *i уже является недопустимым выражением. Оператор *, так как он отделен от ., накладывает более строгие требования к типу на свой операнд. Чтобы обеспечить возможность обойти это ограничение, CRM представила оператор ->, который не зависит от типа левого операнда.

Как отметил Кейт в комментариях, эта разница между комбинациями -> и * + . заключается в том, что CRM означает "расслабление требования" в 7.1.8: кроме ослабления требования что E1 имеет тип указателя, выражение E1−>MOS в точности эквивалентно (*E1).MOS

Позже, в K & R C, многие функции, первоначально описанные в CRM, были значительно переработаны. Идея "член структуры как глобальный идентификатор смещения" была полностью удалена. И функциональность оператора -> стала полностью идентичной функциональности комбинаций * и ..

Почему не удается . автоматически разыменовать указатель?

Опять же, в версии CRM языка левый операнд оператора . должен был быть lvalue. Это было единственным требованием, налагаемым на этот операнд (и тем, что отличает его от ->, как объяснялось выше). Обратите внимание, что CRM не требует, чтобы левый операнд . имел тип структуры. Это просто требовало, чтобы это была lvalue, любая lvalue. Это означает, что в CRM-версии C вы можете написать код, подобный этому

struct S { int a, b; };
struct T { float x, y, z; };

struct T c;
c.b = 55;

В этом случае компилятор записывал бы 55 в значение int, расположенное в смещении байта 2 в блоке непрерывной памяти, известном как c, хотя тип struct T не имел поля с именем b. Компилятор вообще не заботится о фактическом типе c. Все, о чем он заботился, это то, что c был lvalue: какой-то записываемый блок памяти.

Теперь обратите внимание, что если вы сделали это

S *s;
...
s.b = 42;

код будет считаться действительным (поскольку s также является значением lvalue), и компилятор просто попытается записать данные в указатель s сам по байту-смещению 2. Излишне говорить, что подобные вещи могли бы легко привести к переполнению памяти, но язык не касался таких вопросов.

т.е. в этой версии языка ваша предлагаемая идея о перегрузке оператора . для типов указателей не будет работать: оператор . уже имел очень специфическое значение при использовании с указателями (с указателями lvalue или с любыми значениями l вообще). Это была очень странная функциональность, без сомнения. Но он был там в то время.

Конечно, эта странная функциональность не является очень сильной причиной для введения перегруженного оператора . для указателей (как вы сказали) в переработанной версии C-K & R C. Но это не было сделано. Возможно, в то время в CRM-версии C был написан код устаревшего кода, который должен был поддерживаться.

(URL-адрес справочного руководства 1975 года C может быть нестабильным. Другая копия, возможно с некоторыми незначительными отличиями, здесь.)

А в разделе 7.1.8 цитируемого Справочного руководства по C написано: «За исключением ослабления требования, что E1 имеет тип указателя, выражение« E1−> MOS »в точности эквивалентно« (* E1) .MOS ». »«.
Почему у него не было *i быть значением некоторого типа по умолчанию (int?) По адресу 5? Тогда (* i) .b работал бы так же.
@Leo: Некоторые люди предпочитают язык Си как ассемблер высокого уровня. В тот период истории C язык действительно был ассемблером более высокого уровня.
«поскольку он пытался« переопределить »a как смещение 2 и b как смещение 0» - почему смещение 2, а не 1?
@ bradley.ayers: я имею в виду смещение в байтах поля данных с начала структуры. Если размер int равен 2 байтам, то последовательные члены типа int будут иметь смещения 0, 2, 4, 6 и т. Д.
Возможно, вы захотите пометить это из вики, прежде чем оно станет слишком старым. Обычно auto-wiki предотвращает оскорбительные выпады, но здесь это не так.
Later, in K&R C many features originally described in CRM were significantly reworked. The idea of "struct member as global offset identifier" was completely removed. вы написали Later, in K&R C many features originally described in CRM were significantly reworked. The idea of "struct member as global offset identifier" was completely removed. Но в «Развитии языка Си» Деннис М. Ричи сказал: « While it foreshadowed the newer approach to structures, only after it was published did the language support assigning them, passing them to and from functions, and associating the names of members firmly with the structure or union containing them. . Можете ли вы дать мне более подробное объяснение?
@AndreyT На основе статьи «Развитие языка Си» , как если бы это было в K & R, член структуры все еще является глобальным идентификатором смещения. Кстати, у вас есть электронная книга K & R? Если да, не могли бы вы дать мне копию? Мой электронный адрес [email protected]. Большое спасибо.
Да. Таким образом, это объясняет, почему многие структуры в UNIX (например, struct stat ) имеют префикс своих полей (например, st_mode ).
@ perfectionm1ng: Похоже, что bell-labs.com был захвачен Alcatel-Lucent, а исходные страницы исчезли. Я обновил ссылку на другой сайт, хотя я не могу сказать, как долго он прослужит. Во всяком случае, поиск в Google по «справочнику по ritchie c» обычно находит документ.
Безумный рывок вниз по переулку памяти. Я пытаюсь реанимировать примерно 40-летний код на C, где авторы использовали структуры таким образом для реализации своего рода объединения.