Неопределенный старший порядок uint64_t при сдвиге и маскировании 32-битных значений

Question

Неопределенный старший порядок uint64_t при сдвиге и маскировании 32-битных значений

0

У меня есть неопределенное поведение в кажущейся безобидной функции, которая анализирует double значение из буфера. Я читаю double в две половинки, потому что я достаточно уверен, что языковой стандарт говорит, что сдвиг значений char действителен только в 32-битном контексте.

inline double ReadLittleEndianDouble( const unsigned char *buf )
{
    uint64_t lo = (buf[3] << 24) | (buf[2] << 16) | (buf[1] << 8) | buf[0];
    uint64_t hi = (buf[7] << 24) | (buf[6] << 16) | (buf[5] << 8) | buf[4];
    uint64_t val = (hi << 32) | lo;
    return *(double*)&val;
}

Поскольку я храню 32-битные значения в 64-битных переменных lo и hi, я разумно ожидаю, что 32-разрядные значения этих переменных будут всегда 0x00000000. Но иногда они содержат 0xffffffff или другой 0xffffffff мусор.

Исправление состоит в том, чтобы замаскировать его следующим образом:

uint64_t val = ((hi & 0xffffffffULL) << 32) | (lo & 0xffffffffULL);

Кроме того, он работает, если я маскирую во время назначения вместо этого:

uint64_t lo = ((buf[3] << 24) | (buf[2] << 16) | (buf[1] << 8) | buf[0]) & 0xffffffff;
uint64_t hi = ((buf[7] << 24) | (buf[6] << 16) | (buf[5] << 8) | buf[4]) & 0xffffffff;

Я хотел бы знать, почему это необходимо. Все, что я могу придумать, чтобы объяснить это, заключается в том, что мой компилятор делает все смещение и объединение для lo и hi непосредственно на 64-битных регистрах, и я мог бы ожидать неопределенного поведения в 32-битных разрядах высокого порядка, если это так.

Может кто-то, пожалуйста, подтвердите мои подозрения или иным образом объясните, что здесь происходит, и прокомментируйте, какой (если есть) из моих двух решений предпочтительнее?

paddy 18 сен. 2014, в 03:34

Источник

3

Комментарий Кита Томпсона об удаленном ответе объяснил проблему: оператор << не применяется к char операнду. Целочисленные преобразования применяются к операндам, поэтому char повышается до int (или, возможно, до unsigned int в действительно странной реализации). Правый операнд (не более 24) не «больше или равен числу битов в расширенном левом операнде»; проблема в том, что foo << 24 может переполниться. Приведения к unsigned должно быть достаточно, если int и unsigned int имеют ширину не менее 32 бит. uint64_t к uint64_t , вероятно, чище.
Tony Delroy 18 сен. 2014, в 01:31
0

Я думаю, что @TonyD правильно. Кроме того, в зависимости от компилятора и процессора, некоторые версии могут компилироваться в bswap а другие - нет. Я не мог размышлять о том, что испускает компилятор все же.
Jason 18 сен. 2014, в 01:54
0

@TonyD, который объясняет, почему я должен явно приводить перед сдвигом, но не объясняет, почему старший порядок uint64_t может оказаться неопределенным. В моей системе int имеет ширину 32 бита, поэтому у меня нет переполнения (но я сделаю это явно).
paddy 18 сен. 2014, в 02:14
0

Они говорят о переполнении со знаком, так как их результат будет неподписан, а затем преобразован в подписанный.
Shafik Yaghmour 18 сен. 2014, в 02:22
0

Один из них должен был только что написать ответ или, по крайней мере, сделать ответ CW, у меня сейчас нет времени, но может, прежде чем я отправлюсь спать.
Shafik Yaghmour 18 сен. 2014, в 02:44
0

кроме проблем смещения, *(double *)&val нарушает правило строгого наложения имен. Для соответствия вам нужно использовать memcpy или union.
M.M 23 фев. 2016, в 07:37
2

@paddy (buf[7] << 24) может выдавать отрицательное число, если buf[7] > CHAR_MAX (технически неопределенное поведение, но обычная реализация - создавать отрицательное значение типа int ), поэтому, когда вы присваиваете его uint64_t это делается положительный модуль 2 ^ 64, в результате FFFF .... слева. Ваше «Альтернативное» решение по-прежнему имеет неопределенное поведение
M.M 23 фев. 2016, в 07:40

Показать ещё 5 комментариев

Теги:

c++

1 ответ

Ещё вопросы

Комментарий Кита Томпсона об удаленном ответе объяснил проблему: оператор << не применяется к char операнду. Целочисленные преобразования применяются к операндам, поэтому char повышается до int (или, возможно, до unsigned int в действительно странной реализации). Правый операнд (не более 24) не «больше или равен числу битов в расширенном левом операнде»; проблема в том, что foo << 24 может переполниться. Приведения к unsigned должно быть достаточно, если int и unsigned int имеют ширину не менее 32 бит. uint64_t к uint64_t , вероятно, чище.
Я думаю, что @TonyD правильно. Кроме того, в зависимости от компилятора и процессора, некоторые версии могут компилироваться в bswap а другие - нет. Я не мог размышлять о том, что испускает компилятор все же.
@TonyD, который объясняет, почему я должен явно приводить перед сдвигом, но не объясняет, почему старший порядок uint64_t может оказаться неопределенным. В моей системе int имеет ширину 32 бита, поэтому у меня нет переполнения (но я сделаю это явно).
Они говорят о переполнении со знаком, так как их результат будет неподписан, а затем преобразован в подписанный.
Один из них должен был только что написать ответ или, по крайней мере, сделать ответ CW, у меня сейчас нет времени, но может, прежде чем я отправлюсь спать.
кроме проблем смещения, *(double *)&val нарушает правило строгого наложения имен. Для соответствия вам нужно использовать memcpy или union.
@paddy (buf[7] << 24) может выдавать отрицательное число, если buf[7] > CHAR_MAX (технически неопределенное поведение, но обычная реализация - создавать отрицательное значение типа int ), поэтому, когда вы присваиваете его uint64_t это делается положительный модуль 2 ^ 64, в результате FFFF .... слева. Ваше «Альтернативное» решение по-прежнему имеет неопределенное поведение

Mark Ransom · Accepted Answer · 2014-09-18T01-47-00.000Z

Если вы попытаетесь перенести char или unsigned char вы оставите себя во власти стандартных целых рекламных акций. Вам лучше отказаться от ценностей самостоятельно, прежде чем пытаться их переместить. Если вы это сделаете, вам не нужно отделять нижнюю и верхнюю половинки.

inline double ReadLittleEndianDouble( const unsigned char *buf )
{
    uint64_t val = ((uint64_t)buf[7] << 56) | ((uint64_t)buf[6] << 48) | ((uint64_t)buf[5] << 40) | ((uint64_t)buf[4] << 32) |
                   ((uint64_t)buf[3] << 24) | ((uint64_t)buf[2] << 16) | ((uint64_t)buf[1] << 8) | (uint64_t)buf[0];
    return *(double*)&val;
}

Все это необходимо только в том случае, если процессор имеет большой энтитизм или если буфер не может быть правильно выровнен для архитектуры ЦП, в противном случае вы можете значительно упростить это:

    return *(double*)buf;

*(double *)buf нарушает строгое правило алиасинга