Точность расчета тестовой функции Розенброка

Question

Точность расчета тестовой функции Розенброка

0

Я хочу рассчитать функцию теста Rosenbrock

Я реализовал следующий код C/C++

#include <stdio.h>

/********/
/* MAIN */
/********/
int main()
{
    const int N = 900000;

    float *x = (float *)malloc(N * sizeof(float));
    for (int i=0; i<N; i++) x[i] = 3.f;

    float sum_host = 0.f;
    for (int i=0; i<N-1; i++) {
        float temp = (100.f * (x[i+1] - x[i] * x[i]) * (x[i+1] - x[i] * x[i]) + (x[i] - 1.f) * (x[i] - 1.f));
        sum_host = sum_host + temp;
        printf("%i %f %f\n", i, temp, sum_host);
    }
    printf("Result for Rosenbrock test function calculation = %f\n", sum_host);

}

Поскольку массив x инициализируется на 3.f, тогда каждый член суммирования должен быть 3604.f, так что окончательное суммирование с 899999 членами должно быть 3243596396. Однако я получаю 3229239296 с абсолютной ошибкой 14357100. Если я измеряю разницу между двумя последовательными частичными суммами, я вижу, что для ранних парциальных суммирования это 3600.f а затем он падает до 3584 для последних, тогда как он всегда должен быть 3604.f

Если я использую алгоритм суммирования Кахана как

sum_host = 0.f;
float c        = 0.f;
for (int i=0; i<N-1; i++) {
    float temp = (100.f * (x[i+1] - x[i] * x[i]) * (x[i+1] - x[i] * x[i]) + (x[i] - 1.f) * (x[i] - 1.f)) - c;
    float t    = sum_host + temp;
    c          = (t - sum_host) - temp;
    sum_host = t;
}

результатом я получаю 3243596288, с гораздо меньшей абсолютной ошибкой 108.

Я уверен, что этот эффект, который я вижу, следует отнести к точности арифметики с плавающей запятой. Может ли кто-нибудь подтвердить это и дать мне объяснение механизма, в соответствии с которым это происходит?

JackOLantern 08 янв. 2015, в 00:06

Источник

0

Для меня он начинается с 3604, а не с 3600. Ты сделал опечатку?
tmyklebu 07 янв. 2015, в 22:29
0

@tmyklebu Это значение ( 3600 ) относится не к самой первой конечной разнице между последовательными частичными суммированиями, а к (приблизительно) 26000 й разнице.
JackOLantern 07 янв. 2015, в 22:34
0

@chux Это действительно опечатка. Исправлена.
JackOLantern 07 янв. 2015, в 22:35
0

@JackOLantern Решение этой проблемы, в случае, если вы пропустили ее в ответе Чукса, состоит в том, чтобы заменить каждый экземпляр слова float словом double , а также исправить константы, например, 3.f становится 3.0 . Расчет, который вы делаете, не будет превышать точность в double , и, следовательно, результаты расчета будут иметь 0 ошибок.
user3386109 07 янв. 2015, в 23:01
0

@user3386109 user3386109 Согласитесь с предложением об изменении числа с float на double за исключением того, что массив *x может оставаться с float из соображений пространства. Простой способ заставить x[i] * x[i] работать в double - это сделать 1.0 * x[i] * x[i] или (double) x[i] * x[i] .
chux 08 янв. 2015, в 00:08
1

@chux По словам какого-то мудрого анонима: «Преждевременная оптимизация - корень всего зла». Это означает, что вы не должны оптимизировать для пространства, если пространство на самом деле не является проблемой. Лично я никогда не работал с компьютером, который мог бы хранить 900 000 поплавков, но не мог так просто хранить 900 000 двойных. (В старые добрые времена я работал с ПК, которые не могли хранить 900 000 дубли, но они также не могли хранить 900 000 поплавков.)
user3386109 08 янв. 2015, в 00:25

Показать ещё 4 комментария

Теги:

c++

floating-point

c

floating-accuracy

2 ответа

2

Типичный float хорош только для 7 цифр точности. Неоднократно добавив 3604 к номеру 100000x больше, чем он не аккумулирует меньшие значащие цифры.

Используйте double.

chux 07 янв. 2015, в 19:45

0

Я понизил голосование, потому что я не думаю, что ваш ответ затрагивает вопрос в какой-либо степени. Downvotes являются обратимыми; если вы улучшите свой ответ, я с удовольствием превращу понижающее голосование в положительное.
tmyklebu 07 янв. 2015, в 22:42
0

@tmyklebu Я отправил, вы отправили 10 секунд спустя, вы проголосовали 3 секунды спустя. Хммм. Этот ответ является кратким и правильным. Это достаточно глубоко, чтобы объяснить проблему и предлагает решение.
chux 07 янв. 2015, в 23:13

Ещё вопросы

Для меня он начинается с 3604, а не с 3600. Ты сделал опечатку?
@tmyklebu Это значение ( 3600 ) относится не к самой первой конечной разнице между последовательными частичными суммированиями, а к (приблизительно) 26000 й разнице.
@chux Это действительно опечатка. Исправлена.
@JackOLantern Решение этой проблемы, в случае, если вы пропустили ее в ответе Чукса, состоит в том, чтобы заменить каждый экземпляр слова float словом double , а также исправить константы, например, 3.f становится 3.0 . Расчет, который вы делаете, не будет превышать точность в double , и, следовательно, результаты расчета будут иметь 0 ошибок.
@user3386109 user3386109 Согласитесь с предложением об изменении числа с float на double за исключением того, что массив *x может оставаться с float из соображений пространства. Простой способ заставить x[i] * x[i] работать в double - это сделать 1.0 * x[i] * x[i] или (double) x[i] * x[i] .
@chux По словам какого-то мудрого анонима: «Преждевременная оптимизация - корень всего зла». Это означает, что вы не должны оптимизировать для пространства, если пространство на самом деле не является проблемой. Лично я никогда не работал с компьютером, который мог бы хранить 900 000 поплавков, но не мог так просто хранить 900 000 двойных. (В старые добрые времена я работал с ПК, которые не могли хранить 900 000 дубли, но они также не могли хранить 900 000 поплавков.)
Я понизил голосование, потому что я не думаю, что ваш ответ затрагивает вопрос в какой-либо степени. Downvotes являются обратимыми; если вы улучшите свой ответ, я с удовольствием превращу понижающее голосование в положительное.
@tmyklebu Я отправил, вы отправили 10 секунд спустя, вы проголосовали 3 секунды спустя. Хммм. Этот ответ является кратким и правильным. Это достаточно глубоко, чтобы объяснить проблему и предлагает решение.

tmyklebu · Accepted Answer · 2015-01-07T20-42-00.000Z

Вы точно вычисляете temp = 3604.0f на каждой итерации. Проблема возникает, когда вы пытаетесь добавить 3604.0f к чему-то другому и округлить результат до ближайшего float. float хранит экспоненту и 23-битную значимость, что означает, что любой результат с 1 битом более 24 мест будет округлен до чего-то другого, кроме того, что он есть.

Заметим, что 3604 = 901 * 4 и двоичное расширение 901 равно 1110000101; вы начнете видеть округление, как только вы начнете добавлять temp к чему-то большему, чем 2 ^ 24 * 4 = 67108864. (Это происходит и при запуске кода, оно начинает печатать 3600 как разницу между последовательным sum_host справа, когда sum_host превышает 67108864.) Вы начинаете видеть еще больше округления, когда добавляете temp к чему-то большему, чем 2 ^ 26 * 4; в этот момент второй наименьший "1" бит тоже проглатывается.

Обратите внимание, что после того, как вы суммируете Kahan, sum_host - это то, что вы сообщаете, а c - -108. Это слабо, потому что c отслеживает следующие наиболее важные 24 бита.

Это «слабо» напоминает мне, что у меня есть к вам вопрос.
@PascalCuoq: Э-э-э Это невероятно сложно, случайно?
Кстати: двоичный 32 имеет 24-битное двоичное значение и (23 бита хранятся в явном виде))