Насколько эффективна эта хеш-функция?

Question

Насколько эффективна эта хеш-функция?

1

Я не уверен, что лучший способ сделать хэширование "словаря" в таблицу.

Словарь имеет 61406 слов, я определяю перегрузку по SizeOFDictionary/.75

Это дает мне 81874 ведра в таблице.

Я запускаю его через хэш-функцию (общий случайный алгоритм), и есть 31690 ведер, которые истощаются. и 50 тысяч, которые пусты. Самое большое ведро содержит только 10 слов.

Мой вопрос: достаточны ли эти числа для проекта хэширования? Я не знаком с тем, чего я пытаюсь достичь, мне кажется, что около 50 тысяч - это много пустых ведер.

Вот моя функция хэширования.

private void hashingAlgorithm(String word)
{
    int key = 1;
    //Multiplying ASCII values of string
    //To determine the index
    for(int i = 0 ; i < word.length(); i++){
        key *= (int)word.charAt(i);
        //Accounting for integer overflow
        if(key<0)
            key*=-1;
    }
    key %= sizeOfTable;
    //Inserting into the table
    table[key].addToBucket(word);       
}

LeatherFace 16 март 2014, в 20:36

Источник

Теги:

java

algorithm

hash

2 ответа

Ещё вопросы

Fallen · Answer 1 · 2014-03-16T16-32-00.000Z

Анализ производительности:

Функция хеширования не учитывает порядок. Согласно вашему алгоритму, если нет переполнения, ab = ba. Ваш код зависит от переполнения, чтобы различать другой порядок. Таким образом, есть место для большого количества дополнительных коллизий, которые можно удалить, если вы думаете, что предложения являются номером на основе N.

Предлагаемое улучшение:

2 * 3 == 3 * 2 но 2 * 223 + 3 != 3 * 223 + 2

Поэтому, если мы представляем строки как число на основе N, количество столкновений будет уменьшаться в значительном масштабе.

Aseem Goyal · Answer 2 · 2014-03-16T17-08-00.000Z

1

Если словарь содержит слова типа:

abdc  
abcd  
dbca  
dabc  
dacb

все будут хэшироваться до одного значения в хэш-таблице, т.е. int(a)*int(b)*int(c)*int(d), что не является хорошей идеей.
Итак, используйте хеш.

пример:
hash = [0]*base^(n-1) + [1]*base^(n-2) +... + [n-1]
где base - prime number например 31.

ПРИМЕЧАНИЕ: [i] означает char.at(i).

вы также можете использовать оператор modulo p [очевидно, p - простое число], чтобы избежать overflow и ограничить size хэш-таблицы.

hash = [0]*base^(n-1) + [1]*base^(n-2) +... + [n-1] mod p

Aseem Goyal 16 март 2014, в 17:08

0

это была опечатка, исправлено
Aseem Goyal 16 март 2014, в 19:10
0

ключ * = (int) word.charAt (i) * BASE ^ (word.length () - (i-1)); Я попробовал это, и теперь я получаю исключение, утверждая, что массив выходит за пределы -10502
LeatherFace 16 март 2014, в 19:18
0

вам нужно сделать это: (a + b + c)%mod = a%mod + b%mod + c%mod а также, поскольку a*b может быть вне целочисленного диапазона. (a*b)%mod = (a%mod * b%mod ) %mod . Я думал, что вы знакомы с этим, поэтому не включил его в ответ. Также для a*b используйте long long .
Aseem Goyal 16 март 2014, в 19:22
0

какая может быть максимальная длина слова?
Aseem Goyal 16 март 2014, в 19:22
0

Там нет максимальной длины слова
LeatherFace 16 март 2014, в 19:23
0

тем не менее, дикая догадка, потому что вам нужно будет рассчитать 31 ^ макс. длина
Aseem Goyal 16 март 2014, в 19:24
0

Еще один вопрос, я получил его до 38000 пустых ведер. Как это справедливо с 81 000 ведер для начала и 61 000 записей? Это похоже на успешный хэш или нет?
LeatherFace 16 март 2014, в 19:37
0

вы путаетесь с коэффициентом загрузки, т. е. ваш 81k / 61k, мой 81k / 38k, так что вы можете подумать, что ваши значения будут распределены равномерно (хороший способ), но не учитывая тот факт, что на самом деле это не так, как я сказал мой ответ (концепция b b * d). Но, тем не менее, вам, вероятно, следует увеличить 38k до 50k - 60k, что даст очень равномерное распределение, остальное зависит от того, сколько памяти вы можете выделить!
Aseem Goyal 16 март 2014, в 19:43

Показать ещё 6 комментариев