ХЕШИРОВАНИЕ
До сих пор мы рассматривали методы поиска, основанные на сравнении данного аргумента K с имеющимися в таблице ключами или на использовании его цифр для управления процессом разветвления. Но есть и третий путь: не рыскать вокруг да около, а произвести над K некоторое арифметическое вычисление и получить функцию f(K), указывающую адрес в таблице, где хранится K и ассоциированная с ним информация.
К сожалению, находить подобные функции f(K) довольно сложно.
Функции, дающие неповторяющиеся значения, неожиданно редки даже в случае довольно большой таблицы. Например, знаменитый парадокс дней рождения утверждает, что, если в комнате присутствует не менее 23 человек, имеется хороший шанс на то, что у двух из них совпадет день рождения! Иными словами, если мы выбираем случайную функцию, отображающую 23 ключа в 365-элементную таблицу, то с вероятностью 0.4927 (менее половины) все ключи попадут в разные места.
Разумеется, такой метод имеет существенный недостаток, ибо содержимое таблицы должно быть известно заранее; добавление хотя бы одного ключа может все испортить, и нам придется начинать фактически на пустом месте.
Можно получить гораздо более гибкий метод, если отбросить идею однозначности, допуская совпадения значений f(K) для различных аргументов, и использовать особый метод разрешения неопределенности после вычисления f(K).
Наши рассмотрения приводят к широко известному классу методов, обычно называемых хешированием или рассеянной памятью. Английский глагол "to hash" имеет смысл нарезать, раскрошить что-либо или сделать из этого месиво; идея хеширования состоит в том, чтобы взять некоторые характеристики ключа и использовать полученную частичную информацию в качестве основы поиска. Мы вычисляем хеш-функцию h(K) и берем это значение в качестве адреса начала поиска.
Парадокс дней рождения служит для нас предостережением, что, вероятно, найдутся различные ключи Ki ¹ Kj , для которых h(Ki)=h(Kj). Подобное событие называется коллизией; для разрешения коллизий были разработаны интересные подходы. Чтобы использовать рассеянную таблицу, программист должен принять два почти независимых решения: он должен выбрать хеш-функцию h(K) и метод разрешения коллизий. Эти два аспекта задачи поиска мы и рассмотрим по очереди.
Хеш-функции. Для определенности будем полагать, что хеш-функция h(K) имеет не более M различных значений и, что эти значения удовлетворяют условию
0£ h(K)<M (1)
для всех ключей K. В реальном файле много почти одинаковых ключей, поэтому желательно выбрать хеш-функцию, рассеивающую их по таблице. Это важно для уменьшения числа коллизий.
Теоретически невозможно так определить хеш-функцию, чтобы она создавала случайные данные из неслучайных реальных файлов. Но на практике нетрудно сделать достаточно хорошую имитацию случайности, используя простые арифметические действия. На самом деле мы можем поступить даже лучше, выявляя неслучайные свойства реальных данных и строя на их основе хеш-функцию, дающую меньше коллизий; чем когда имеются истинно случайные ключи.
Рассмотрим, например, случай десятизначных ключей на десятичном компьютере. Сам собой напрашивается следующий способ выбора хеш-функции: положить M равным, скажем, 1000, а в качестве h(K) взять три цифры, выбранные примерно из середины 20-значного произведения K*K. Казалось бы, это должно давать довольно равномерное распределение значений между 000 и 999 с низкой вероятностью коллизий. В самом деле, эксперименты с реальными данными показали, что такой метод "середины квадрата" неплох при условии, что ключи не содержат много левых или правых нулей подряд.
Выяснилось, однако, что существуют более надежные и простые способы способы задания хеш-функций.
Многочисленные проверки реальных файлов выявили очень хорошую работу двух основных типов хеш-функций. Один из них основан на делении, а другой на умножении.
Метод деления особенно прост: используется остаток от деления на M
h(K)=K mod M. (2)
В этом случае, очевидно, некоторые значения M много лучше других.Например, если M - четное число, то значение h(K) будет четным при четном K и нечетным в противном случае; часто это приводит к значительным смещениям данных. Совсем плохо брать M равным степени основания системы счисления ЭВМ, так как тогда h(K) дает нам правые значащие цифры K (K mod M не зависит от других цифр). Аналогично, M не должно быть кратно 3, ибо буквенные ключи, отличающиеся друг от друга лишь порядком букв, могли бы дать значения функции, разность между которыми кратна 3. (Причина кроется в том, что 10n mod 3= 4n mod 3= 1.) Вообще мы хотели бы избежать значений M, делящих rk ± a , где k и a -небольшие числа, а r-"основание системы счисления" для множества используемых литер
(обычно r =64, 256 и 100), так как остаток от деления на такие значения M обычно оказываются простой суперпозицией цифр ключа.
Наши рассмотрения подсказывают, что лучше всего взять в качестве M такое простое число, чтобы rk ¹ ± a ( mod M ) при небольших k и a. Практически во всех случаях, этот выбор оказывается вполне удовлетворительным. M=1009 => h(K) вычисляется следующим образом
rX ← K
rA ← 0 (3)
rA ← K mod 1009
Мультипликативную схему хеширования также легко реализовать, но несколько труднее описать, так как нужно представить, что мы работаем с дробями, а не с целыми числами. Пусть w есть размер машинного слова; целое число A можно рассматривать как дробь A/w, если мысленно поставить десятичную (или двоичную) точку слева от машинного слова, в котором записано A. Метод состоит в том, чтобы выбрать A взаимно простым с w и положить
h(K)=[M(((A/w)K) mod 1)]. (4)
В двоичной системе M обычно берут равным степени двойки, так что h(K) состоит из старших битов правой значащей половины произведения AK. В двоичном виде при M=2m мультипликативная хеш-функция вычисляется так:
rA ←K.
rAX ←AK. (5)
rAX ← AK mod w.
Сдвиг rAX на m битов влево.
Результат получается в регистре A.
Одна из привлекательных черт мультипликативной схемы состоит в том, что в (5) не происходит потери информации; мы могли бы вновь найти K, зная лишь содержимое rAX после выполнения инструкций (5). Дело в том, что A взаимно просто с w, и при помощи алгоритма Евклида можно найти Константу A': AA' mod w = 1 ; отсюда следует, что K=(A'(AK mod w)) mod w. Иными словами,
K1 ≠ K2 влечет f(K1 ) ≠ f(K2 ). (6)
Конечно, f(K)принимает значения в диапазоне от 0 до w-1 и не является сколько-нибудь подходящей хеш-функцией, но она может быть очень полезной в качестве рассеивающей функции, а именно функции, удовлетворяющей (6) и обычно приводящей к рандомизации ключей.
Хорошая хеш-функция должна удовлетворять двум требованиям:
a)ее вычисление должно быть очень быстрым;
b)она должна минимизировать число коллизий.
Свойство (a) отчасти зависит от особенностей машины, а свойство (b)- от характера данных. Если бы ключи были действительно случайными, можно было бы просто выделить несколько битов и использовать их для хеш-функции, но на практике, чтобы удовлетворить (b), почти всегда нужна функция, зависящая от всех битов.
До сих пор мы рассматривали хеширование ключей, состоящих из одного слова. С ключами, состоящими из нескольких слов или имеющими переменную длину, можно работать как с представленными с многократной точностью числами и применить к ним рассмотренные методы. Однако обычно оказывается достаточной более быстрая процедура, когда отдельные слова сначала комбинируются в одно, а затем производится единственное умножение или деление. Для комбинирования можно использовать сложение по модулю w или операцию "исключающее или" (на двоичных ЭВМ). Достоинством обеих операций является их обратимость, т.е. их результат зависит от всех битов аргументов, причем "исключающее или" иногда предпочтительнее, так как не может привести к арифметическому переполнению. Заметим, что обе операции коммутативны, поэтому ключи (X, Y) и (Y, X) будут "брошены" по одному адресу. Чтобы избежать этого, Г.Д. Кнотт предложил предварительно делать циклический сдвиг.
Из других испытанных методов хеширования, пожалуй, наиболее интересным является способ, основанный на алгебраической теории кодирования. Идея аналогична методу деления, только вместо деления на целое число используется деление на многочлен по модулю 2. Для предлагаемого метода M должно быть степенью 2: M=2m ; кроме того, используется многочлен m-й степени
P(x)=xm + pm-1 xm-1 + … + p0.
Двоичный ключ K=(kn-1 … k1 k0 )2 можно рассматривать как многочлен K(x)=kn-1 xn-1+…+ k1x+ k0, и вычислить остаток
K(x) mod P(x) = hm-1 xm-1+…+ k1 x+ k0,
используя полиномиальную арифметику по модулю 2: h(K)=( hm-1… h1 h0)2. При правильном выборе P(x) такая хеш-функция позволяет избежать коллизий, между почти равными ключами.
Разрешение коллизий методом цепочек. Мы уже говорили, что некоторые адреса могут порождаться несколькими ключами. Пожалуй, наиболее очевидный способ решения проблемы состоит в том, чтобы поддерживать M связанных списков, по одному на каждый возможный хеш-адрес. Все записи должны содержать поля LINK; кроме того, нужно иметь M головных узлов списков HEAD[i], где i меняется от 1 до M . После хеширования
Рис. Раздельные цепочки.
ключа мы просто выполняем последовательный поиск в списке с номером h(K)+1.
Рисунок иллюстрирует этот простой метод цепочек при M=9 для последовательности семи ключей
K=|EN|, |TO|, |TRE|, |FIRE|, |FEM|, |SEKS|, |SYV|
(так называются числа от 1 до 7 по-норвежски), имеющих соответственные хеш-коды
h(K)+1 = 3, 1, 4, 1, 5, 9, 2.
Первый список содержит два элемента, три списка пусты.
Метод цепочек является весьма быстрым, поскольку списки коротки. Если в одной комнате собрать 365 человек, то найдется много пар, имеющих один и тот же день рождения, но данный день рождения в среднем имеет лишь один человек! Вообще, если имеется N ключей и M списков, средний размер списка равен N/M; таким образом, хеширование уменьшает количество работы, требуемое на последовательный поиск, примерно в M раз.
В целях экономии времени желательны большие M , но в этом случае многие ссылки будут пустыми, так что большая часть пространства, отводимого под M головных узлов, потратится зря. Для небольших по размеру записей напрашивается другой подход: можно наложить пространство для записей на пространство для головных узлов, отводя в таблице место под M записей и M ссылок, а не под N записей и M+N ссылок.
Иногда можно совершить один проход по данным и выяснить, какие головные узлы будут использоваться, вставляя на следующем проходе "переполняющие" записи в свободные щели. Часто, однако, это нежелательно или невозможно; нам хотелось бы иметь метод, при котором каждая запись обрабатывается лишь один раз, при первом поступлении в систему. Следующий алгоритм, принадлежащий Ф.Уильямсу, является общепринятым способом решения этой задачи.
alg C.(Поиск с вставкой по рассеянной таблице с цепочками.) Предлагаемый алгоритм позволяет отыскать в таблице из M элементов данный ключ K.
Если K нет в таблице и она не полна, K вставляется в нее. Элементы таблицы обозначаются через TABLE[i], 0≤i≤ M, и могут быть двух различных типов: свободный и занятый. Занятый узел содержит ключевое поле KEY[i], поле ссылки LINK[i] и, возможно, другие поля.
Алгоритм использует хеш-функцию h(K). Для облегчения поиска свободного пространства используется вспомогательная переменная R; если таблица пуста, R=M+1; по мере проведения вставок будет оставаться в силе утверждение, что узлы TABLE|[j] заняты для всех j в диапазоне R≤j≤M.
Условимся, что узел TABLE[0] всегда будет свободен.
C1.[Хеширование.] Установить i←h(K)+1. (Теперь 1≤i≤M.)
C2.[Список?] Если узел TABLE[i] свободен, то перейти на C6.
(В противном случае этот узел занят, и мы последуем на имеющийся здесь список занятых узлов).
C3.[Сравнение.] Если K=KEY[i], поиск завершен удачно.
C4.[Переход к следующему.] Если LINK[i]≠0, установить i←LINK[i] и вернуться на C3.
C5.[Найти свободный узел.] (Поиск был неудачным, и мы хотим найти в таблице свободное место.) Уменьшать R до тех пор, пока не будет получено такое значение, что узел TABLE[R] свободен. Если R=0, алгоритм заканчивается по переполнению (свободных узлов больше нет); в противном случае установить LINK[i]←R, i←R.
C6.[Вставить новый ключ.] Пометить TABLE[i] как занятый узел С KEY[i]←K и LINK[i]←0.
В алгоритме допускается срастание нескольких списков, так что после вставки в таблицу записи перемещать не нужно.
рис. Сросшиеся списки.
На первый взгляд шаг C5 может показаться неэффективным, так как в нем поиск свободной позиции производится последовательно. Но в действительности в процессе заполнения таблицы суммарное число проб в шаге C5 не превышает количества элементов в таблице; значит, в среднем на каждую вставку тратится не более одной такой пробы!
Разрешение коллизий "открытой адресацией". Другой способ решения проблемы коллизий состоит в том, чтобы полностью отказаться от ссылок и просто просматривать один за другим различные элементы таблицы, пока не будут найдены ключ K или свободная позиция. Не плохо было бы иметь правило, согласно которому каждый ключ K определяет последовательность проб, т.е. последовательность позиций в таблице, которые нужно просматривать всякий раз при вставке или поиске K. Если мы, используя определяемую K последовательность проб, натолкнемся на свободную позицию, то можно сделать вывод, что K нет в таблице, так как та же последовательность проб выполняется каждый раз при обработке данного ключа. Этот общий класс методов У. Петерсон назвал открытой адресацией.
Простейшая схема открытой адресации, известная как линейное
опробование, использует циклическую последовательность
h(K), h(K)-1,…, 0, M-1, M-2,…, h(K)+1 (*)
и описывается следующим образом.
alg L.(Поиск с вставкой по открытой рассеянной таблице.)
Алгоритм позволяет разыскать данный ключ K в таблице из M узлов.
Если K нет в таблице и она не полна, ключ K вставляется.
Узлы таблицы обозначаются через TABLE[i], 0≤i<M, и принадлежат двум различным типам узлов - свободных и занятых. Занятый узел содержит ключ KEY[i] и, возможно, другие поля. Значение вспомогательной переменной N равно числу занятых узлов; эта переменная рассматривается как часть таблицы, и при вставке нового ключа ее значение увеличивается на 1.
Данный алгоритм использует хеш-функцию h(K) и линейную последовательность проб (*) для адресации. Модификации этой последовательности обсуждаются ниже.
L1.[Хеширование.] Установить i←h(K). (Теперь 0≤i< M.)
L2.[Сравнить.] Если узел TABLE[i] свободен, то перейти на L4. В противном случае, если KEY[i]=K, алгоритм заканчивается удачно.
L3.[Перейти к следующему.] Установить i←(i-1); если теперь i<0, Установить i←i+M. Вернуться на L2.
L4.[Вставить.] (Поиск был неудачным.) Если N=M-1, алгоритм заканчивается по переполнению. В противном случае установить N←N+1, отметить, что узел TABLE[i] занят и установить KEY[i]←K.
На рис.( см. ниже) показано, что происходит при вставке с помощью алгоритма~L семи "норвежских" ключей , имеющих коды хеширования 2, 7, 1, 8, 2, 8, 1 соответственно. Последние три ключа- FEM, SEKS и SYV-смещены по сравнению со своими начальными адресами h(K).
0 [ FEM ]
1 [ TRE ]
2 [ EN ]
3 [ ]
4 [ ]
5 [ SYV ]
6 [_SEKS ]
7 [_ TO ]
8 [ FIRE ]
Рис. Линейная открытая адресация.
Эксперименты с линейным опробованием показывают, что этот метод работает прекрасно, пока таблица не слишком заполнена, но в конце концов процесс замедляется, длинные серии проб становятся все более частыми. Причину такого поведения можно понять, рассмотрев следующую гипотетическую рассеянную таблицу (M=19, N= 9):
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Заштрихованные квадраты обозначают занятые позиции. Ключ K, который должен быть вставлен в таблицу следующим, попадет в одну из десяти свободных позиций, но не с равными вероятностями. В самом деле, K будет вставлен в позицию 11, если 11≤h(K)≤15, а в позицию 8 он попадет лишь при h(K)=8. Следовательно, вероятность попасть в позицию 11 в пять раз больше, чем в позицию 8; длинные списки стремятся стать еще длиннее.
alg D.(Открытая адресация с двойным хешированием.)
Этот алгоритм почти совпадает с алгоритмом L, но использует несколько иную последовательность проб, вычисляя две хеш-функции h1(K) и h2(K). Как обычно, h1(K) порождает величины от 0 до M-1 включительно; но значения h2(K) должны лежать от 1 до M-1 и быть взаимно просты с M. (Например, если M - простое число, то h2(K) может быть любой величиной от 1 до M-1 включительно, или, если M=2m, то h2(K) может быть любым нечетным числом между 1 и 2m-1.)
D1.[Первое хеширование.] Установить i ←h2(K).
D2.[Первая проба.] Если узел TABLE[i] свободен, то перейти на D6. В противном случае, если KEY[i]=K, алгоритм заканчивается удачно.
D3.[Второе хеширование.] Установить c←h2(K).
D4.[Перейти к следующему.] Установить i←i-c; если теперь i<0, Установить i←i+M.
D5.[Сравнение.] Если узел TABLE[i] свободен, то перейти на D6. В противном случае, если KEY[i]=K, алгоритм заканчивается удачно; в противном случае вернуться на D4.
D6.[Вставка.] Если N=M-1, алгоритм заканчивается по переполнению. В противном случае установить N←N+1, пометить узел TABLE[i]как занятый и установить KEY[i]← K.
Для вычисления h2(K) было предложено несколько способов.
Если M - простое число и h1(K)=K mod M, можно положить h2(K)=1+(K mod (M-1)); но так как M-1 четно, было бы лучше положить h2(K)=1+(K mod (M-2)).
Это наводит на мысль о таком выборе M, чтобы M и M-2были простыми числами-близнецами, например 1021 и 1019. Можно взять h2(K)=1+([K/M] mod (M-2)), ибо частное [K/M] можно получить в регистре как побочный продукт вычисления h1(K).
Сравнение методов. Итак, мы знаем много методов поиска. чем же нам руководствоваться при выборе наилучшего из них; для конкретного приложения? Трудно в нескольких словах описать все, что нам хотелось бы учесть при выборе метода поиска, однако следующие соображения, пожалуй, наиболее важны, если мы заинтересованы в сокращении времени поиска и объема занимаемой памяти.
Различные способы разрешения коллизий приводят к различному числу проб. Но это еще не все, так как с изменением метода меняется время пробы, что заметно отражается на времени работы. При линейном опробовании чаще, чем в других методах, происходит обращение к таблице, зато этот метод прост.
Методы цепочек весьма экономны с точки зрения числа проб, но потребность в дополнительном пространстве памяти для полей ссылок иногда (при небольшом размере записей) делает более привлекательной открытую адресацию. Например, если нужно сделать выбор между таблицей с цепочками на 500 элементов и таблицей с открытой адресацией на 1000 элементов, то последняя, очевидно, предпочтительнее, ибо она обеспечивает эффективный поиск среди 500 записей и способна вместить в два раза больше данных. С другой стороны, порой в силу размера записей или их формата пространство под поля ссылок достается фактически бесплатно.
Как соотносятся методы хеширования с другими стратегиями поиска? Сравнивая их по скорости, можно утверждать, что методы хеширования лучше, если число записей велико, поскольку среднее время поиска для методов хеширования остается ограниченным при N →∞ в случае, когда таблица не становится слишком заполненной. Более того, бинарный поиск годится лишь для фиксированных таблиц, в то время как рассеянные таблицы допускают эффективные процедуры вставки.
Таким образом, хеширование имеет свои преимущества. С другой стороны, поиск в рассеянных таблицах все же уступает изученным ранее методам по трем важным пунктам.
a) После неудачного поиска в рассеянной таблице мы знаем лишь то, что нужного ключа там нет. Методы поиска, основанные на сравнениях, всегда дают больше информации; они позволяют найти наибольший ключ ≤ K или наименьший ключ ≥ K , что важно во многих приложениях
(например, для интерполяции значений функции по хранящейся таблице).
Эти же методы можно использовать и для нахождения всех ключей, лежащих между двумя заданными величинами K и K'. Далее, алгоритмы поиска по дереву позволяют легко распечатать содержимое таблицы в возрастающем порядке без специальной сортировки, а это иногда бывает нужно.
b) Часто довольно трудно распределить память для рассеянных таблиц; под хеш-таблицу нужно отвести определенную область памяти, а размер ее не всегда ясен. Если отвести слишком много памяти, то такая расточительность отразится на других списках или на других пользователях ЭВМ, но если отвести мало места, таблица переполнится! При переполнении рассеянной таблицы, вероятно, лучше всего "рехешировать" ее, т.е. отвести больше пространства и изменить хеш-функцию, а затем вставить записи в большую таблицу. Ф.~Хопгуд предложил рехешировать таблицу, если коэффициент заполнения достигнет α0 , заменяя M на d0M.
Алгоритмы поиска со вставкой по дереву не изобилуют тягостными рехешированиями; деревья растут не больше, чем это необходимо. При работе с виртуальной памятью нужно, по всей вероятности, использовать поиск по дереву или цифровой поиск по дереву вместо создания больших рассеянных таблиц, вызывающих подкачку новой страницы почти при каждом хешировании ключа.
c) Наконец, при использовании методов хеширования нужно свято верить в теорию вероятностей, ибо они эффективны лишь в среднем, а наихудший случай просто ужасен! Как и в ситуации с датчиками случайных чисел, мы не можем быть полностью уверенными в том, что при применении к новому множеству данных хеш-функция будет работать удовлетворительно. Поэтому рассеянная память не всегда подходит для работы в реальном масштабе времени, например для управления движением транспорта, поскольку на карту поставлены человеческие жизни. Алгоритмы сбалансированного дерева гораздо безопаснее, ведь они имеют гарантированную верхнюю границу времени поиска.