thedeemon | Фибоначчи в народном хозяйстве

Всякий знает, что вычисление чисел Фибоначчи - важнейшая задача программирования, поэтому именно с нее нередко начинают обучение. Некоторые языки программирования, похоже, были созданы специально для решения этой задачи (prooflink). Однако не все еще нашли применение этим чудесным числам в быту.

Понадобилось мне тут недавно уметь компактно представить набор целых чисел: при проверке на наличие новых версий а также при деинсталляции программа передает на сервер номер своей версии, а заодно кое-какую статистику, вроде числа запусков, количества дней с момента установки и т.п. Передавать нужно GET'ом, ибо при деинсталляции это делает не сама программа, а скрипт установщика, к тому же хочется сразу иметь эти данные в логах апача. Чисел получилось много, в явном виде запрос получился бы сильно длинным и некрасивым. Решил применить какое-нибудь простое сжатие.

Числа все неотрицательные, сверху не ограниченные, и вероятность встречи числа быстро уменьшается с ростом самого числа. Для таких данных есть семейство кодов переменной длины, называемое универсальными кодами. Большинство из них сначала кодируют некоторым образом число битов (например, унарно), а затем сами биты кодируемого числа. Но длина таких кодов растет довольно быстро. Зато есть более интересный и для нужных мне значений более эффективный способ представления - коды Фибоначчи. Они основаны на теореме одного зубного врача из бельгийской армии, которая говорит, что всякое натуральное число можно уникальным образом представить в виде суммы чисел Фибоначчи, причем в такой сумме никогда не будет двух последовательных членов ряда. Ряд начинается так: 1, 2, 3, 5, 8, 13, 21... Тогда 6 = 1+5, 15 = 2+13, 31 = 2+8+21. Чтобы закодировать число последовательностью битов, достаточно пройтись по ряду Фибоначчи до требуемого числа и проставить единицы напротив входящих в сумму членов и нули напротив невходящих. Поскольку по построению у нас не может быть подряд двух единиц, этот факт используется для маркировки конца числа: после последней единицы ставим еще одну и код готов, длину числа хранить нигде не надо. Примеры:

Fib: 1 2 3 5 8 13 21 34  | Code
  1: *                   | 11
  2:   *                 | 011
  3:     *               | 0011
  4: *   *               | 1011
 10:   *     *           | 010011
 16:     *      *        | 0010011
 42:         *        *  | 000010011

В итоге у меня требуемый набор чисел превращается в такую битовую последовательность, которая затем кодируется по пять цифрами и буквами в Base32. Получается обычно по 12-15 символов на 24 исходных инта.

А вот и сам автор теоремы - полковник Эдуард Цекендорф:
Edouard Zeckendorf

Flat | Top-Level Comments Only

From:

xeno-by.livejournal.com

Помню, когда мы в лицее увлекались архивацией, в книжке Ватолина и компании я также видел описание гамма-, дельта- и других кодов Элиаса (http://ru.wikipedia.org/wiki/Гамма-код_Элиаса и дальше по линкам). Вы про эти коды, наверняка, знаете (я вас видел на компрешн.ру =)), а вот читателям бложека, может быть, будет интересна релевантная информация.

Когда мы делали BWT-компрессор, то на одном из этапов остановились именно на DC + Фибоначчи. Вот только запамятовал почему - то ли потому, что арифметик тогда было писать непонятно как, то ли за перфомансом гнались... В общем, интересно все это. Спасибо за воспоминания =)

From:

thedeemon.livejournal.com

Да, коды Элиаса к тому же семейству универсальных относятся, для чисел до 10^4 Фибоначчи эффективнее.

From:

xeno-by.livejournal.com

Там, вроде бы, от распределения вероятностей зависело?

From:

xeno-by.livejournal.com

А вот еще интересная тривия. Коды Фибоначчи неплохо противостоят коррапшену. Повредившийся бит от силы может помешать правильному раскодированию своего блока, а также двух соседних. Но никогда не будет такой ситуации, что этот бит аля домино повредит всю закодированную последовательность.

Edited Date: 2010-09-17 06:26 pm (UTC)

From:

thedeemon.livejournal.com

Верно, осталось найти этому факту применение. ;)

From:

thedeemon.livejournal.com

Картинка в тему:
http://en.wikipedia.org/wiki/File:Fibonacci,_Elias_Gamma,_and_Elias_Delta_encoding_schemes.GIF

From:

109.livejournal.com

число битов, необходимое для кодирования длины числа в битах растёт как log(log), а разница между fibonacci и direct binary растёт как просто log. таким образом, чем больше число, тем менее выгодно кодировать его fibonacci. что интересно, маленькие числа кодировать fibonacci тоже невыгодно, поскольку их всё равно надо в конечном итоге (чтобы передать) запихивать во что-то стандартное, типа int. таким образом, использовать fibonacci не имеет смысла никогда.

From:

thedeemon.livejournal.com

>чем больше число, тем менее выгодно кодировать его fibonacci

Верно. Невыгодность начинается где-то с 10^4, а ожидаемое распределение таково, что 99,9% чисел будут в пределах тысячи, а 90% в пределах сотни. На таких порядках варианты с длинами проигрывают, что и показано на картинке.

>что интересно, маленькие числа кодировать fibonacci тоже невыгодно, поскольку их всё равно надо в конечном итоге (чтобы передать) запихивать во что-то стандартное, типа int

Bitstream уже отменили? По одному их передавать действительно нет смысла, но набор - уже есть.

>таким образом, использовать fibonacci не имеет смысла никогда

Очевидная глупость, ибо применима и к Хаффману и к прочим VLC, используемым повсеместно - mp3, MPEG4, H.264 etc.

From:

109.livejournal.com

слово "глупость" вы зря произнесли. теперь придётся отдуваться. давайте мне последовательность чисел и сколько битов вам потребовалось, чтобы её закодировать с помощью фибоначчи. а я скажу, сколько у меня без помощи. код у вас уже написан, так что вам легче, чем мне. если у меня уйдёт меньше битов, вы пишете отдельный пост про то, как вы проиграли пари, а если наоборот - то я.

Фибоначчи в народном хозяйстве

Page Summary

Style Credit

Expand Cut Tags