Фибоначчи в народном хозяйстве
Sep. 18th, 2010 12:57 amВсякий знает, что вычисление чисел Фибоначчи - важнейшая задача программирования, поэтому именно с нее нередко начинают обучение. Некоторые языки программирования, похоже, были созданы специально для решения этой задачи (prooflink). Однако не все еще нашли применение этим чудесным числам в быту.
Понадобилось мне тут недавно уметь компактно представить набор целых чисел: при проверке на наличие новых версий а также при деинсталляции программа передает на сервер номер своей версии, а заодно кое-какую статистику, вроде числа запусков, количества дней с момента установки и т.п. Передавать нужно GET'ом, ибо при деинсталляции это делает не сама программа, а скрипт установщика, к тому же хочется сразу иметь эти данные в логах апача. Чисел получилось много, в явном виде запрос получился бы сильно длинным и некрасивым. Решил применить какое-нибудь простое сжатие.
Числа все неотрицательные, сверху не ограниченные, и вероятность встречи числа быстро уменьшается с ростом самого числа. Для таких данных есть семейство кодов переменной длины, называемое универсальными кодами. Большинство из них сначала кодируют некоторым образом число битов (например, унарно), а затем сами биты кодируемого числа. Но длина таких кодов растет довольно быстро. Зато есть более интересный и для нужных мне значений более эффективный способ представления - коды Фибоначчи. Они основаны на теореме одного зубного врача из бельгийской армии, которая говорит, что всякое натуральное число можно уникальным образом представить в виде суммы чисел Фибоначчи, причем в такой сумме никогда не будет двух последовательных членов ряда. Ряд начинается так: 1, 2, 3, 5, 8, 13, 21... Тогда 6 = 1+5, 15 = 2+13, 31 = 2+8+21. Чтобы закодировать число последовательностью битов, достаточно пройтись по ряду Фибоначчи до требуемого числа и проставить единицы напротив входящих в сумму членов и нули напротив невходящих. Поскольку по построению у нас не может быть подряд двух единиц, этот факт используется для маркировки конца числа: после последней единицы ставим еще одну и код готов, длину числа хранить нигде не надо. Примеры:
В итоге у меня требуемый набор чисел превращается в такую битовую последовательность, которая затем кодируется по пять цифрами и буквами в Base32. Получается обычно по 12-15 символов на 24 исходных инта.
А вот и сам автор теоремы - полковник Эдуард Цекендорф:

Понадобилось мне тут недавно уметь компактно представить набор целых чисел: при проверке на наличие новых версий а также при деинсталляции программа передает на сервер номер своей версии, а заодно кое-какую статистику, вроде числа запусков, количества дней с момента установки и т.п. Передавать нужно GET'ом, ибо при деинсталляции это делает не сама программа, а скрипт установщика, к тому же хочется сразу иметь эти данные в логах апача. Чисел получилось много, в явном виде запрос получился бы сильно длинным и некрасивым. Решил применить какое-нибудь простое сжатие.
Числа все неотрицательные, сверху не ограниченные, и вероятность встречи числа быстро уменьшается с ростом самого числа. Для таких данных есть семейство кодов переменной длины, называемое универсальными кодами. Большинство из них сначала кодируют некоторым образом число битов (например, унарно), а затем сами биты кодируемого числа. Но длина таких кодов растет довольно быстро. Зато есть более интересный и для нужных мне значений более эффективный способ представления - коды Фибоначчи. Они основаны на теореме одного зубного врача из бельгийской армии, которая говорит, что всякое натуральное число можно уникальным образом представить в виде суммы чисел Фибоначчи, причем в такой сумме никогда не будет двух последовательных членов ряда. Ряд начинается так: 1, 2, 3, 5, 8, 13, 21... Тогда 6 = 1+5, 15 = 2+13, 31 = 2+8+21. Чтобы закодировать число последовательностью битов, достаточно пройтись по ряду Фибоначчи до требуемого числа и проставить единицы напротив входящих в сумму членов и нули напротив невходящих. Поскольку по построению у нас не может быть подряд двух единиц, этот факт используется для маркировки конца числа: после последней единицы ставим еще одну и код готов, длину числа хранить нигде не надо. Примеры:
Fib: 1 2 3 5 8 13 21 34 | Code 1: * | 11 2: * | 011 3: * | 0011 4: * * | 1011 10: * * | 010011 16: * * | 0010011 42: * * | 000010011
В итоге у меня требуемый набор чисел превращается в такую битовую последовательность, которая затем кодируется по пять цифрами и буквами в Base32. Получается обычно по 12-15 символов на 24 исходных инта.
А вот и сам автор теоремы - полковник Эдуард Цекендорф:

no subject
Date: 2010-09-17 06:19 pm (UTC)Когда мы делали BWT-компрессор, то на одном из этапов остановились именно на DC + Фибоначчи. Вот только запамятовал почему - то ли потому, что арифметик тогда было писать непонятно как, то ли за перфомансом гнались... В общем, интересно все это. Спасибо за воспоминания =)
no subject
Date: 2010-09-17 06:24 pm (UTC)no subject
Date: 2010-09-17 06:26 pm (UTC)no subject
Date: 2010-09-17 06:25 pm (UTC)no subject
Date: 2010-09-17 06:32 pm (UTC)no subject
Date: 2010-09-17 06:31 pm (UTC)http://en.wikipedia.org/wiki/File:Fibonacci,_Elias_Gamma,_and_Elias_Delta_encoding_schemes.GIF
no subject
Date: 2010-09-17 09:46 pm (UTC)no subject
Date: 2010-09-18 12:35 am (UTC)Верно. Невыгодность начинается где-то с 10^4, а ожидаемое распределение таково, что 99,9% чисел будут в пределах тысячи, а 90% в пределах сотни. На таких порядках варианты с длинами проигрывают, что и показано на картинке.
>что интересно, маленькие числа кодировать fibonacci тоже невыгодно, поскольку их всё равно надо в конечном итоге (чтобы передать) запихивать во что-то стандартное, типа int
Bitstream уже отменили? По одному их передавать действительно нет смысла, но набор - уже есть.
>таким образом, использовать fibonacci не имеет смысла никогда
Очевидная глупость, ибо применима и к Хаффману и к прочим VLC, используемым повсеместно - mp3, MPEG4, H.264 etc.
no subject
Date: 2010-09-20 08:22 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2010-09-27 10:11 am (UTC)меньше одного байта не перешлёшь, отсюда и плясать.
например, если речь о 8-битных числах (для простоты):
- числа 0..0x7f пересылаются одним байтом.
- числа 0x80..0x3fff пересылаются двумя байтами, где первый байт сообщения маскированный 0xc0 даёт 0x80. это уже числа до 16К. далее забиваем на выигрыш от уродства кодов переменной длины и кодируем длину сообщения в байтах.
аналогичная схема для base64.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2010-09-17 07:51 pm (UTC)...
> Большинство из них сначала кодируют некоторым образом число битов
Гм, я правильно понимаю, что если числа неограничены сверху, то возникает задача определения числа битов в числе битов и мы в некотором роде впадаем в рекурсию? :)
no subject
Date: 2010-09-18 12:22 am (UTC)no subject
Date: 2010-09-17 09:53 pm (UTC)no subject
Date: 2010-09-17 10:06 pm (UTC)Обращаю внимание, что типичный HTTP GET заголовок - это уже порядка 300 байт по TCP. То есть экономия с 60 байт до 12 не в 5 раз, а всего на 15%.
Я бы закодировал числа в строчку как-нить так
0-12-F5-AE75-0-0-0-2-0-FFDDEE-0-0-0-0-0-0
(минусы вместо например '|' - шоб разделитель оставался одним символом а не "%A6", помним про URL encoding)
Да, у меня было бы минимум 47 байт в запросе. Однако плюсы в данном случае IMO перевешивают: время разработки минуты а не часы, и human readable формат данных.
P.S. А как ты кодируешь число 0 ?
no subject
Date: 2010-09-18 12:26 am (UTC)Про 0 - кодирую везде N+1.
no subject
Date: 2010-09-18 12:46 am (UTC)no subject
Date: 2010-09-18 03:22 pm (UTC)Например пишешь 10 строк C# кода, который, если запрошен файл "Uninstall.aspx?s=...", сохраняет Request.QueryString["s"] в Session["s"], после чего отправляет клиенту HTTP 301 на Uninstall.aspx без параметров.
Все параметры на месте + чистый URL.
>это же представление используется для хранения статистики
А если в след. версии один счотчик исчезнет (причом не последний, а тот шо посередине), и появятся 2 новых?
>не возникнет желания ее выборочно попортить
IMO чувак, который открывает RegEdit и правит непонятные для него значения - весьма редкий use-case.
Когда на сайте support.microsoft.com есть инструкции по правке реестра, они всегда сопровождаются warning "serious problems might occur if you modify the registry incorrectly".
Где-то мне попадался warning даже страшнее, о том шо "вы можете сломать систему так шо потребуется её переустановка".
Несмотря на то что удалив единственный ключ (например из ветки HKCR), можно поиметь очень разнообразные проблемы, Microsoft не делает попыток защититься от таких чуваков.
Точнее, делает только если пиздец: "Restore last known good configuration".
no subject
Date: 2010-09-18 05:21 pm (UTC)Новые добавятся в конец. Ненужное значение не будет использоваться, по умолчанию там будет ноль, который тут кодируется двумя битами.
Я не спорю, можно было сделать и так, как ты говоришь. Но все же мне идея хранения и передачи статистики в явном виде не очень симпатична, а сжатие кодами Фибоначчи это фан. Могу позволись себе совместить приятное с полезным. :)
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2010-09-18 08:34 pm (UTC)как Вы могли пожертвовать идемпотентностью ради искусства!
no subject
Date: 2010-09-19 05:19 am (UTC)no subject
Date: 2010-10-06 06:58 pm (UTC)Если их частоты невозможно померять, то такой способ наверное лучший ибо красивый :)
no subject
Date: 2010-10-07 01:53 am (UTC)no subject
Date: 2014-02-21 08:33 am (UTC)Не совсем корректная формулировка. Всякое натуральное число можно представить уникальным образом в виде суммы чисел Фибоначчи, если запретить использование в сумме двух соседних членов последовательности.
no subject
Date: 2014-02-21 09:08 am (UTC)no subject
Date: 2014-02-21 11:19 am (UTC)