thedeemon | множества

А вот задачка, может кто подскажет, как такие решаются.
Есть набор из 65000 множеств, в каждом множестве от 1 до 35000 элементов (элементы - 16-битные целые числа), причем распределение размеров весьма неравномерное: среднее число элементов около 50, медианное - 13, т.е. большая часть множеств имеет менее 20 элементов, но есть и содержащие десятки тысяч. Мне нужно уменьшить этот набор путем объединения "похожих" множеств так, чтобы минимизировать сумму размеров множеств, но с таким ограничением: объединение множеств A,В,С... в некое Х возможно лишь тогда, когда размер получающегося Х не более чем в К раз (скажем, К=4) больше, чем размер каждого из А,В,С... Т.е., например, нельзя объединять множество из 10 элементов с множеством из 100. Объединять непересекающиеся множества нет смысла, а чем сильнее множества пересекаются ("похожи"), тем выгоднее их объединить.

Самое оптимальное решение не требуется, можно предлагать эвристики. Наивные переборные решения многовато операций и/или памяти требуют. Желательно уложиться в 2 гига памяти и час процессорного времени.

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Most Popular Tags

android - 3 uses
asia - 51 uses
ats - 6 uses
c++ - 4 uses
clean - 2 uses
codejam - 2 uses
compression - 6 uses
d - 31 uses
elm - 2 uses
foxnews - 3 uses
fp - 113 uses
fun - 86 uses
geometry - 3 uses
haskell - 10 uses
haxe - 5 uses
humour - 6 uses
icfpc - 11 uses
idfpc - 3 uses
idris - 13 uses
information - 6 uses
interpreter optimization - 2 uses
leo - 11 uses
life - 19 uses
linux - 4 uses
mind - 2 uses
movies - 16 uses
music - 11 uses
ocaml - 19 uses
oop - 2 uses
pano - 3 uses
parsers - 7 uses
programming - 8 uses
python - 2 uses
rant - 5 uses
relativity - 3 uses
ruby - 4 uses
rust - 2 uses
shareware - 1 use
spbench - 3 uses
travel - 2 uses
uk - 20 uses
vm - 3 uses
work - 22 uses
дыбр - 2 uses
квадрокопетр - 9 uses
кванты - 5 uses
наброс - 2 uses
находки - 3 uses
простофото - 19 uses
теоркат - 11 uses

Flat | Top-Level Comments Only

From:

nivanych.livejournal.com

Видимо, ещё надо учитывать размер множеств — сильно разные размеры должны ещё дополнительно расстояния добавлять.
Метрическое дерево предназначено для поиска ближайшего соседа.
Даёшь элемент метрического пространства, оно быстро отыскивает ближайший или N ближайших по этой метрики.
Построение дерева — NlogN, поиск — logN.
Поиск K ближайших соседей — logN + K.
Есть B-подобная вариация (видел про это статью от того самого тов. Брина).
Ещё такое реализуется внутри постгреса (GiST).
http://en.wikipedia.org/wiki/Metric_tree
Позволит относительно несложно выбирать группки достаточно похожих множеств.
Взял элемент и выбрал по какому-то признаку похожие с ним. Хоть бы и тупо всё в таком-то радиусе. С остатком поступил как-то так же.
Можно и просто идти от корня дерева и компрессировать, добавляя диффы.

Dmitry Popov

множества

множества

no subject

Profile

December 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags