Строка разбирается на значимые части (IP, запрошенный файл, реферрер, ключевые слова и т.д.), для каждой части есть словарь - пара Hashtbl'ов из исходного вида в уникальный int и обратно. В памяти хранится отфильтрованный лог (без обращений к картинкам, например), где все части представлены числами. При выборе нужной информации сравниваются только int'ы - ключи словарей.
no subject