Dmitry Popov

Там данные ВМ, загрузчик и исходный интерпретатор. В приведенном выше коде оттуда только данные используются.

class VM {
public:
DWORD prg[16384];
int prglen;
double mem[16384];
bool status;
int time;

double inp[16384];
double out[16384];

VM() : status(false), time(0), prglen(0) {
for(int i=0; i<16384;i++) {
inp[i] = out[i] = mem[i] = 0.0;
prg[i] = 0;
}
}
...

From:

Есть вариант интерпретации такого кода с вычислимыми метками - вроде бы это близко к предельной скорость интерпретации для подобного кода.

Тут все таки много лишнего делается - какие-то выделения памяти, виртуальные вызовы и т.п.

void vm_run(char *pcode)
{
    unsigned int lit    = 0;
    unsigned int regs[] = { 0, 0, 0, 0 };
    unsigned int regi   = 0;

	void *opcodes[] = {
        &&op_nop, &&op_lit, &&op_add, &&op_sub
	}

    goto opcodes[*pcode++];

	op_nop:
		goto opcodes[*pcode++];

    op_load:
        // decode register
        // decode register
        // decode register
        regs[r_dst] = regs[r_src1] + regs[r_scr2];
		goto opcodes[*pcode++];

    op_add:
        // decode register
        // decode register
        // decode register
        regs[r_dst] = regs[r_src1] - regs[r_scr2];
		goto opcodes[*pcode++];

    // ...

}

From:

недоисправил метки, но суть я думаю, понятна

From:

Но это gcc-only, так?
Я в MSVC все компилю.

From:

Наверное, да. хотя MS моглаи поддержать, или у них есть какие-то аналоги. Все таки и switch, и вызов на опкод дают оверхед - в первом случае неэффективное сравнение, во втором затраты на пролог - эпилог вызываемой функции. По идее, если есть способ сгенерировать функцию без пролога - эпилога, то может тоже получится неплохо.

Где-то была статья, сравнивающая способы интерпретации такого байткода, можно попытаться ее найти, если надо.

From:

>Наверное, да. хотя MS моглаи поддержать, или у них есть какие-то аналоги.

Видимо, не поддержали и не предоставили аналогов. Именно поэтому исполнитель окамловского байткода, собранный в MSVC, медленнее собранного GCC.

From:

Выделения памяти только один раз - при "компиляции". Во время выполнения их нет.
Виртуальный вызов по стоимости должен быть сравним с
goto opcodes[*pcode++], возможно даже быстрее (т.к. индекс - константа).

From:

То есть другими словами, это решение рассчитывает на вариант, когда мы сравнительно небольшой код один раз "компилируем", а затем многократно исполняем?

Т.е. в случае однократного прогона, в режиме обычной vm - особой прибыли не будет? Тогда, в общем, понятно.

From:

Я вот никак не пойму, чем это лучше, чем простой switch?

From:

ну скомпилируйте "простой свитч" и приведите то, во что он скомпилируется. думаю, комментарии будут излишни.

From:

run():
.LFB17:
	pushl	%esi
.LCFI0:
	pushl	%ebx
.LCFI1:
	xorl	%ebx, %ebx
	subl	$20, %esp
.LCFI2:
	.p2align 4,,7
	.p2align 3
.L32:
	movl	prg(,%ebx,4), %eax
	movl	%eax, %edx
	movl	%eax, %ecx
	shrl	$14, %ecx
	movl	%eax, %esi
	shrl	$28, %edx
	andl	$16383, %ecx
	andl	$16383, %esi
	cmpl	$6, %edx
	jbe	.L42
	movl	%ebx, 8(%esp)
	movl	%edx, 4(%esp)
	movl	$.LC3, (%esp)
	call	printf
.L33:
	addl	$20, %esp
	popl	%ebx
	popl	%esi
	ret
	.p2align 4,,7
	.p2align 3

Вот, собственно, и он, простой switch:

.L42:
	jmp	*.L10(,%edx,4)
	.section	.rodata
	.align 4
	.align 4
.L10:
	.long	.L3
	.long	.L4
	.long	.L5
	.long	.L6
	.long	.L7
	.long	.L8
	.long	.L9

From:

ok, я как раз собирался развить эту тему у себя несколько позже. сравнить скорость интерпретации разных реализаций. нюанс не только в раскрытии свичта, но есть и другие бенефиты, правда менее заметные.

если приведете компилятор, опции и исходник, который собирался - тоже будет полезно. возможно, со времен gcc 3.X компиляторы продвинулись, но в моей специфике приходится полагаться в лучшем случае на gcc 3.X, так как embedded компиляторы делаются на его базе. там все намного более печально.

From:

g++ (Debian 4.3.2-1.1) 4.3.2

А исходник - тот самый, что в http://thedeemon.livejournal.com/1569.html.

From:

http://dmzlj.livejournal.com/45288.html

From:

Да, опции - -O3 -fomit-frame-pointer

From:

Вот тут у меня возникает непонимание - по идее, самой проблемной операцией является сравнение опкодов и определение кода, который будет тот или иной опкод исполнять.

Т.е. до меня никак не может дойти, что где мы выигрываем, сначала пройдясь и построив всю цепочку, применив теже самые сравнения, а потом просто эту цепочку пробежав.

Кроме того, под вопросом как оно себя поведет, например, если байткодов много. Т.е. под 300 - 500 инструкций навыделять кусочков памяти не вопрос, а вот под 5'000'000 ?

Я свою попытку сделать vm на окамле тестировал на примерно таком количестве.

From:

Данная ВМ была для ICFPC'09, там программа исполняется миллионы раз. Поэтому да, подход именно один раз скомпилять и много раз выполнить. У меня это активно использовалось в решении - многократно просчитывалось движение спутников на 1000 секунд вперед.

Ускорение исполнения в 1,3 раза не покрывает расходов на "компиляцию" при однократном запуске.

С сильно большой программой получится менее cache friendly и выигрыш может сойти на нет.

From:

andrew-falaleev.livejournal.com

В C++ есть шаблоны и наследие C - макросы.
У вас куча однотипного кода написано - это все замечательно сокращается до небольшой портяночки.

Оно конечно хорошо, что вы все таки проверили, что он и правда быстрее, но то что объем кода будет очень большой - несовсем верно.

From:

Можно пример кода?
Запихивать целый класс в макрос как-то не привык..

From:

andrew-falaleev.livejournal.com

Например самый простой вариант. Вы же используете MSVC, там в том же MFC часто встречаются макросы.

#define CLASS_BEGIN(NAME) \
class NAME : public Command { \
public: \
NAME(int _ip, int _r1, int _r2, Command *k, VM& _vm) :\
Command(_ip, _r1, _r2, k, _vm) {} \
virtual void Execute() {

#define CLASS_END next->Execute(); } };

Тогда ваши портянки сведутся к:

CLASS_BEGIN(Add) vm.mem[ip] = vm.mem[r1] + vm.mem[r2]; CLASS_END
CLASS_BEGIN(Sub) vm.mem[ip] = vm.mem[r1] - vm.mem[r2]; CLASS_END
...

Там у вас ниже CmpLEZ - оно маленько отличается. Если грубо, то можно в лоб:

CLASS_BEGIN(CmpLEZ) vm.mem[k->ip] = vm.mem[r1] <= 0 ? vm.mem[k->pr1] : vm.mem[k->pr2]; k-> CLASS_END

Это как самый простой вариант уменьшения объема кода. Возможны другие подходы.

From:

Спасибо! Действительно, можно сделать так. Но чтобы придти к такому сжатому варианту и понять как именно его получить, надо сначала написать несжатый (хотя бы часть). Итоговое число строк сократится, а время и усилия на разработку не очень.

From:

lesterzx.livejournal.com

Ну нельзя настолько специально подтасовывать, а также вводить в заблуждение относительно читабельности кода, просто сделай вариант на С c "расшифровкой" и последующим кодом в виде:

for( size_t i = 0 ; i < progLen ; ++i )
{
switch( cm[ i ] )
{
case ADD: mem[ i ] = arg1[ i ] + arg2[ i ]; break;
case MIN: mem[ i ] = arg1[ i ] - arg2[ i ]; break;
...
}
}

( то что ты "забыл" сделать в первом варианте ) и удивись полученному приросту от отсутствия трех switch и шести строк на расшифовку комманд

From:

Верно. Еще избавиться от case и break, и получится почти Окамл. :)

From:

lesterzx.livejournal.com

mem[ arg1[ i ] ] и mem[ arg2[ i ] ] конечно, кстати интересно услышать про компилятор и параметры оптимизации

From:

MSVC 6.0, Release.

From:

lesterzx.livejournal.com

а теперь попробуйте VC2008 + оптимизация O2( я молчу про подбор остальных параметров ), и даже на вашем варианте почувствуйте разницу

From:

Извините, но вы пишете странные вещи. Как может программа, набитая new и вызовами виртуальных функций, быть быстрее программы с одним простым циклом со счётчиком, внутри которого switch с инлайновым кодом, оптимизирующийся компилятором почти идеально? (Во всяком случае, мой эксперимент показывает, что она и не быстрее, а медленнее примерно в полтора раза.)

Если бы вы выложили компилируемый пример для обоих случаев, то это был бы аргумент. Пока же и умозрительно, и экспериментально я вижу, что вторая программа медленнее первой.

From:

Если компилировать один раз, а потом много раз исполнять, то, признаю, получится сильно быстрее.

From:

http://users.livejournal.com/_kleptos_/

> оптимизатор в Окамле почти никакой
это чуть более, чем полностью не соответствует действительности.

From: