tinypy源码笔记(三)——虚拟机启动过程以及字节码分析

来源:互联网 发布:苹果cms模板怎么用 编辑:程序博客网 时间:2024/06/07 12:31

启动过程

直接开门见山好了,程序入口为vmmain.cmain函数,启动过程总结起来是以下四步

  • 实例化虚拟机,分配内存,初始化根节点对象,初始化GC
  • 编译,将python源文件编译成tpc字节码(python的字节码是pyc)
  • 执行字节码
  • 释放资源

具体代码分析如下

int main(int argc, char *argv[]) {    tp_vm *tp = tp_init(argc,argv); // 根据命令行参数生成tp_vm实例    tp_import(tp,argv[1],"__main__",0,0); // 执行目标python文件    tp_deinit(tp); // 释放tp_vm实例占用的资源    return(0);}

然后再看看tp_init函数做了什么

tp_vm *tp_init(int argc, char *argv[]) {    tp_vm *tp = _tp_init(); // 分配内存,初始化GC以及根节点对象    tp_builtins(tp); // 注册built-in函数    tp_args(tp,argc,argv); // 初始化命令行,赋值到全局变量ARGV    tp_compiler(tp); // 编译源文件    return tp;}

代码执行过程

代码执行过程主要在tp_import函数中,让我们来看看具体是怎么样子的。

核心代码如下

// _tp_importif (!((fname.type != TP_NONE && _tp_str_index(fname,tp_string(".tpc"))!=-1) || code.type != TP_NONE)) {    return tp_ez_call(tp,"py2bc","import_fname",tp_params_v(tp,2,fname,name));}g = tp_dict(tp);tp_set(tp,g,tp_string("__name__"),name); // 模块名tp_set(tp,g,tp_string("__code__"),code); // 模块字节码tp_set(tp,g,tp_string("__dict__"),g);    // 模块的全局对象,也就是globals()tp_frame(tp,g,code,0);                   // 非常重要,初始化方法栈,可以理解为初始化临时变量表locals(),创建新的函数调用栈tp_set(tp,tp->modules,name,g);           // 注册模块到根节点,tp->moduels等价于python中的sys.modulesif (!tp->jmp) { tp_run(tp,tp->cur); }    // 看到run终于舒了一口气,要开始执行了

大丈夫不拘小节,抛开细节,我们看到tp_run最终是下面这样

tp->jmp += 1; if (setjmp(tp->buf)) { tp_handle(tp); } // 处理异常,不管while (tp->cur >= cur && tp_step(tp) != -1); // 就是你了tp->jmp -= 1; // 恢复现场

山重水复疑无路,柳暗花明又一村。tp_step其实才是我们要找的函数,看看函数大小就知道了,哈哈哈。tp_step实际上就已经是字节码的执行过程了,字节码听起来非常高大上,一说大家就想到了jvm啊之类的。其实字节码是非常简单,这也是实现跨平台的常用技术,其实就是字节化的中间代码。tinypy中一共有50个字节码,其中有49个有具体的含义,最后一个TP_ITOTAL无特殊意义,作为记录字节码长度作用(枚举值从0开始,TP_ITOTAL刚好等于前面的字节码个数)

下面开始介绍字节码,首先tinypy是基于寄存器的虚拟机字节码,主流语言使用寄存器的语言我知道的主要是lua和dalvik(安卓上的jvm),于此相对的是基于栈的虚拟机,目前大部分高级语言的虚拟机(java,C#,python)等都是基于栈的,关于这方面知识R大大在虚拟机随谈(一):解释器,树遍历解释器,基于栈与基于寄存器,大杂烩中讲的非常清楚,大家有兴趣的可以去看看

这里简单介绍一下基于寄存器的虚拟机,现实中的CPU绝大部分是基于寄存器的,比如X86,ARM等。基于寄存器的虚拟机指令一般是

操作符 结果寄存器(RA) 参数1(RB) 参数2(RC)

举个例子

c = a + b;

编译成字节码就是

ADD [c] [a] [b] // [n] 指变量n对应的寄存器地址,虚拟机地址一般是寄存器数组的下标

再举个复杂一点的例子

if (a > 10):    print('a > 10')

编译成字节码是

1: TP_INUMBER B 10          // B = 102: TP_ILT C B A             // tinypy只定义了<符号,>操作需要交换两个值; C = B < A3: TP_IIF C                 // if C: 跳过一条指令4: TP_IJUMP 4               // 跳过4条指令5: TP_ISTRING D 'print'     // D = 'print6: TP_IGGET E D             // E = globals()[D]7: TP_ISTRING F 'a > 10'    // F = 'a > 10'8: TP_ICALL E F 1           // tp_call(E, 1, F);

tinypy中的有三个宏RA,RB,RC分别对应这三个寄存器

int tp_step(TP) {    tp_frame_ *f = &tp->frames[tp->cur];    tp_obj *regs = f->regs;    tp_code *cur = f->cur;    while(1) {    #ifdef TP_SANDBOX    tp_bounds(tp,cur,1);    #endif    tp_code e = *cur;    /*     fprintf(stderr,"%2d.%4d: %-6s %3d %3d %3d\n",tp->cur,cur - (tp_code*)f->code.string.val,tp_strings[e.i],VA,VB,VC);       int i; for(i=0;i<16;i++) { fprintf(stderr,"%d: %s\n",i,TP_xSTR(regs[i])); }    */    switch (e.i) {        case TP_IEOF: tp_return(tp,tp_None); SR(0); break; // 处理返回值        case TP_IADD: RA = tp_add(tp,RB,RC); break; // 加法运算        case TP_ISUB: RA = tp_sub(tp,RB,RC); break; // 减法运算        case TP_IMUL: RA = tp_mul(tp,RB,RC); break; // 乘法运算        case TP_IDIV: RA = tp_div(tp,RB,RC); break; // 除法运算        case TP_IPOW: RA = tp_pow(tp,RB,RC); break; // 乘方运算        case TP_IBITAND: RA = tp_bitwise_and(tp,RB,RC); break;  // 与        case TP_IBITOR:  RA = tp_bitwise_or(tp,RB,RC); break;   // 或        case TP_IBITXOR:  RA = tp_bitwise_xor(tp,RB,RC); break; // 异或        case TP_IMOD:  RA = tp_mod(tp,RB,RC); break; // 取模运算        case TP_ILSH:  RA = tp_lsh(tp,RB,RC); break; // 左移运算        case TP_IRSH:  RA = tp_rsh(tp,RB,RC); break; // 右移运算        case TP_ICMP: RA = tp_number(tp_cmp(tp,RB,RC)); break;   // 比较运算        case TP_INE: RA = tp_number(tp_cmp(tp,RB,RC)!=0); break; // 不等于判断        case TP_IEQ: RA = tp_number(tp_cmp(tp,RB,RC)==0); break; // 等于判断        case TP_ILE: RA = tp_number(tp_cmp(tp,RB,RC)<=0); break; // 小于等于判断        case TP_ILT: RA = tp_number(tp_cmp(tp,RB,RC)<0); break;  // 小于判断        case TP_IBITNOT:  RA = tp_bitwise_not(tp,RB); break;     // 按位取反,也就是~        case TP_INOT: RA = tp_number(!tp_bool(tp,RB)); break;    // not操作        case TP_IPASS: break; // pass操作        case TP_IIF: if (tp_bool(tp,RA)) { cur += 1; } break;   // RA为真则继续,下一个指令时跳转指令        case TP_IIFN: if (!tp_bool(tp,RA)) { cur += 1; } break; // RA不为真继续        case TP_IGET: RA = tp_get(tp,RB,RC); GA; break;         // RA = RB[RC]        case TP_IITER:                                          // 迭代器,RB是计数器            if (RC.number.val < tp_len(tp,RB).number.val) {                RA = tp_iter(tp,RB,RC); GA;                RC.number.val += 1;                #ifdef TP_SANDBOX                tp_bounds(tp,cur,1);                #endif                cur += 1;            }            break;        case TP_IHAS: RA = tp_has(tp,RB,RC); break;  // 包含运算        case TP_IIGET: tp_iget(tp,&RA,RB,RC); break; // RA = RB[RC], 如果RB没有RC属性,不会抛出异常        case TP_ISET: tp_set(tp,RA,RB,RC); break;    // RA[RB] = RC        case TP_IDEL: tp_del(tp,RA,RB); break;       // delete RA[RB]        case TP_IMOVE: RA = RB; break;               // RA = RB        case TP_INUMBER:                             // RA = 数字,相当于反序列化或者解码            #ifdef TP_SANDBOX            tp_bounds(tp,cur,sizeof(tp_num)/4);            #endif            RA = tp_number(*(tp_num*)(*++cur).string.val);            cur += sizeof(tp_num)/4;            continue;        case TP_ISTRING: {                           // RA = 字符串,同数字            #ifdef TP_SANDBOX            tp_bounds(tp,cur,(UVBC/4)+1);            #endif            /* RA = tp_string_n((*(cur+1)).string.val,UVBC); */            int a = (*(cur+1)).string.val-f->code.string.val;            RA = tp_string_sub(tp,f->code,a,a+UVBC),            cur += (UVBC/4)+1;            }            break;        case TP_IDICT: RA = tp_dict_n(tp,VC/2,&RB); break;   // RA = [RB开始的K-V列表组成的字典,长度为RC/2]        case TP_ILIST: RA = tp_list_n(tp,VC,&RB); break;     // RA = [RB开始列表,长度为RC]        case TP_IPARAMS: RA = tp_params_n(tp,VC,&RB); break; // RA = [RB开始的参数列表,长度为RC]        case TP_ILEN: RA = tp_len(tp,RB); break;     // RA = len(RB)        case TP_IJUMP: cur += SVBC; continue; break; // 跳转, SVBC是RB<<4 + RC        case TP_ISETJMP: f->jmp = SVBC?cur+SVBC:0; break;        case TP_ICALL:                                // 调用函数,tp_call            #ifdef TP_SANDBOX            tp_bounds(tp,cur,1);            #endif            f->cur = cur + 1;  RA = tp_call(tp,RB,RC); GA;            return 0; break;        case TP_IGGET:                                     // RA = globals()[RB]            if (!tp_iget(tp,&RA,f->globals,RB)) {                RA = tp_get(tp,tp->builtins,RB); GA;            }            break;        case TP_IGSET: tp_set(tp,f->globals,RA,RB); break;    // globals()[RA] = RB        case TP_IDEF: {                                       // 定义函数, tp_def把函数字节码关联到函数结构体上/*            RA = tp_def(tp,(*(cur+1)).string.val,f->globals);*/            #ifdef TP_SANDBOX            tp_bounds(tp,cur,SVBC);            #endif            int a = (*(cur+1)).string.val-f->code.string.val;            RA = tp_def(tp,                /*tp_string_n((*(cur+1)).string.val,(SVBC-1)*4),*/                tp_string_sub(tp,f->code,a,a+(SVBC-1)*4),                f->globals);            cur += SVBC; continue;            }            break;        case TP_IRETURN: tp_return(tp,RA); SR(0); break; // 返回结果        case TP_IRAISE: _tp_raise(tp,RA); SR(0); break;  // 抛出异常        case TP_IDEBUG:                                  // DEBUG            tp_params_v(tp,3,tp_string("DEBUG:"),tp_number(VA),RA); tp_print(tp);            break;        case TP_INONE: RA = tp_None; break;              // RA = None        case TP_ILINE:                                   // 当前行代码,用于异常的展示            #ifdef TP_SANDBOX            tp_bounds(tp,cur,VA);            #endif            ;            int a = (*(cur+1)).string.val-f->code.string.val;/*            f->line = tp_string_n((*(cur+1)).string.val,VA*4-1);*/            f->line = tp_string_sub(tp,f->code,a,a+VA*4-1);/*             fprintf(stderr,"%7d: %s\n",UVBC,f->line.string.val);*/            cur += VA; f->lineno = UVBC;            break;        case TP_IFILE: f->fname = RA; break;            // 设置文件名,打印异常栈使用        case TP_INAME: f->name = RA; break;             // 设置模块名,初始化模块        case TP_IREGS: f->cregs = VA; break;            // 初始化寄存器数组        default:            tp_raise(0,tp_string("(tp_step) RuntimeError: invalid instruction"));            break;    }    #ifdef TP_SANDBOX    tp_time_update(tp);    tp_mem_update(tp);    tp_bounds(tp,cur,1);    #endif    cur += 1;    }    SR(0);}

我实现的虚拟机 http://github.com/xupingmao/minipy

0 0
原创粉丝点击