javac 编译器原理

来源:互联网 发布:淘宝直通车显示原价 编辑:程序博客网 时间:2024/04/30 17:34
  1. Javac 是什么
javac 是一种编译器,能讲一种语言规范转化成另外一种语言规范。如C,C++都是将源码直接编译成目标机器码,这个目标机器码是CPU直接执行的指令集合。
这些指令集合也就是底层的一种语言规范,机器能够直接识别这种语言规范,但是人不可能直接去写目标机器码。

从某种意义来说,有了编译器才有了程序语言的繁荣,因为编译器是人类和机器沟通的一个纽带。javac 的编译器也是将JAVA 这种对人非常友好的编程语言编译成对所有机器都非常友好的语言。

javac 的任务就是将Java源码编译成Java字节码,也就是JVM能够识别的二进制码。从表面上看就是将.java文件转成.class文件,实际上是将Java的源码转化成二进制数字。
2. javac 基本结构

源码——词法分析器——Token——语法分析器——语法树——语义分析器——注解语法树——代码生成器——字节码

1)词法分析

读取源代码,一个字节一个字节地读进来,找到这些字节中哪些是定义的语法关键词,如Java中的if、else、for、while等关键词,要识别哪些if是合法的关键词、哪些不是。

从源码中找到一些规范化的Token流,就像人类语言中,给你一句话要能分辨出哪些是一个词语、哪些是标点符号、哪些是动词、哪些是名词等。

       Scanner负责具体读取和归类不同词法的操作,判断哪些字符组合是一个Token。JavacParser规定了哪些词是符合Java语言规范规定的词:package语法、import语法、类定义、field定义、method定义、变量定义、表达式定义等,每个语法表达式用分号结束。


2)语法分析

对Token流进行语法分析,检查这些关键词组合在一起是不是符合Java语言规范,如if的后面是不是紧跟着一个布尔判断表达式。就像人类语言中,是不是有主谓宾,主谓宾结合得是不是正确,语法是不是正确。

形成一个符合Java语言规范的抽象语法树,抽象语法树是一个结构化的语法表达式形式,它的作用是把语言的主要词法用一个结构化的形式组织在一起。这颗语法树可以被我们后面按照新的规则重新组织。

将token流组建成更加结构化的语法树,也就是间一个个单词组装成一句话,一个完整的语句。哪些词语组合在一起是主语、哪些是谓语、哪些是宾语、哪些是定语,要做进一步区分。Java语法树使得Java源代码更加结构化:每个语法树上的节点都是com.sun.tools.javac.tree.JCTree的一个实例,①每个语法节点都会实现一个接口xxxTree,这个接口又继承于com.sun.source.tree.Tree接口,如IfTree语法节点表示一个if类型的表达式,BinaryTree语法节点代表一个二元操作表达式等;②每个语法节点都是com.sum.tools.javac.tree.JCTree的子类,并且会实现xxxTree接口类,这个类的类名类似于JCxxx,如实现IfTree接口的实现类为JCIf,实现BinaryTree接口的类为JCBinary等;③所有的JCxxx类都作为一个静态内部类在JCTree类中。

 

3)语义分析

       把一些难懂的、复杂的语法转化成更加简单的语法。这个步骤类似将难懂的文言文转化成大家都能懂的白话文或者注解一下一些成语,便于人们更好地理解。

       将复杂的语法转化成最简单的语法,对应到Java中,如将foreach转成for循环结构,还有注解等,最后形成一个注解过后的抽象语法树,这颗语法树更接近目标语言的语法规则。

com.sum.tools.javac.comp.Enter:符号表的构建

1)将Java类中的符号输入到符号表中

1)给类添加默认的构造函数

com.sun.tools.javac.processing.JavacProcessingEnvironment:annotation处理

2)处理annotation注解

com.sun.tools.javac.comp.Attr:标注和语法检查

3)检查操作变量类型是否匹配,操作数|方法返回值类型匹配com.sun.tools.javac.comp.Check

3)检查变量、方法或类的访问是否合法、变量是否是静态变量、变量在使用前是否已经初始化com.sun.tools.javac.comp.Resolve

3)推导出泛型方法中的参数类型com.sum.tools.javac.comp.Infer

3)将一些常量进行合并处理com.sum.tools.javac.comp.ConstFold

com.sun.tools.javac.comp.Flow数据流分析

4)检查变量在使用前是否已经正确赋值

4)包装final修饰的变量不会被重新赋值

4)方法的返回值类型都要确定

4)检查所有的操作是否可达

4)检查checked exception异常是否已经捕获或抛出

5)解除Java的语法糖

5)去掉无用的代码,如永假的if代码块

5)变量的自动转换,如将int自动包装成Integer类型或者相反的操作等;

 

 

4)代码生成器

       根据经过注解的抽象语法树生成字节码,将一个数据结构转化为另一个数据结构,类似将所有的中文语句翻译成英文单词后按照英文语法组装成英文语句。

       com.sun.tools.javac.jvm.Gen

①将Java方法中的代码块转成符合JVM语法的命令形式,JVM的操作都是基于栈的,所有的操作都必须经过出栈和进栈来完成。

②安装JVM的文件组织格式将字节码输出到以class为扩展名的文件中。

2个类:

①Items:任何可寻址的操作项,这些包括本地变量、类实例变量或者常量池中用户自定义的常量等,这些操作项都可以作为一个单位出现在操作栈上

②Code:存储生成的字节码和提供一些能够映射操作码的方法


Javac中访问者模式的实现

词法分析、语法分析、语义分析和代码生成都要多次遍历语法树,但每次遍历这颗语法树都会进行不同的处理动作。Javac采用访问者模式设计,每次遍历都是一次访问者的执行过程。

访问者模式可以将数据结构和对数据结构的操作解耦,使得增加对数据结构的操作不需要去修改数据结构,也不必去修改原有的操作,而执行时再定义新的Visitor实现者就可以。在Javac中不同的编译阶段都定义了不同的访问者模式实现。

①TreeScanner、Enter、Attr、Gen、Flow等都是作为具体访问者角色,每个访问者都定义了自己的访问规则.

②EJCIf、JCTry、JCBreak、JCReturn都是具体节点元素,作为一个稳定的数据结构存在。


0 0
原创粉丝点击