Antlr学习笔记
来源:互联网 发布:凤凰卫视的立场 知乎 编辑:程序博客网 时间:2024/05/17 19:18
Antlr学习笔记
一、引言
什么是Antlr?引用官方的说明就是:
What is ANTLR?ANTLR (ANother Tool for Language Recognition) is a powerful parser generator for reading, processing, executing, or translating structured text or binary files. It’s widely used to build languages, tools, and frameworks. From a grammar, ANTLR generates a parser that can build and walk parse trees.
从编译器的角度来看,Antlr可以用来帮助我们完成编译器前端所需要完成的一些工作:词法分析(Lexer Analysis)、语法分析(Syntax Analysis)、生成抽象语法树(Abstract Syntax Tree, AST)等等。语义分析(Semantic Analysis),例如类型检查,就需要我们自己来完成。
要使用Antlr生成语言的词法分析器(Lexer)和语法分析器(Parser),我们需要告诉Antlr语言的文法(Grammar)。Antlr采用的是上下文无关文法(Context Free Grammar),使用类似BNF的符号集来描述。使用上下文无关文法的语言比较常用的Parser有两种,LL Parser和LR Parser,而Antlr帮我们生成的是前者。
二、Antlr安装
1.命令行安装
安装好Java,在这里就不再赘述了
下载Antlr的jar包——Antlr Download
将antlr-4.7-complete.jar添加到系统环境变量的CLASSPATH中:
D:\antlr-v4.7\antlr-4.7-complete.jar;
为Antlr Tool和TestRig建立batch命令:
为了方便管理,我就在antlr-4.7-complete.jar所在文件夹下建立一个bat文件夹
在里面创建两个bat文件,一个叫antlr4.bat,内容如下:
java org.antlr.v4.Tool %*
另一个叫grun.bat,内容如下:
java org.antlr.v4.runtime.misc.TestRig %*
- 将这两个bat文件添加到系统环境变量的PATH中:
测试是否安装成功:
打开CMD
分别输入antlr4命令和grun命令,出现下图:
2.IDEA插件安装
打开IDEA,File -> Settings -> Plugins -> 导航栏搜索Antlr -> Search in repositories -> Install
这样就安装完成了,方便快捷。
三、Antlr入门
首先我们先给出一个能识别Hello World那样的简单语法:
grammar Hello; // 定义文法的名字s : 'hello' ID; // 匹配关键字hello,后面跟着一个标志符ID : [a-z]+; // 匹配小写字母标志符WS : [ \t\r\n]+ -> skip; // 跳过空格、制表符、回车符和换行符
将这个语法保存为Hello.g4,然后执行以下命令来生成识别器:
antlr4 Hello.g4
Anltr会为我们在当前目录下生成6个文件:
Hello.tokens HelloLexer.java HelloParser.javaHelloLexer.tokens HelloBaseListener.java HelloListener.java
执行
javac Hello*.java
将所有java文件编译。这样,我们已经有了一个可以被HelloParser和HelloLexer利用的可执行的识别器,只缺一个主程序去触发语言识别了。ANTLR运行库有提供称之为TestRig的测试工具,可以让你不创建主程序就能测试语法。TestRig使用Java反射调用编译后的识别器,它能显示关于识别器如何匹配输入的大量信息。还记得我们之前创建的grun.bat文件吗?那就是用来调用TestRig的。
现在我们来执行一下:
grun Hello s -tokens
接着输入以下内容:
hello world #输入后回车EOF #Windows下按Ctrl+Z再按回车
TestRig会打印出记号列表,每一行输出表示一个记号以及它的有关信息:
[@0,0:4='hello',<1>,1:0][@1,6:10='world',<2>,1:6][@2,13:12='<EOF>',<-1>,2:0]
这里详细讲解下[@1,6:10=’world’,\<2>,1:6]的意义。@1表示记号索引(从0开始);6:10表示
记号开始与结束的位置(从0开始);\<2>表示记号类型,具体数值和类型存储在后缀名为
tokens的文件中;最后的1:6表示记号在第一行(从1开始),从第6个字符开始(从0开始,
制表符作为单个字符计算)。以下是TestRig可用的所有参数:
- -tokens 打印出记号流。
- -tree 以LISP风格的文本形式打印出语法分析树。
- -gui 在对话框中可视化地显示语法分析树。
- -ps file.ps在PostScript中生成一个可视化的语法分析树表示,并把它存储在file.ps文件
- -encoding encodingname 指定输入文件的编码。
- -trace 在进入/退出规则前打印规则名字和当前的记号。
- -diagnostics 分析时打开诊断消息。此生成消息仅用于异常情况,如二义性输入短语。
- -SLL 使用更快但稍弱的分析策略。
四、实战
现在让我们来用Antlr来实现一个简单的四则运算计算器吧!
1.准备工作
使用IDEA安装好Antlr插件,并创建一个Maven项目,在pom.xml下加入如下内容:
<!-- https://mvnrepository.com/artifact/org.antlr/antlr4-runtime --><dependency><groupId>org.antlr</groupId><artifactId>antlr4-runtime</artifactId><version>4.7</version></dependency>
创建Cal.g4文件,内容如下
grammar Cal;prog: stat+; //一个程序由至少一条语句组成/*为了以后的运算的方便性,我们需要给每一步规则打上标签,标签以”#”开头,出现在每一条规则的右边。打上标签后,antlr会为每一个规则都生成一个事件*/stat: ID '=' expr ';' #Assign //变量赋值语句| 'print' '(' expr ')' ';' #printExpr //输出语句;expr: expr op=('*'|'/') expr #MulDiv //表达式可以是表达式之间乘除 | expr op=('+'|'-') expr #AddSub //表达式可以是表达式之间加减 | NUM #NUM //表达式可以是一个数字 | ID #ID //表达式可以是一个变脸 | '(' expr ')' #parens //表达式可以被括号括起来 ;MUL:'*';DIV:'/';ADD:'+';SUB:'-';ID: [a-zA-Z][a-zA-Z0-9]*; //变量可以是数字和字母,但必须以字母开头//负数必须要用"()"括起来NUM: [0-9]+ //正整数 | '(' '-' [0-9]+ ')' //负整数| [0-9]+'.'[0-9]+ //正浮点数| '(' '-' [0-9]+'.'[0-9]+ ')' //负浮点数;WS: [ \t\r\n] -> skip; //跳过空格、制表符、回车、换行
在IDEA中配置文件,右击文件 -> Configure ANTLR…,如下图所示:
(注意要勾选generate parse tree visitor,后来的程序要用到)
配置完成后右键文件 -> Generate ANNTLR Recognizer
2.定义自己的Visitor
我们先看一下刚才生成的两个Visitor:
import org.antlr.v4.runtime.tree.ParseTreeVisitor;public interface CalVisitor<T> extends ParseTreeVisitor<T> {T visitProg(CalParser.ProgContext ctx);T visitAssign(CalParser.AssignContext ctx);T visitPrintExpr(CalParser.PrintExprContext ctx);T visitParens(CalParser.ParensContext ctx);T visitMulDiv(CalParser.MulDivContext ctx);T visitAddSub(CalParser.AddSubContext ctx);T visitNUM(CalParser.NUMContext ctx);T visitID(CalParser.IDContext ctx);}
- 接口定义使用的是Java泛型,visit方法的返回值为参数化类型,这允许我们根据表达式计算返回值的类型去设定实现的泛型参数。
- 看看我们这几个方法的名字,PrintExpr, Assign,Blank……有没有感觉很熟悉。没错这就是我们刚才在g4文件的时候为每一条规则的后面打上了tag。
- 而另一个visitor,LabeledExprBaseVisitor.java则是对本接口的一个简单的实现,我们后续的操作需要继承LabeledExprBaseVisitor.java来实现。
Visitor的作用顾名思义就是对整个语法树进行遍历,然后进行相关操作。我们需要重写每一个方法来实现我们自己的遍历,在这之前,我们先声明一个map。用于存放变量与其对应的值,即符号表
Map<String, Double> memory = new HashMap<String, Double>();
在这里,我们选择统一使用DOUBLE来表示数字,在输出结果的时候再做进一步的转换
visitAssign():
@Overridepublic Double visitAssign(CalParser.AssignContext ctx) { //获取ID的名字String id=ctx.ID().getText(); //调用expr()遍历子树,获取结果Double value=visit(ctx.expr()); //赋值给ID,存放入符号表中table.put(id,value); //返回dummy valuereturn null;}
visitPrint():
@Overridepublic Double visitPrintExpr(CalParser.PrintExprContext ctx) { Double value=visit(ctx.expr()); String str=value.toString(); int index=str.indexOf('.'); //检查是否为整数,截取小数点后的字符串,与"0"比较 if(str.substring(index+1).equals("0")) //是整数,只输出小数点之前的字符串 System.out.println(str.substring(0,index)); else //不是整数,直接输出 System.out.println(str); return null;}
visitMulDiv():
@Overridepublic Double visitMulDiv(CalParser.MulDivContext ctx) { Double left=visit(ctx.expr(0)); //左值 Double right=visit(ctx.expr(1)); //右值 //如果逻辑错误,获取出错地方的行号和列数 int line,column; if(ctx.op.getType()==CalParser.DIV){ //如果是除法 if(right==0.0){ line=ctx.expr(1).start.getLine(); column=ctx.expr(1).start.getStartIndex(); //除数为0,抛出异常 try{ throw new CalException(line,column,"Divided by zero"); }catch (CalException e){ System.out.println(e.toString()); } return null; }else return left/right; }else return left*right;}
CalException的定义如下:
public class CalException extends Exception { private int line; private int column; private String msg; public CalException(int line,int column,String msg){ this.line=line; this.column=column; this.msg=msg; } @Override public String toString() { return msg+",line:"+line+",column:"+column; }}
visitAddSub():
@Overridepublic Double visitAddSub(CalParser.AddSubContext ctx) { Double left=visit(ctx.expr(0)); Double right=visit(ctx.expr(1)); if(ctx.op.getType()==CalParser.ADD) return left+right; else return left-right;}
以上这两个就是我们加减乘除的核心函数了
visitNum():
@Overridepublic Double visitNUM(CalParser.NUMContext ctx) { return Double.valueOf(ctx.getText()); //直接将字符串转为数字并返回}
visitID():
@Overridepublic Double visitID(CalParser.IDContext ctx) { String id=ctx.getText(); int line,column; //符号表中存在这个变量并且已经赋值,直接返回 if(table.containsKey(id)) return table.get(id); else{ //变量未初始化,抛出异常 line=ctx.start.getLine(); column=ctx.start.getStartIndex(); try{ throw new CalException(line,column,"Undefined variable:"+id); }catch (CalException e){ System.out.println(e.toString()); } return null; }}
visitParens():
@Overridepublic Double visitParens(CalParser.ParensContext ctx) { return visit(ctx.expr());}
全部代码一览:
import java.util.HashMap;import java.util.Map;public class EvalVisitor extends CalBaseVisitor<Double> { private Map<String,Double> table; public EvalVisitor(){ table=new HashMap<>(); } @Override public Double visitPrintExpr(CalParser.PrintExprContext ctx) { Double value=visit(ctx.expr()); String str=value.toString(); int index=str.indexOf('.'); //check if it is an integer if(str.substring(index+1).equals("0")) System.out.println(str.substring(0,index)); else System.out.println(str); return null; } @Override public Double visitAssign(CalParser.AssignContext ctx) { String id=ctx.ID().getText(); Double value=visit(ctx.expr()); table.put(id,value); return null; } @Override public Double visitMulDiv(CalParser.MulDivContext ctx) { Double left=visit(ctx.expr(0)); Double right=visit(ctx.expr(1)); //if divided by zero,get the position of zero int line,column; if(ctx.op.getType()==CalParser.DIV){ if(right==0.0){ line=ctx.expr(1).start.getLine(); column=ctx.expr(1).start.getStartIndex(); try{ throw new CalException(line,column,"Divided by zero"); }catch (CalException e){ System.out.println(e.toString()); } return null; }else return left/right; }else return left*right; } @Override public Double visitAddSub(CalParser.AddSubContext ctx) { Double left=visit(ctx.expr(0)); Double right=visit(ctx.expr(1)); if(ctx.op.getType()==CalParser.ADD) return left+right; else return left-right; } @Override public Double visitNUM(CalParser.NUMContext ctx) { return Double.valueOf(ctx.getText()); } @Override public Double visitID(CalParser.IDContext ctx) { String id=ctx.getText(); int line,column; if(table.containsKey(id)) return table.get(id); else{ line=ctx.start.getLine(); column=ctx.start.getStartIndex(); try{ throw new CalException(line,column,"Undefined variable:"+id); }catch (CalException e){ System.out.println(e.toString()); } return null; } } @Override public Double visitParens(CalParser.ParensContext ctx) { return visit(ctx.expr()); }}
3.编写主程序:
import org.antlr.v4.runtime.*;import org.antlr.v4.runtime.tree.ParseTree;import java.io.FileInputStream;import java.io.IOException;public class MyCalculator { public static void main(String[] args) throws IOException { String file="test_case\\test.in"; //创建输入文件流 FileInputStream inputStream=new FileInputStream(file); //转化为字符流 CharStream input= CharStreams.fromStream(inputStream); //创建词法分析器 CalLexer lexer=new CalLexer(input); //获取Token集 CommonTokenStream tokenStream=new CommonTokenStream(lexer); //创建语法分析器 CalParser parser=new CalParser(tokenStream); //分析语法 ParseTree tree=parser.prog(); //遍历语法树,输出结果 EvalVisitor visitor=new EvalVisitor(); //当遍历树时如果出错,会返回空指针,在这里捕获 try{ visitor.visit(tree); }catch (NullPointerException e){ System.out.println("oops, we have some problem"); } }}
样例输入:
a=(10.44*356+1.28)/2-1024*1.6;b=a*2-a/2;c123=a+b*b/5-(a-a*2)/b;print(a);print(b);print(c123);print(1+2-3*4/5);
输出结果:
220.55999999999995330.839999999999922112.247786666660.6000000000000001
参考链接:antlr入门实例——计算器
- Antlr学习笔记1
- antlr学习笔记
- ANTLR v4学习笔记
- Antlr学习笔记
- ANTLR笔记
- ANTLR笔记
- antlr笔记
- antlr学习
- The Definitive Antlr 4 第4章学习笔记
- The Definitive Antlr 4 第4章学习笔记
- The Definitive Antlr 4 第5章学习笔记
- The Definitive Antlr 4 第6章学习笔记
- The Definitive Antlr 4 第7章学习笔记
- The Definitive Antlr 4 第8章学习笔记
- ANTLR笔记2
- ANTLR资料 学习ANTLR http://book.antlr.org.cn
- 语法分析之antlr学习
- ANTLR学习资源汇总
- 软件测试之配置测试
- HashMap、 HashTable 、Collections.synchronizedMap、 ConcurrentHashMap
- java发展概述
- thinking in java——内部类
- Java 详解 JVM 工作原理和流程
- Antlr学习笔记
- 诗歌七 千字文(天地玄黄,宇宙洪荒)
- 感受野
- css画出三角形
- Chempute Instrument Engineering Calculations (InstruCalc) v9.0.0 1CD仪表计算软件
- Android这是一份全面 & 清晰易懂的Application类使用指南
- 表变量与临时表对比(1)
- 如何oracle查询条件里做if判断
- leetcode编程记录3 #169 Majority Element