手工的词法分析器（雏形）

来源：互联网发布：疯狂联盟人马精魄数据编辑：程序博客网时间：2024/05/11 22:38

昨天上实验课时候要求写一个词法分析器，但是我当时想了一下，其实其实质就是根据一个规则来搜索矩阵，在程序上并没有体现出词法分析的核心技术，怎么小孟哥会拿那个状态转换图来叫人写程序呢，把它转成状态转换矩阵的话可是很庞大的工程，短时间很难实现其对应的词法分析器。当然基于我首次自己根据给定的规则来翻译成代码，所以那节课并没有完成全部功能，只能搭出一个大概的框架，昨晚在宿舍搞了一个晚上才完成基本功能，今晚又对里面的代码重构了一下。等整个雏形出来后，我发现自己还挺笨的，那点东西要搞那么久，看来以后要特训一下才行了。

现在看看里面的代码，并附上对应的状态转换图和状态转换矩阵,在书中的P71。（注：Main.java是词法分析测试主入口，LexicalAnalysis是词法分析类，ConstructionMatrix是状态转换矩阵）

状态转换矩阵：

状态转换图：

ConstructionMatrix.java 中负责了初始化了状态转换矩阵，并确定了横坐标集charList（字符集）和纵坐标集stateList（状态集）

可能你会问为什么判断是否终态方法和寻找下一状态会放到矩阵类里面，因为判断是否为终态是该类的一个职责所在，使用者不应该知道如何判断终态，更何况使用者是不知道该类中的终态有哪些，也不必知道。

/** * */package com.allen;import java.util.ArrayList;import java.util.List;/** * * 项目名称：LexicalAnalyser * 类名称：ConstructionMatrix * 类描述：状态转换矩阵 * 创建人：Allen * 创建时间：2011-4-11 下午07:47:59 * 修改人：Administrator * 修改时间：2011-4-11 下午07:47:59 * 修改备注： * @version * */public class ConstructionMatrix { private List<Integer> stateList; private List<Character> charList; private List<Integer> ultimateList; private Integer nextstate; private Integer[][] stateTransitionArray = { {1,0}, {1,3}, {1,4}, {1,0}, }; public ConstructionMatrix(){ charList = new ArrayList<Character>(); charList.add('a'); charList.add('b'); ultimateList = new ArrayList<Integer>(); ultimateList.add(4); stateList = new ArrayList<Integer>(); stateList.add(0); stateList.add(1); stateList.add(3); stateList.add(4); } /** * 获取目标字符和当前状态对应的下一个状态 * @param currentChar 目标字符 * @param currentState 当前状态 * @return */ public Integer nextState(Character currentChar,Integer currentState) { resetTheNextState(); if(isTheIndexExist(currentChar,currentState)) { //找出下一个状态，-1时候就为错误状态 nextstate = stateTransitionArray[stateList.indexOf(currentState)][charList.indexOf(currentChar)]; } return nextstate;} /** * 重置下一个状态 */ private void resetTheNextState() { nextstate = -1;} /** * 判断是否存在当前字符和状态对应的索引 * @param currentChar * @param currentState * @return */ private boolean isTheIndexExist(Character currentChar,Integer currentState) { if (charList.indexOf(currentChar) != -1 && stateList.indexOf(currentState) != -1) {return true;}return false;} /** * 判断是否为终态 * @param state 需确认的状态 * @return */public boolean isUltimate(Integer state){ boolean i = ultimateList.contains(state); return i;}}

LexicalAnalysis.java 中负责将Main中获得的字符串根据空格来划分一个一个子字符串，划分后的子字符串本质上其实是合法性未知的待测词。然后将划分后的子字符串以一个个字符放到矩阵中进行状态转换，检验该词的合法性。

/** * */package com.allen;import java.util.ArrayList;import java.util.List;/** * * 项目名称：LexicalAnalyser * 类名称：LexicalAnalysis * 类描述：词法分析类 * 创建人：Allen * 创建时间：2011-4-11 下午07:48:36 * 修改人：Administrator * 修改时间：2011-4-11 下午07:48:36 * 修改备注： * @version * */public class LexicalAnalysis {private ConstructionMatrix matrix;private char[] charOfWords;private List<String> oldWords;private List<String> newWords;Integer nextstate = 0;public LexicalAnalysis(){matrix = new ConstructionMatrix();//实例化矩阵}/** * 识别字符串内单词并返回合法单词列表 * @return */public List<String> buildWords(String s){newWords = new ArrayList<String>();CutWords(s);for(String word : oldWords){resetTheNextState();checkAndInsertRightWord(word);}return newWords;} /** * 检查目标单词并将合法词装入新单词列表 * @param word */private void checkAndInsertRightWord(String word) {for(int i=0;i< word.length();i++){if (isRight(word.charAt(i),nextCharOfWords(i,word),nextstate) && matrix.isUltimate(nextstate)) {newWords.add(word);}}} /** * 重置下一个状态 */ private void resetTheNextState() { nextstate = 0;}/** * 获取当前字符索引对应的下一个字符 * @param i * @return */private char nextCharOfWords(int i,String word){if(word.length()-1 == i){return word.charAt(i);}else {return word.charAt(i+1);}}/** * 截取字符串中的词 * @param s 字符串 * @return */private List<String> CutWords(String s) {oldWords = new ArrayList<String>();s += " ";//再字符串最后加上一个空格作为最后一个词的边界charOfWords = s.toCharArray();String word = ""; for (char c : charOfWords) {if (c==' ') {oldWords.add(word); word = "";//清除单词 }else {word += c;}}return oldWords;}/** * 判断字符是否为合法 * @param currentChar 当前字符 * @param nextChar 下一个字符 * @param currentState 当前状态 * @return */private boolean isRight(Character currentChar,Character nextChar,Integer currentState){boolean legal = true; nextstate = matrix.nextState(currentChar, currentState);if(nextstate == -1){legal = false;}return legal;} }

/** * */package com.allen;import java.util.List;import java.util.Scanner;/** * * 项目名称：LexicalAnalyser * 类名称：Main * 类描述：词法分析测试主入口 * 创建人：Allen * 创建时间：2011-4-11 下午07:47:16 * 修改人：Administrator * 修改时间：2011-4-11 下午07:47:16 * 修改备注： * @version * */public class Main {/** * @param args */public static void main(String[] args) {// TODO Auto-generated method stub LexicalAnalysis La = new LexicalAnalysis();Scanner scan = new Scanner(System.in);System.out.println("请输入需识别的字符串：");String str = scan.nextLine();System.out.println("识别出的合法单词：");List<String> wordsList = La.buildWords(str);for (String word : wordsList) {System.out.println(word);}}}

看完上面的东西后，你也许会发现这就是那么的一回事。没错，手工的词法分析器编写其实核心部分是状态转换矩阵是怎么来的，那才是词法分析的难点，所以上面的代码并没有什么的。当然以上代码仍需重构，而且可能存在一些bug，否则的话怎么会叫雏形呢~~可惜时间不允许我继续写下去了，太多东西要做啊~~