ICTCLAS初步分词之原子分词
来源:互联网 发布:数据转发装置英文翻译 编辑:程序博客网 时间:2024/05/01 12:59
再说到原子分词前,我们先来说下什么是原子。我举个例子就一目了然了:始##始他说的确实在理末##末-->始##始 他 说 的 确 实 在 理 末##末,其中始##始是开始的标志。ICTCLAS分词大约分为:
1)初步分词;
2)词性标注;
3)人名、地名识别;
4)重新分词;
5)重新词性标注这五步。
就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。
现在来学习下原子切分:
1):就“三星SHX-123型号的手机”而言,原子切分第一步我们就叫它原子分隔处理,处理后的结果:三 星 S H X - 1 2 3 型 号 的 手 机
代码参考如下:
/** * 对字符串进行原子分隔,比如:解放军第101医院----解 放 军 第 1 0 1 医 院 * * @param str * @return */public static String[] atomSplit(String str) {String[] result = null;if (str != null) {result = new String[str.length()];String temp = str + " ";for (int i = 0; i < temp.length() - 1; i++) {result[i] = temp.substring(i, i + 1);}}return result;}
2):对第一步原子分隔的结果进行进一步处理经过这一步第一步中“三 星 S H X - 1 2 3 型 号 的 手 机 ”就变成了三 星 SHX-123 型 号 的 手 机
处理过程大致是对result 数组进行遍历,遍历中会分为以下几种情况:
*如果是汉子,分隔符等则作为一个单独原子
*如果是数字、字母、单字节符号则把相邻的作为一个原子如:SHX-123
*其中还有一种特殊的情况如“。”
核心代码:
for (int i = index; i < ss.length; i++) {if (Utility.SENTENCE_END.equals(str.substring(i))) {Atom atom = new Atom();atom.setWord(Utility.SENTENCE_END);atom.setLen(Utility.SENTENCE_END.length());atom.setPos(Utility.CT_SENTENCE_END);result.add(atom);break;}String s = ss[i];sAtom += s;int curType = Utility.charType(s);if (".".equals(s)&& (i + 1 < ss.length && (Utility.charType(ss[i + 1]) == Utility.CT_NUM || GFString.isNumeric(ss[i+1]))))curType = Utility.CT_NUM;// 如果是汉字、分隔符等if (curType == Utility.CT_CHINESE || curType == Utility.CT_INDEX || curType == Utility.CT_DELIMITER|| curType == Utility.CT_OTHER) {Atom atom = new Atom();atom.setWord(s);atom.setLen(s.length());atom.setPos(curType);result.add(atom);sAtom = "";}// 如果是数字、字母、单字节符号,则把相邻的这些做为一个原子。比如:三星SHX-123型号的手机,则其中的SHX-123就是一个原子else {int nextType = 255;// 下一个字符的类型if (i < ss.length - 1)nextType = Utility.charType(ss[i + 1]);if (nextType != curType || i == ss.length - 1) {Atom atom = new Atom();atom.setWord(sAtom);atom.setLen(sAtom.length());atom.setPos(curType);result.add(atom);sAtom = "";}}}
如果想下载代码的话http://ishare.iask.sina.com.cn/download/explain.php?fileid=12821600
如果想进一步学习的话也可以看看http://www.cnblogs.com/zhenyulu/articles/668035.html
- ICTCLAS初步分词之原子分词
- ICTCLAS分词系统研究(三)--原子切分
- ICTCLAS分词系统研究(三)--原子切分
- 中科院分词包ICTCLAS
- ICTCLAS 分词词典
- ICTCLAS分词系统
- ICTCLAS分词关键技术
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- ICTCLAS分词之所有可能的组词情况
- CLucene加入ICTCLAS中文分词
- JAVA调用 ICTCLAS 分词接口
- ICTCLAS分词系统研究(八)--生成最终分词结果
- 全文检索4(关于中文分词ICTCLAS分词系统)
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- ICTCLAS分词系统研究(八)--生成最终分词结果
- 一位从业20年的程序员分享积累的20条编程经验
- java中.ArrayList和LinkedList区别
- 上传app store 应用指南---1
- HDU 1179 Ollivanders: Makers of Fine Wands since 382 BC. 二分匹配(简单)
- LaTex笔记
- ICTCLAS初步分词之原子分词
- hdu 3172 Virtual Friends
- ios 回收键盘
- 实现多楼层,每个楼层多房间,上下拖动切换楼层,左右拖动查看其他房间
- AndroidRuntime(16694)错误解决
- 伪代码
- 关联映射之②:单向1--->1关联
- 关闭独显
- 1267 - Network