基于领域相关度和领域一致度的领域术语抽取实现
来源:互联网 发布:水电图设计软件 编辑:程序博客网 时间:2024/06/10 15:17
领域相关度:
其中
领域一致度:
,其中
在抽取之前,需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。
有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。
每一个子文件夹中都包含该领域的文档,分别为汽车、育儿、教育、女性、技术、时尚、财经、健康、运动。
一、分词和词性标注
预料准备好之后,需要做分词和词性标注的工作。下面是该工具提供的分词和词性标注API.
建议使用MapReduce版本的标注API,TokenAndTagJob类。
public void run(String inPath, String outPath)
对一个目录中的文本做分词和词性标注
分词和词性标注处理完之后的内容如下:
【/w 文献/n 题名/v 】/w :/w 城/n 华/b 地区/n 延安/ns 组/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 【/w 文摘/n 号/q 】/w :/w2001020170/m 【/w 文献/n 类型/n 】/w :/w 刊/g 【/w 分类/vn 号/n 】/w :/wTE112/x ./w 23/m 【/w 期刊/n 名/q 】/w :/w 西安/ns 石油/n 学院/n 学报/n 自然/n 版/n 【/w 年/n 卷/g 期/g 】/w :/w2000/m ,/w 15/m (/w 3/n )/w 【/w 页码/n 】/w :/w1/a ~/x 3/n ,/w 10/n 【/w 作者/n 】/w :/w 宋广寿/nr ,/w 杨/nr 技/g 【/w 作者/n 单位/n 】/w :/w 长庆/ns 油田/n 公司/n 采油/v 二/m 厂/n 地质/n 研究所/n 【/w 原文/n 出版/v 年/qt 】/w :/w2000/m 【/w 图表/n 参/g 】/w :/w 图3参/nr2/n 【/w 主题词/n 】/w :/w 储集层/n 特征/n;/w 孔隙/n 成因/n 【/w 文摘/n 】/w :/w 利用/vX/x 衍射/v 全/a 岩/g 分析方法/n 、/w 粘土/n 矿物/n 定量分析/l 方法/n 和/cc 薄片/n 鉴定/vn 等/u 方法/n 研究/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 和/cc 孔隙/n 成因/n 类型/n 。/w 综合/v 论述/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 油/n 组/q 不同/a 岩/g 相/d 储层/n 砂岩/n 的/u 基本特征/n ,/w 纠正/v 了/u 砂岩/n 定名/v 的/u 错误/n 和/cc 主要/d 填/v 隙/g 物/g 成分/n 的/u 错误/n ,/w 还/d 论述/v 了/u 储层/n 砂岩/n 的/u 孔隙/n 特征/n 和/cc 控制/vn 孔隙/n 发育/v 的/u 主要/b 因素/n 。/w 【/w 文摘/n 员/q 】/w :/w 马丽/nr
二、抽取领域术语
词性标注完之后,就可以调用Ontology 抽取领域术语了。下面是实例。
// 参数封装
OntologyOperation operation = new OntologyOperation();
operation.setTestPath("分类_tokend"); //分词和词性标注后的
operation.setOutPath("ontology_分类"); //抽取领域术语结果目录
operation.setLamda(0.6);// ndd和ncd的比重,默认是0.5
operation.setStopWordsPath("stopwords");//停用词文件路径
Configuration conf =new Configuration();
//在hadoop集群中使用,必须设置 hdfs fs name ,具体参看
//hdfs-site.xml
conf.set("fs.default.name", "hdfs://192.168.4.23:9999");
Ontology ontology =new Ontology(conf);
//执行领域术语的抽取
ontology.run(operation);
抽取结果:
每一个文件中保存某一领域的术语和权重,术语顺序按照术语的权重由大到小。越往上和本领域最相关的部分,越往下是和领域越不相关的部分。
汽车领域:
幻影/n 0.3910593139427473
汽车/n 0.38552070782346365
系列/n 0.3849238241483909
论坛/n 0.3822022955534813
来宾/n 0.3814991553300009
身份证/n 0.3814643303613873
车型/n 0.3812698805672925
嘉年华/n 0.3810316978270879
经销商/n 0.3810294885160848
大众/n 0.3798762521563308
口碑/n 0.3769977747541958
售价/n 0.3706252408163245
动力/n 0.35661561638221867
引擎/n 0.3537919450642671
轴距/n 0.3513435337268461
发动机/n 0.35031323733269465
品牌/n 0.35019905726782324
育儿领域:
孩子/n 0.6083338178366626
妈妈/n 0.5795633679337582
时间/n 0.5666556375725188
宝宝/n 0.5644493150898459
儿童/n 0.5495347522570228
生活/vn 0.5380710659903973
家长/n 0.5376476116436651
影响/vn 0.5347469971542526
身体/n 0.5328702840194202
能力/n 0.5257242831980316
活动/vn 0.5253617853321019
父母/n 0.5204357874228931
营养/n 0.5136165980528928
家庭/n 0.5069390253210327
教育/vn 0.5028661460255032
发育/vn 0.5027495315547349
环境/n 0.5015883969770852
食物/n 0.49767223383846027
女性:
女性/n 0.31487990557885037
肌肤/n 0.31304528683015265
效果/n 0.308960714646986
产品/n 0.3051812878726879
皮肤/n 0.2970426920103549
女人/n 0.2955534547286699
成分/n 0.2938600008759204
功效/n 0.27799975106291236
保湿/n 0.2756107894868808
身体/n 0.27533528526451734
朋友/n 0.2740272629967851
品牌/n 0.27341987878347074
时尚/n 0.2679356026043557
美容/vn 0.2644552884818885
男人/n 0.2641450904843061
质地/n 0.26181214361494803
专业/n 0.26170017085661
水分/n 0.2602422981402292
系列/n 0.26001591640221594
配方/n 0.2599989399928897
财经领域:
市场/n 0.3608140146859866
经济/n 0.3547614541390426
风险/n 0.35239024337960634
金融/n 0.34577383407763246
公司/n 0.34392214119735787
危机/n 0.34255891673024036
投资/vn 0.3395183844284213
国家/n 0.3392216143490847
资产/n 0.33345102321911135
投资者/n 0.3276108467970701
企业/n 0.3247636216772157
财经/n 0.32295135215194143
关系/n 0.32274033777395
国际/n 0.3210001803088927
信息/n 0.32034858779587655
发展/vn 0.3198368908049424
经济学/n 0.31978792379152343
方面/n 0.31848495358432266
政府/n 0.3177799739084163
政策/n 0.31683813309168585
资本/n 0.3164516569407639
- 基于领域相关度和领域一致度的领域术语抽取实现
- 基于领域相关度和领域一致度的领域术语抽取实现
- 领域
- 相关领域
- 信息安全领域相关术语介绍
- 信息安全领域相关术语介绍
- 机器学习和相关领域的博客
- 领域模型和领域对象的概念
- Java领域的相关技术
- 开发商问题的领域术语表建立
- 基于领域的社会化推荐
- 信息抽取(IE)领域相关论文阅读小结
- 领域实现更好的增长
- 推荐系统领域的相关会议和期刊
- CDN和Web Cache领域相关的经典书籍推荐
- IR领域相关联接
- 图像识别相关领域
- Ios 领域相关网站大全
- Xcode代码行数统计
- 十个最值得阅读学习的C开源项目代码
- 关于java的对象数组
- 代理模式
- MySQL 获得当前日期时间(以及时间的转换)
- 基于领域相关度和领域一致度的领域术语抽取实现
- java基础之for循环
- MATLAB 生成.mat 文件及读取
- VS2010出现“automation服务器不能创建对象“
- 液化气瓶装RFID芯片实现专属ID
- C#语言之“string格式的日期时间字符串转为DateTime类型”的方法
- TCP协议与UDP协议的区别
- UML中几种类间关系:继承、实现、依赖、关联、聚合、组合的联系与区别
- 获得运行jar包存放路径的方法