ansj 5.1分词方式测试,存在分词命名实体识别过度的问题

来源:互联网 发布:买备案域名要多少钱 编辑:程序博客网 时间:2024/06/06 21:02
public static void main(String[] args) {
        // TODO Auto-generated method stub
        
          String str = "刘翔洁面仪配合洁面深层清洁毛孔 清洁鼻孔面膜碎觉使劲挤才能出一点点皱纹 脸颊毛孔修复的看不见啦 草莓鼻历史遗留问题没辙 脸和脖子差不多颜色的皮肤才是健康的 长期使用安全健康的比同龄人显小五到十岁 28岁的妹子看看你们的鱼尾纹" ;

          System.out.println(BaseAnalysis.parse(str));
          System.out.println(ToAnalysis.parse(str));
          System.out.println(DicAnalysis.parse(str));
          System.out.println(IndexAnalysis.parse(str));
          System.out.println(NlpAnalysis.parse(str));

    }


分词结果:

刘/nr,翔/nr,洁/ag,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一/m,点点/q,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十/m,岁/q, ,28/m,岁/q,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m, ,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m, ,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
刘翔洁/nr,面/n,仪/k,配合/v,洁/ag,面/n,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面/n,膜/n,碎/a,觉/v,使劲/v,挤/v,才/d,能/v,出/v,一点点/m,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻/ng,历史/n,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m, ,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n
十二月 14, 2016 6:09:15 下午 DICLOG info
INFO: init deafult crf model begin !
十二月 14, 2016 6:09:16 下午 org.ansj.app.crf.model.CRFModel loadModel
INFO: load crf model ok ! use time :1281
刘翔洁面仪/nw,配合/v,洁面/nw,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面膜/nw,碎觉/nw,使劲/v,挤/v,才/d,能/v,出/v,一点点/nw,皱纹/n, ,脸颊/n,毛孔/n,修复/v,的/uj,看/v,不/d,见/v,啦/y, ,草莓/n,鼻历史/nw,遗留/vn,问题/n,没辙/v, ,脸/n,和/c,脖子/n,差不多/l,颜色/n,的/uj,皮肤/n,才/d,是/v,健康/a,的/uj, ,长期/d,使用/v,安全/an,健康/a,的/uj,比/p,同龄人/n,显/v,小/a,五/m,到/v,十岁/m, ,28岁/m,的/uj,妹子/n,看看/v,你们/r,的/uj,鱼尾纹/n


其中刘翔洁面仪 连接到一起了 ,怀疑训练数据的问题

刘翔洁面仪/nw,综合来看github例子加上一个刘翔 ,出来很多问题,好多地方要是使用需要调整,争取元旦前读完全部源代码


0 0
原创粉丝点击