哈工大LTP和中科院NLPIR中文分词比较
来源:互联网 发布:淘宝数据魔方有用吗 编辑:程序博客网 时间:2024/05/16 09:50
个人实验总结,仅供参考。
1.LTP有自动分句功能,NLPIR没有分句功能;
LTP的分句是根据中文标点里的句号、问号、感叹号、分号、省略号。2.NLPIR分词有两种方式,分词结果完全一致。
(1)利用分词函数NLPIR_ParagraphProcess;
(2)利用NLPIR_FileProcess对整个文本进行分词。
其中第(2)种有时候会出现bug,分词进行到文本某一处时会进行不下去。
3.LTP有在线API和本地两种:
(1)在线API受限于URI构造规则,不能提交一些特殊字符(如#、&、+、换行符、英文分号等),而且存在极少数未知的组合bug(比如and和in居然不能同时提交);
(2)本地LTP在分词时则不受上述限制。
符号
问题
换行符
程序直接报错
&
会影响句子处理(句子会被截断)
英文分号;
会影响句子处理(句子会被截断)
#
会影响句子处理(程序直接报错,如“C#”)
+
会被系统删除(如“互联网+”、“C++”)
基于上述原因,调用在线API分词和本地分词两种方式的分词结果会有差异,而且除了上述特殊字符引起的差异外,还会有其他一些极少数差异。
差异统计:3000个句子,有40句存在分词差异。
“+”引起:21句
“#”引起:2句
其他:17句
LTP本地
LTP在线
LTP本地
LTP在线
异常 点
异常点
多 年
多年
不好的
不好 的
过 关
过关
书 挺 不错 的
书挺 不错 的
白 学 了
白学 了
很快
很 快
就 此
就此
赶上
赶 上
网络类 的 图书
网络 类 的 图书
初学者
初 学者
缺 失
缺失
上述例子并不绝对,在有些句子里,在线切分也能够将“初学者”切分出来,而本地切分却会将其切分成“初”“学者”。
4.用户词典:
(1)NLPIR分词时将优先使用用户词典;
(2)LTP用户词典:官方补充说“LTP的分词模块并非采用词典匹配的策略,外部词典以特征方式加入机器学习算法,并不能保证所有的词都是按照词典里的方式进行切分”;
所以LTP有些词加入用户词典也无效,比如“C++”、“C#”、“互联网+”。
5.哈工大LTP与中科院NLPIR分词差异
试验了3000句,去除哈工大停用词后有31259个词,其中1505句分词结果完全一样。
注意:列表只是给出一些词在某些句子里的切分情况,并不表示在所有句子里都是这样切分。在有些情况下,哈工大和中科院的切分方法甚至会反过来。
整体上感觉中科院NLPIR在很多词上更倾向于分得更小。
下表给出了导致不一致的一些分词:
哈工大LTP分词
中科院NLPIR分词
正在
正 在
给力
给 力
不用说
不用 说
有点
有 点
翻译家
翻译 家
一 大 堆话
一 大 堆 话
只有
只 有
字字千金
字字 千金
网络类
网络 类
不过
不 过
楼主
楼 主
看 起来
看起来
大牛
大 牛
免邮费
免 邮费
赞赞赞
赞 赞 赞
初 学者
初学者
这 本 书
这 本书
难看 懂
难 看 懂
只能
只 能
有 人 说
有人 说
难懂
难 懂
有些
有 些
真的
真 的
还是
还 是
以前
以 前
实体书
实体 书
有 些
有些
不错
不 错
说是 很 不错
说 是 很 不 错
是否 对 味口
是否 对味 口
书摸 起来 的 质感
书 摸 起来 的 质感
与时俱进
与 时 俱 进
就是
就 是
错版
错 版
来 入门 的 话
来 入门 的话
经典 之 作
经典之作
膜拜
膜 拜
不好
不 好
你们
你 们
离 不 开
离不开
很多
很 多
知易行 难
知 易行 难
实乃
实 乃
倾情
倾 情
有着
有 着
有 点
有点
很 多
很多
高管
高 管
一下
一 下
延展
延 展
但是
但 是
亚马逊
亚 马 逊
就 是
就是
图灵 图书
图 灵 图书
安卓
安 卓
进阶
进 阶
例程
例 程
入 门书
入门 书
最好
最 好
还有
还 有
心痛
心 痛
会上瘾
会上 瘾
上来
上 来
实用性
实用 性
原书
原 书
没 得 说么 就 是 好
没 得 说 么 就 是 好
源码
源 码
跟着
跟 着
一部分
一 部分
说说
说 说
太坑 了
太 坑 了
入门者
入门 者
不怎么样
不 怎么样
开发者
开发 者
本书
本 书
无 需 多 说
无需 多 说
正版书
正版 书
一 本 完 完全全 的 入门书
一 本 完 完全 全 的 入门 书
微博
微 博
一页纸
一 页 纸
中文字
中 文字
没有
没 有
有点 取宠 之 嫌
有点 取 宠 之 嫌
禅意
禅 意
炫技
炫 技
未曾
未 曾
可是
可 是
更新
更 新
菜鸟
菜 鸟
书挺 不错 的
书 挺 不错 的
后端
后 端
早就
早 就
再说 吧
再 说 吧
看看
看 看
不行
不 行
很快
很 快
只是
只 是
九流
九 流
若是
若 是
名头
名 头
书香味
书 香味
知识点
知识 点
个人
个 人
当作 参考 书用
当作 参考书 用
逻辑 思维
逻辑思维
到货
到 货
污损
污 损
之前
之 前
一点点
一点 点
完虐
完 虐
晒 图
晒图
没法
没 法
一起
一 起
第几
第 几
在线
在 线
不能
不能
右下角
右 下 角
电商
电 商
支付宝
支付 宝
物联网
物 联网
难得一见
难 得 一 见
睁 眼 瞎
睁眼瞎
- 哈工大LTP和中科院NLPIR中文分词比较
- 三大分词工具:standford CoreNLP/中科院NLPIR/哈工大LTP的简单使用
- 中科院NLPIR中文分词java版
- 中科院分词(NLPIR) JAVA
- 中科院NLPIR中文分词java版应用方法
- 针对中科院汉语分词系统nlpir中的中文分词部分在java环境的部署(Linux和windows)(获取关键词)
- NLPIR中文分词 java
- 使用Java调用中科院分词NLPIR/ICTCLAS
- 使用Java调用中科院分词NLPIR/ICTCLAS
- 中科院分词工具NLPIR初始化失败
- 中科院分词系统(NLPIR)JAVA简易教程
- NLPIR中科院分词系统初始化失败
- 中科院分词系统(NLPIR)JAVA简易教程
- 【python】使用中科院NLPIR分词工具进行mysql数据分词
- 智能语言-中科院分词系统ICTCLAS(NLPIR)
- 解决 NLPIR (中科院分词) License 过期问题
- 中科院分词系统(NLPIR)常见错误处理JAVA
- 中科院分词NLPIR,demo运行初始化失败问题记录
- 递推之杨辉三角
- Struts之ActionSupport
- 利用NSNotificationCenter消息通信机制观察UITextField的状态(Swift)
- 简单的mvc 框架(五)
- 设计模式:命令模式(Command)
- 哈工大LTP和中科院NLPIR中文分词比较
- ios RunTime运用
- 感知哈希原理及实现
- LeetCode Patching Array
- Dubbo 入门实例 本地伪集群测试Demo
- Mybatis最入门---HelloWorld
- Bitmap的简单特效处理
- 蓝桥杯+大臣的旅费
- NSCountedSet