感悟

来源:互联网 发布:白金数据 东野圭吾 编辑:程序博客网 时间:2024/05/26 09:54

今天看到微软亚洲研究院的分词软件。http://research.microsoft.com/en-us/downloads/7a2bb7ee-35e6-40d7-a3f1-0b743a56b424/default.aspx。

实验了一下:

王总和小丽结婚了。
长春市长春药店。
李建平等领导参加了会议。
工信处女部长。
欧阳蓉蓉不喜欢慕容复,慕容复只想着杀了司马迁。

结果:

王/总/和/小/丽/结婚/了/。/
[L 长春市]/[L 长春]/药店/。/
[P 李建平]/等/领导/参加/了/会议/。/
[O 工信处]/女/部长/。/
[P 欧阳蓉]/蓉/不/喜欢/慕容/复/,/慕容/复/只/想/着/杀/了/司马迁/。/

效果一般了。ICTCLAS能分出:王总/和/小丽/结婚/了/。/ 慕容复。

“慕容复”和“小丽”也许是词典的缘故。但是王总ICTCLAS也分出来了。

对于msrseg的论文,说的很高大上很全面。

那么我想这个结果的缘故是不管什么方法,只要认真做,注意细节,都会出不错的效果的。


0 0
原创粉丝点击