ICTCLAS2010分词工具

来源:互联网 发布:杂志编辑软件 编辑:程序博客网 时间:2024/04/28 14:46

  计算所汉语词法分析系统 ICTCLAS

  中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

  因为做毕业设计的原因,才找到了这个工具。再加上两袖清风,花了好长时间才找到免费版本的,真是不容易呀!所谓前人栽树,后人乘凉。

  特此附上ICTCLAS2010版的下载地址:http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar

  作者博客:http://hi.baidu.com/drkevinzhang/blog/category/ictclas%B7%D6%B4%CA

 

  我用的是windows下C语言调用的,它还支持各种平台以及各种语言,都在那个包里!

 

     等我做完了毕设,再来写个使用说明... ...