盘古分词工具学习笔记

来源:互联网 发布:mac看电视直播的软件 编辑:程序博客网 时间:2024/04/29 23:59

下载了盘古分词工具,学习工具使用的同时学习中文分词基础。


1.  一元分词/二元分词/多元分词/精确分词

        一元分词是按字拆分的,比如一句话“梦想很丰满”,在盘古分词中使用一元分词拆分的结果是:梦/梦想/想/很/美/美满/满/。

       二元分词按双字形式输出。比如一句话“梦想很丰满”,使用二元分词拆分的结果是:“梦想”,“想很”,“很丰”,“丰满“。

        多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。

       “梦想很丰满”,在盘古分词中使用冗余度为1的多元分词拆分的结果是:梦想/很/美/美满/。

        精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。如以上例句使用精确分词的结果是:梦想/很/美满/

        精确分词是一般意义上分词算法追求的目标。


        多元分词对搜索引擎有重要意义,因为多元分词增加了冗余,所以和搜索引擎结合可以得到较多的匹配结果(相对精确分词而言)。

        以下链接文字说明了盘古分词中的多元分词的原理:

         http://www.cnblogs.com/eaglet/archive/2008/10/02/1303142.html


 2. 中文人名识别

       以下链接是盘古分词中中文人名识别算法原理(包含如何消除歧义):

        http://www.cnblogs.com/eaglet/archive/2009/08/19/1549566.html

        人名词典是ChsSingleName.txt, ChsDoubleName1.txt, ChsDoubleName2.txt,但没有看到姓氏的词典?     


3. 中文未登词识别


4 盘古的词典管理工具

   包含了词名,词性,词频信息。


5. 扩展思考

    如果让盘古分词支持地名,商品名称,该如果进行?只要将这些名称加入词库就可以了吗?

    后续需要查阅中文人名,地名,组织名识别的相关论文。

    其他分词工具:基于Python的结巴分词

  

      


     





0 0
原创粉丝点击