分词

来源:互联网 发布:域名系统dns的作用 编辑:程序博客网 时间:2024/04/25 06:12

参考书籍

统计自然语言处理,清华大学,李宗庆著

分词软件

清华、复旦、stanford

方法

  • 基于规则
  • 基于统计
    语料库+模型(贝叶斯、最大条件熵模型、隐马可夫、CRF、SVM)

汉语自动分词基本软件

  • 正向/反向/双向
  • 最少分词法(最短路径法)
  • 基于语言模型的分词(语言模型工具SRLM)
  • 基于HMM的分词方法
  • 字构词的分词方法

CRF在模型上优于HMM和SVM

未登录词的识别

  • 命名实体识别
  • 中文姓名

老师要求: 编程能力+算法实现能力

引用块内容

0 0
原创粉丝点击