笔记-2003-A Maximum Entropy Chinese Character-Based Parser

来源:互联网 发布:mac imovie教程 编辑:程序博客网 时间:2024/05/22 05:30
A Maximum Entropy Chinese Character-Based Parser
作者:xiaoqiang Luo
单位:IBM T.J. Watson Research Center 

出处:Proceedings of the 2003 conference on Emprical Methods in Natural Language Processing ,pp.192-199

主要内容:树库;句法分析;最近句法分析、句法依存、语义依存很火,这是开头之一

提出问题的原因是:1解析器都是人为分词的,所以需要分词。2CTB提供句法分析,那句法分析是否可以反作用于分词3要解决OOV问题

以中文树库为基础的字本位最大熵中文解析器
首先将词本位的解析器转化为字本位的解析器,词性的标记被分摊到字上。最大熵是在字本位的语料上训练。特征分为两类,1 与语言无关的 2 与语言相关的。
第一种:nrb 词型这样的标记;Chunk NR前后块是什么句法标记;Extend;Check这两个没看懂。
第二种:词典信息,BME

分词一体化:分词,词性标注,解析器

词性标注可以提高分词效果,但高层次的句法结构则没有什么效果

这篇文章的平均值在89% 分词最好效果在96%

词典可以提高分词和句法分析的结果

ps:这篇文章中提到3篇参考文献:母语,人和人的分词结果相差70%-80%之间。原因就是人与人的目的(主题)不同,虽然分词方法不同,但是不会影响对整句的理解

原创粉丝点击