中文分词一席谈之难点分析

来源:互联网 发布:手机sd卡数据恢复安卓 编辑:程序博客网 时间:2024/06/06 12:33
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://langiner.blog.51cto.com/1989264/380450
 中文分词一席谈之分词难点分析
langiner@gmail.com
http://langiner.blog.51cto.com
 
什么是分词?
          分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”

分词作用
         互联网绝大多数应用都需要分词,典型应用实例 
         汉字处理:拼音输入法、手写识别、简繁转换 … 
         信息检索:Google 、Baidu …
         内容分析:机器翻译、广告推荐、内容监控 …
         语音处理:语音识别、语音合成 … 
          … 
分词难点 
         歧义无处不在
 
         交叉歧义(多种切分交织在一起)  
         内塔内亚胡说的/确实/在理 
         组合歧义(不同情况下切分不同) 
         这个人/手上有痣 
         我们公司人手  
        真歧义(几种切分都可以) 
        乒乓球拍/卖/完了
        乒乓球/拍卖/完了 
       
       新词层出不穷
        人名、地名、机构名
        刘德华 长坂坡 耀华路
        网名
        你是我的谁 旺仔小馒头
       公司名、产品名
        摩托罗拉  谷歌  爱国者 腾讯  网易   新浪 诺基亚C5  尼康D700
 
        普通词与新词互用 
        高明表演真好(演员)/他的表演很高明 
        汪洋(广东省长)到深圳检查工作/洞庭湖一片汪洋 
        普通词与新词交织在一起 
        克林顿对内塔尼亚胡说 
         胡锦涛听取龚学平等同志的汇报
   
         需求多种多样 
         切分速度:搜索引擎VS单机版语音合成 
         结果呈现: 
                  切分粒度要求不同:机器翻译VS搜索引擎 
                  分词重点要求不同:语音合成VS搜索引擎 
                   唯一结果VS多结果:语音合成VS搜索引擎 
          新词敏感度不同:语音合成VS搜索引擎 
          处理对象:书面文本(规范/非规范)VS口语文本 
          硬件平台:嵌入式VS单机版VS服务器版

本文出自 “专注自然语言技术” 博客,请务必保留此出处http://langiner.blog.51cto.com/1989264/380450