中文分词一席谈之难点分析
来源:互联网 发布:手机sd卡数据恢复安卓 编辑:程序博客网 时间:2024/06/06 12:33
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://langiner.blog.51cto.com/1989264/380450
中文分词一席谈之分词难点分析
langiner@gmail.com
http://langiner.blog.51cto.com
langiner@gmail.com
http://langiner.blog.51cto.com
什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”
分词作用
互联网绝大多数应用都需要分词,典型应用实例
汉字处理:拼音输入法、手写识别、简繁转换 …
信息检索:Google 、Baidu …
内容分析:机器翻译、广告推荐、内容监控 …
语音处理:语音识别、语音合成 …
…
分词难点
歧义无处不在
交叉歧义(多种切分交织在一起)
内塔内亚胡说的/确实/在理
组合歧义(不同情况下切分不同)
这个人/手上有痣
我们公司人手
歧义无处不在
交叉歧义(多种切分交织在一起)
内塔内亚胡说的/确实/在理
组合歧义(不同情况下切分不同)
这个人/手上有痣
我们公司人手
真歧义(几种切分都可以)
乒乓球拍/卖/完了
乒乓球/拍卖/完了
乒乓球拍/卖/完了
乒乓球/拍卖/完了
新词层出不穷
人名、地名、机构名
刘德华 长坂坡 耀华路
网名
你是我的谁 旺仔小馒头
公司名、产品名
摩托罗拉 谷歌 爱国者 腾讯 网易 新浪 诺基亚C5 尼康D700
普通词与新词互用
高明表演真好(演员)/他的表演很高明
汪洋(广东省长)到深圳检查工作/洞庭湖一片汪洋
普通词与新词交织在一起
克林顿对内塔尼亚胡说
胡锦涛听取龚学平等同志的汇报
人名、地名、机构名
刘德华 长坂坡 耀华路
网名
你是我的谁 旺仔小馒头
公司名、产品名
摩托罗拉 谷歌 爱国者 腾讯 网易 新浪 诺基亚C5 尼康D700
普通词与新词互用
高明表演真好(演员)/他的表演很高明
汪洋(广东省长)到深圳检查工作/洞庭湖一片汪洋
普通词与新词交织在一起
克林顿对内塔尼亚胡说
胡锦涛听取龚学平等同志的汇报
需求多种多样
切分速度:搜索引擎VS单机版语音合成
结果呈现:
切分粒度要求不同:机器翻译VS搜索引擎
分词重点要求不同:语音合成VS搜索引擎
唯一结果VS多结果:语音合成VS搜索引擎
新词敏感度不同:语音合成VS搜索引擎
处理对象:书面文本(规范/非规范)VS口语文本
硬件平台:嵌入式VS单机版VS服务器版
切分速度:搜索引擎VS单机版语音合成
结果呈现:
切分粒度要求不同:机器翻译VS搜索引擎
分词重点要求不同:语音合成VS搜索引擎
唯一结果VS多结果:语音合成VS搜索引擎
新词敏感度不同:语音合成VS搜索引擎
处理对象:书面文本(规范/非规范)VS口语文本
硬件平台:嵌入式VS单机版VS服务器版
本文出自 “专注自然语言技术” 博客,请务必保留此出处http://langiner.blog.51cto.com/1989264/380450
- 中文分词一席谈之难点分析
- 中文分词一席谈之难点分析
- 中文分词一席谈
- 中文分词技术一席谈之典型分词方法漫谈
- 文本分析之中文分词
- 中文分词之基本分词
- 中文分词源代码分析
- 自然语言处理与中文分词的难点总结
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中文分词分析之PDF批量转化为文本
- Solr之中文分词
- 文本分析--jieba中文分词
- 自然语言处理--中文分词之机械分词
- 搜索引擎之中文分词简介
- 小曹谈技术之中文分词
- 从零开始开发iPhone,教你如何在真机调试iPhone应用程序(转)
- SDRAM的地址映射方式
- UML建模之业务处理模型(Business Process Model,BPM)
- 第二章数据类型和表达式--项目3关于圆的计算
- 关于ios颜色渐进的总结
- 中文分词一席谈之难点分析
- UML建模之数据建模(Data Model Diagram)
- 继续学习C:数字进制表示
- 推送服务器的编写
- 十年
- 14款中文分词开源软件
- 目录下指定类型的文件复制到另外一个目录
- 创建XmlHttpRequest对象的方法
- NSString NSData 转换与常见的 NSString 和 NSMutableString 方法