中文分词的introduction(zz)
来源:互联网 发布:oppor94g网络设置在哪 编辑:程序博客网 时间:2024/05/22 12:32
对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。
首先,肯定不能用单个字符作(si-gram)为索引单元,否则查“上海”时,不能让含有“海上”也匹配。
但一句话:“北京天安门”,计算机如何按照中文的语言习惯进行切分呢?
“北京 天安门” 还是“北 京天安门”?让计算机能够按照语言习惯进行切分,往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。
另外一个解决的办法是采用自动切分算法:将单词按照2元语法(bigram)方式切分出来,比如:
"北京天安门" ==> "北京 京天 天安 安门"。
这样,在查询的时候,无论是查询"北京"还是查询"天安门",将查询词组按同样的规则进行切分:"北京","天安安门",多个关键词之间按与"and"的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言:韩文,日文都是通用的。
基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的30%-40%不同,
自 动切分 词表切分 实现 实现非常简单 实现复杂 查询增加了查询分析的复杂程度, 适于实现比较复杂的查询语法规则 存储效率索引冗余大,索引几乎和原文一样大 索引效率高,为原文大小的30%左右维护成本 无词表维护成本词表维护成本非常高:中日韩等语言需要分别维护。
还需要包括词频统计等内容 适用领域嵌入式系统:运行环境资源有限
分布式系统:无词表同步问题
多语言环境:无词表维护成本对查询和存储效率要求高的专业搜索引擎
目前比较大的搜索引擎的语言分析算法一般是基于以上2个机制的结合。关于中文的语言分析算法,大家可以在Google查关键词"wordsegmentsearch"能找到更多相关的资料。
- 中文分词的introduction(zz)
- 什么是中文分词-中文分词的应用
- TSE的中文分词
- 中文分词的分类
- ElasticSearch的中文分词
- 分词:几个免费的中文分词模块
- 分词---几个免费的中文分词模块
- 关于中文分词的一元分词讨论
- 关于中文分词的一元分词讨论
- 一个简单的中文分词
- 中文分词的实现思路
- 中文分词的简要实现
- 简单的中文分词程序
- 中文分词的实现思路
- lucene的中文分词器
- 中文分词字典的设计
- 简单的中文分词程序
- 基于CRF的中文分词
- sql2005 启动遇到,已压缩,但未驻留在只读数据库或文件组中。必须将此文件解压缩。
- linux内核地址空间与用户地址空间的差别
- JSP基础速成【精华】
- 如何使用.Net来设计一个爬虫系统
- VC++中利用MSXML解析XML文档
- 中文分词的introduction(zz)
- GridView自定义分页
- 导出页面指定区域内容到Word/Excel
- VS2005自带SQLServer 2005 Express版本对应的Management Studio
- django编码问题的解决
- 基于ASP.NET(C#)Web开发平台,对远程备份与恢复SQLServer数据库的方法
- 新劳动法,愚昧的政策--2009年的就业更加严峻,毕业等于失业
- 浏览器插件-- Browser Helper Object(BHO)
- 美女总裁