查询处理以及分词技术(抽)
来源:互联网 发布:自动化模拟仿真软件 编辑:程序博客网 时间:2024/06/05 08:29
以百度为例:
一. 查询处理
百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开.
接着该干什么呢?该考虑分词的问题了.
二. 中文分词
总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:
首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果..
百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典.如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题
- 查询处理以及分词技术(抽)
- 查询处理以及分词技术
- 数据库分词查询的优缺点以及英文和中文各自的分词方法(一)
- 数据库分词查询的优缺点以及英文和中文各自的分词方法(二)
- 自然语言处理中的中文分词技术
- 科学运用中文分词处理技术
- 中文分词技术(一)
- IK分词源码讲解(七)-TokenStream以及incrementToken属性处理
- 分词技术
- 在什么是自然语言处理中的中文分词技术?
- 自然语言处理基础技术之分词、向量化、词性标注
- 搜索引擎技术之查询处理
- IK分词源码讲解(三)-分词歧义处理(智能分词)
- MySQL查询优化器--逻辑查询优化技术(六)--条件化简(表达式处理)
- Oracle死锁查询以及处理方案
- Lucene分词与查询
- Elasticsearch- 分词查询
- Elasticsearch- 分词查询
- D-Link DES-1226G 一款不错的中端交换机
- struts入门中的几个问题的解决方法
- 基于AVI的网络视频监控存储系统的实现方法
- 体会孤独
- AOP是什么(转)
- 查询处理以及分词技术(抽)
- 你好!
- 管理工作中的50点认知
- TSQL结果集的分页
- 格式化DataGrid的例子【将数据原中的0,1值转换成实际的文字】
- 关于dotnet回车事件
- 关于dotnet回车事件
- 用C#实现基于TCP协议的网络通讯
- 关于dotnet回车事件