搜索00 倒排索引结构
来源:互联网 发布:视频动态壁纸软件 编辑:程序博客网 时间:2024/06/06 20:13
倒排索引结构
倒排索引结构中一个基础概念词项.词项是逻辑学中的基本概念之一.是逻辑分析的基本单元.英文翻译是Term.词项与"词"意义类似,但又不是完全一样,存在一定的差别.
倒排索引与正排索引,他们之间不同的是倒排索引的索引项是词项.正排索引的索引项是文档.
当你在搜索引擎中输入"光年论坛"的时候,这个光年论坛本身就是一个词项.
但是如果"光年论坛"本身并不是一个独立的词项,就会被切分成"光年","论坛"两个词项.
根据百度的统计,一般国内用户都会通过3-4个词项来搜索信息.
这个时候,当我们设计网站的长尾结构时,就可以通过对词项的了解进一步优化页面中的内容布局.
倒排索引是页面是否会出现结果中的一个重要判断.
当然还有页面质量,页面更新时间等因素来做出综合判断.
但是对于一个非常小的词来说,如果你的某些页面没有相应的得到排名,剔除一些外链等因素..可以单纯的利用词项来分析获得页面本身词项匹配度和重要性.从而通过单纯的信息内容结构来进行第一次优化.简单的说,可以把关键词靠前一些.深入的说,就是利用词项的特点,来改变内容的一些结构和上下文顺序,不影响阅读的情况下,更加直观的令搜索引擎更加重视.
如果是多个词项的搜索, 系统会通过排除干扰的方式,自动优化搜索的目的,从而通过多个词项的顺序和语法特性获得词项的索引内容.
"光年论坛"中
"论坛"是类型描述词
"光年"是特殊定位词
那么按照优先顺序,应该先倒排"光年",而后倒排"论坛"
目前有四种倒排组合.
"光年" -> “论坛”
"论坛" -> "光年"
"光年" + "论坛"
"论坛" + “光年”
到底是用那种组合,需要分析更多的点击行为来纠正判断组合..
这个倒排索引结构 属于 内容优化的范畴内..
存在页面DOM结构性的位置优化,也存在于完整的内容区块中的语法位置优化.
很多优化BAIDU的朋友 都喜欢在网页代码中最顶部<bogy>下 写一段内容....
很多人说越靠前,越好...
其实是...被搜索词项相对位置靠前,提高了索引列表中位置..
相反的思考..
一个页面中...某些词项的位置与重复度决定了页面的定位...同时还决定了导出链接的相关性..
网页的内容是冰山,核心的词项才是应该露出来的..
设计单个页面的时候,如何突出某些长尾(组合词项)的排名,需要用心的思考下了...
- 搜索00 倒排索引结构
- 倒排索引结构
- 倒排索引结构
- 倒排文件索引结构和搜索算法
- 搜索之倒排索引
- 倒排文件索引结构
- 搜索系统2:倒排索引
- 全文搜索Lucene——之倒排索引
- 全文搜索Lucene——之倒排索引
- 全文搜索Lucene——之倒排索引
- 搜索学习基础--倒排索引的过程解读
- 搜索学习基础--代码模拟倒排索引过程
- 倒排索引原理
- 倒排索引
- 倒排索引
- 倒排索引
- 索引 倒排
- 倒排索引
- 让外网访问VMware的Linux,访问虚拟机上部署的javaweb项目
- Bitmap recycle方法与制作Bitmap的内存缓存
- AJAX 聊天室实现原理终极解析
- souce code
- DISPLAY环境变量
- 搜索00 倒排索引结构
- Spring如何加载XSD文件
- 使用SQL Server 2008的事务日志传送功能备份数据库(logshiping)
- Thread safety of google/dense_hash_map
- PX PT及EM
- 黑马程序员_内部类
- Android与服务器端数据交互(http协议整合struts2+android)
- Java运行时环境初始化时出现错误,你可能需要重新安装Flash(CS5)
- 黑马程序员之ADO.NET学习笔记:ADO.NET连接SQLSERVER数据库