搜索00 倒排索引结构

来源:互联网 发布:视频动态壁纸软件 编辑:程序博客网 时间:2024/06/06 20:13


倒排索引结构
倒排索引结构中一个基础概念词项.词项是逻辑学中的基本概念之一.是逻辑分析的基本单元.英文翻译是Term.词项与"词"意义类似,但又不是完全一样,存在一定的差别.
倒排索引与正排索引,他们之间不同的是倒排索引的索引项是词项.正排索引的索引项是文档.

当你在搜索引擎中输入"光年论坛"的时候,这个光年论坛本身就是一个词项.
但是如果"光年论坛"本身并不是一个独立的词项,就会被切分成"光年","论坛"两个词项.

根据百度的统计,一般国内用户都会通过3-4个词项来搜索信息.
这个时候,当我们设计网站的长尾结构时,就可以通过对词项的了解进一步优化页面中的内容布局.

倒排索引是页面是否会出现结果中的一个重要判断.
当然还有页面质量,页面更新时间等因素来做出综合判断.

但是对于一个非常小的词来说,如果你的某些页面没有相应的得到排名,剔除一些外链等因素..可以单纯的利用词项来分析获得页面本身词项匹配度和重要性.从而通过单纯的信息内容结构来进行第一次优化.简单的说,可以把关键词靠前一些.深入的说,就是利用词项的特点,来改变内容的一些结构和上下文顺序,不影响阅读的情况下,更加直观的令搜索引擎更加重视.

如果是多个词项的搜索, 系统会通过排除干扰的方式,自动优化搜索的目的,从而通过多个词项的顺序和语法特性获得词项的索引内容.
"光年论坛"中
"论坛"是类型描述词
"光年"是特殊定位词

那么按照优先顺序,应该先倒排"光年",而后倒排"论坛"
目前有四种倒排组合.
"光年" -> “论坛”
"论坛" -> "光年"
"光年" + "论坛"
"论坛" + “光年”

到底是用那种组合,需要分析更多的点击行为来纠正判断组合..
这个倒排索引结构 属于 内容优化的范畴内..
存在页面DOM结构性的位置优化,也存在于完整的内容区块中的语法位置优化.

很多优化BAIDU的朋友 都喜欢在网页代码中最顶部<bogy>下 写一段内容....
很多人说越靠前,越好...
其实是...被搜索词项相对位置靠前,提高了索引列表中位置..
相反的思考..
一个页面中...某些词项的位置与重复度决定了页面的定位...同时还决定了导出链接的相关性..
网页的内容是冰山,核心的词项才是应该露出来的..
设计单个页面的时候,如何突出某些长尾(组合词项)的排名,需要用心的思考下了...

 

原创粉丝点击