搜索中客户的访问日志到底能用来做什么(3)?

来源:互联网 发布:系统移植软件 编辑:程序博客网 时间:2024/05/16 17:20

为什么搜索的第一页比后面的好?


首先,我们主观上的能动性是很底的,意思是我们一般手不想往下页找,希望结果中最好前几条就是期望找的结果

其次,每个用户都是这种心理,不像开始的搜索引擎,看谁找的结果数量多,时间短谁就是老大,时代变了,这就要求用户的体验才是第一位

再次,即然第一页重要,那么我们的第一感觉就是这个第一页和后面的页面虽然都是格式上一样,但存储访问结构与重要性肯定与后面页是不一样的

最后,从以上三点与我们初步的分析可以得出,第一页内容一定是独立的结构(应该是独立的引擎与数据),而这个具体的内容需要依赖许多策略,例如,用户关注度(最直接的就是点击数量),时效性,权重,等等,

那么是不是有了一个第一页独立的结构就可以了呢,这样直接用不就行了吗?  想法是好的,但是这个独立引擎中的数据(第一页)是否全是用户期望的呢? 这个就不一定了!!

即然这样,那么怎么才能更好的给出结果呢,  有了,就是采用折中的方式把若干个引擎的数据合并在一起作为首先展现给用户的第一页,用户不是关注第一页吗,而第一页的前几条一般是最重要的,可以说是用户本次搜索对结果是否满意的标志;这样我们可以从这个独立的引擎数据中找出效果最好的几条来,然后再从别的引擎数据中找出剩下的内容,这样第一页不就完美了吗,其实我们分析似乎这个还比较合理,我想baidu,sougou,360,soso等应该也是这个策略,只不过这个独立的引擎可能不只一个。

同时策略上可以涉及的算法更复杂点(插一句,本人还是觉得简单即美,算法搞的越复杂说明数据的特征提取方面越有问题)


其实,入到引擎中的数据功劳全都是蜘蛛来弄的,蜘蛛每天或每时都会进行网络抓取,这个过程后,最后的问题就是我们拼到了用户展现有页面后,是否质量上不错? 我们怎么从实际的结果中找出更好的展现策略呢?


下面简单说一下,初步的质量评测算法(方法)

待续