百度词条中的链接结果不匹配问题

来源:互联网 发布:淘宝商城黑蜘蛛精 编辑:程序博客网 时间:2024/05/20 23:39
百度词条中的链接结果不匹配问题

    百度词条中经常会出现一些不匹配的问题,这次又发现了一种:一个词条中有些词是包含链接的,百度用蓝色标注出来了,但是当我们点击连接进去的时候,又发现结果一点儿都相关,这就出现了不匹配的现象。

    我们举例:我们在百度百科搜索词条“面向对象程序设计及C++”,这是一本C++的教程,百度词条的搜索结果是:

http://baike.baidu.com/link?url=O-30nI9DdhH45_jItIUu_C3MUbl7bK1DY1zvk-hWa51usS8q08pfqRrv-tCConylcxgqARRKSXQ85qNNHgc9h_





  然后我们显然可以看到这本书的作者信息是有链接的,也就是说百度词条收录了该作者的信息,假如我们还想了解该作者的其余作品,以便我们进一步学习,我们可能是想点进去看看的,这是对我们有帮助的。
   
    非常可惜的是,点进去的人物词条和真实作者信息不相关,根本就不是我们所要找的熟悉计算机编程领域的作者。我们可以展示链接的结果:









    三位作者的信息和三个链接对应的词条结果都不正确,用户没有找到相关的。这个不准确的信息往轻的说影响到了用户体验;往严重来说,用户在多次得不到准确反馈之后就不会再点击词条页面的链接了。

    其实,这个问题是可以解决的。我的初步想法如下:
   首先,我们可以初步确定的是百度使用的策略是搜索“面向对象程序设计及C++”词条页面的所有内容,每个word都在词库中做匹配,当匹配到词库中存在和作者相同的词时,可能会有个筛选的规则,具体筛选规则我们就不去猜测了,然后就直接返回匹配词条的链接。

    假如百度有这样的筛选规则的话,那么它肯定不是很有效的,有提升的空间。

   一个可行的改进策略是,我们先对用户搜索词条页面进行特征提取,用一些主题模型PLSA等,提取出该词条的topic words,例如上面的面向对象程序设计及C++”词条,我们可能得到的就是“编程”,“C++”,“计算机”之类的词汇。当存在匹配的词条时,我们也提取匹配词条页面的主题词,如果领域相当,我们才返回这个链接;否则,我们就不返回。
    
    这样就可以避免上面匹配结果完全不相关的情况。上面的三个作者词条应该都是属于“计算机”类别领域的,而返回匹配的几乎都是“政界”、“新闻界”、“医学”领域的词条,这个错误使用上面的筛选规则是完全可以避免的。



1 0
原创粉丝点击