百度词条中的链接结果不匹配问题
来源:互联网 发布:淘宝商城黑蜘蛛精 编辑:程序博客网 时间:2024/05/20 23:39
百度词条中的链接结果不匹配问题
百度词条中经常会出现一些不匹配的问题,这次又发现了一种:一个词条中有些词是包含链接的,百度用蓝色标注出来了,但是当我们点击连接进去的时候,又发现结果一点儿都相关,这就出现了不匹配的现象。
我们举例:我们在百度百科搜索词条“面向对象程序设计及C++”,这是一本C++的教程,百度词条的搜索结果是:
http://baike.baidu.com/link?url=O-30nI9DdhH45_jItIUu_C3MUbl7bK1DY1zvk-hWa51usS8q08pfqRrv-tCConylcxgqARRKSXQ85qNNHgc9h_
然后我们显然可以看到这本书的作者信息是有链接的,也就是说百度词条收录了该作者的信息,假如我们还想了解该作者的其余作品,以便我们进一步学习,我们可能是想点进去看看的,这是对我们有帮助的。
非常可惜的是,点进去的人物词条和真实作者信息不相关,根本就不是我们所要找的熟悉计算机编程领域的作者。我们可以展示链接的结果:
三位作者的信息和三个链接对应的词条结果都不正确,用户没有找到相关的。这个不准确的信息往轻的说影响到了用户体验;往严重来说,用户在多次得不到准确反馈之后就不会再点击词条页面的链接了。
其实,这个问题是可以解决的。我的初步想法如下:
首先,我们可以初步确定的是百度使用的策略是搜索“面向对象程序设计及C++”词条页面的所有内容,每个word都在词库中做匹配,当匹配到词库中存在和作者相同的词时,可能会有个筛选的规则,具体筛选规则我们就不去猜测了,然后就直接返回匹配词条的链接。
假如百度有这样的筛选规则的话,那么它肯定不是很有效的,有提升的空间。
一个可行的改进策略是,我们先对用户搜索词条页面进行特征提取,用一些主题模型PLSA等,提取出该词条的topic words,例如上面的面向对象程序设计及C++”词条,我们可能得到的就是“编程”,“C++”,“计算机”之类的词汇。当存在匹配的词条时,我们也提取匹配词条页面的主题词,如果领域相当,我们才返回这个链接;否则,我们就不返回。
这样就可以避免上面匹配结果完全不相关的情况。上面的三个作者词条应该都是属于“计算机”类别领域的,而返回匹配的几乎都是“政界”、“新闻界”、“医学”领域的词条,这个错误使用上面的筛选规则是完全可以避免的。
1 0
- 百度词条中的链接结果不匹配问题
- 爬取百度词条内链接
- 百度词条
- 百度词条
- 正则匹配百度结果
- ibitas结果不匹配
- awk 百度词条解释
- 百度词条的填充
- 百度词条填充
- 百度词条搜索建议
- 百度词条的搜索
- ajax百度词条
- 百度词条搜索功能
- OpenFlow 百度词条
- 百度百科 > 浏览词条 lua
- 仿百度词条的功能
- python爬虫-百度百科词条
- 【词条】C++编译、链接过程
- ViewPager动画详解
- android屏蔽Home键
- javascript中XMLHttpRequest对象
- (Andrew NG)The Importance of Encoding Versus Training with Sparse Coding and Vector Quantization
- SSL介绍
- 百度词条中的链接结果不匹配问题
- Eclipse 在开发中使用到的快捷键 提高开发效率
- cocos2d-x3.3在mac上的安装
- 企业管理过程信息化自助开发平台架构研究与应用
- The markup in the document following the root element must be well-formed.
- android xml解析-Pull解析
- MFC实现 MSN QQ 窗口抖动
- Gcov 详解 + 内核函数覆盖率测试方法详述及产生错误解决办法
- 用GraphLab Create快速体验深度学习