机器如何计算“相关性”？

来源：互联网发布：淘宝1920全屏店招代码编辑：程序博客网时间：2024/04/29 07:11

机器只是知道关键词。

绝对不可能知道语义。

所以无从判断中心思想。

我们的观点是：

这是一个策略问题。

比方说网易新闻，http://gd.news.163.com/06/1024/04/2U61I1M40036000Q.html（中间有自动标出来的TAG，但不够准确），既然一个新闻两三百字难以确定。毕竟某些仅仅提到过一次的词语也可能才真正是主题思想。

那么，到了我们这边，我们由于不是做新闻的，所以，能玩的很多。

比如说，事先把昨天一整天的社会民生的文章计算，整理出许多内聚性很强的文章组，每组这样就会有一组词语来代表这组的主题思想。

然后，读者阅读其中一篇时，那么这片文章所属的组的代表词语，就可以关联到很多其他文章。

这样，发散性会好一点。

而不会说，抢劫案的新闻匹配的都是抢劫案。

可能会使派出所、治安联防等的昨日新闻都关联进来。

也就是说，单纯靠一篇新闻去玩，是不靠谱的

这就是一个策略问题，思路问题。

不过，产品设计人员一定要考虑到，用户真的会按照你的这种思路浏览吗？

您看六间房里面的相关推荐。

可不是这么样子的。

发散性很强。

引入各种策略。来让用户感觉好看。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1354655