相关视频算法

来源:互联网 发布:惠安县招聘网络销售 编辑:程序博客网 时间:2024/05/29 19:26

背景:

根据视频名称,得到若干相关视频

方法:

对视频名称切词,将切词后的term进行拉链求并,按照视频名称中term出现个数排序

 缺点:

拉链求并代价高,没有考虑到term的权重,没有考虑视频属性

改进:

考虑英文、数字带来的影响

去除视频名称中冗余、没有意义的term(配置词表,使用正则过滤)

选择最能反映query的term词组(idf),去除停用词

考虑时间因素,建立视频的时间关联:相关视频,上传时间接近

考虑视频特征(短文本、连续剧、上下专辑)

考虑产品线特征:借助tag、introduction,加入其他因素来矫正相关性

分析视频上传者的行为,以帮助相关视频的分析:顺序、逆序(数字、字母)

对排序或者相关性进行矫正

排序:

文本相关性、人工调权、权重相同时排序策略

评估:

badcase分析、原因分析、改进

 

原创粉丝点击