内容模型篇

来源:互联网 发布:ktv必点歌曲 知乎 编辑:程序博客网 时间:2024/06/06 09:47

内容模型篇

概念

 内容模型, 在具体的业务里面指新闻/视频的画像,以结构化数据存储。一般会根据业务领域知识,从许多的维度来刻画内容。

怎样构建

定义模型的刻画维度

 这是一个与业务场景紧密相关的工作。以新闻推荐场景为例,刻画的维度如下:
 1. 我们喜欢一篇新闻首先是最直观的–内容。所以模型里面必须有可以近似等价新闻内容的维度。term成为首选(即切词的结果), 考虑到存储及查询和计算性能,一般我们会根据term的权重(tfidf)取topK. 在筛选topk的过程仅以权重作为参考时会保留无意义的词汇,所以需要人工过滤词典来去除这些杂质。
 2. 文章内容还可以从话题级别进行建模。如之前大热的LDA(基于大量的历史文档,训练一个合适的模型,对新来的增量内容做推荐) . 我们可以从语义级别进行建模,而不仅是离散的term词了。这里离散的意思是term之间没有相似的概念。
 3. 文章的内容其实潜在的体现了文章的分类。比如,我们一般会喜欢看关于岛国爱情动作女明星的视频或新闻,如果有一个服务可以自己的识别这类内容,第一时间推给我。。这就是内容的类别-category. 这需要熟悉业务的专家来对其进行分类—当然,由于内容是实时增量的,由机器识别是必须的事情,所以结合专家和机器,这就需要svm出场了,当然不要少看了v..
 4. 分类还可以延伸, 像文章的质量和色情度是类似于分类的维度,有补充的作用。当然也是由分类器来作,至于用svm还是lr。。是二分类还是多分类,随心吧。
 5. 对于新闻我们还需要作者和网站来源这些维度。我一般喜欢sohu的新闻,至于作者,一般是越无脑的越好。
 6. 我是hn人,所以地域对我好像很敏感,所以能分析出文章的地域信息绝对加分
 7. 时间。是的,有多少人会看十几年前的“新闻”呢!

工程实现

 从上面的刻画维度过程可知,在内容模型的构建过程中会涉及很多的分类器,聚类算法和人工规则,所以用一个流(链)式的算子来实现内容模型会是一个不错的选择。每个维度的提取可以按依赖关系拆分到不同的算子中,然后再组成一个链式来构建最终的内容模型。

注意事项

 像分类器和lda这种机器学习的结果进入内容模型后,是一个持久性的工作。在优化过程中,如果分类器或Lda的模型有更新,一定要考虑要模型的切换时间点和相应的策略。 以catogery为例, 之前有10个分类,优化后为50个分类,怎样保证这些分类之间的一致性(如果不兼容,需要以某个时间点为基准重新计算整个内容模型)

0 0