内容模型篇

来源：互联网发布：ktv必点歌曲知乎编辑：程序博客网时间：2024/06/06 09:47

内容模型篇

概念

　内容模型，在具体的业务里面指新闻/视频的画像，以结构化数据存储。一般会根据业务领域知识，从许多的维度来刻画内容。

怎样构建

定义模型的刻画维度

　这是一个与业务场景紧密相关的工作。以新闻推荐场景为例，刻画的维度如下：
　1. 我们喜欢一篇新闻首先是最直观的–内容。所以模型里面必须有可以近似等价新闻内容的维度。term成为首选（即切词的结果），考虑到存储及查询和计算性能，一般我们会根据term的权重(tfidf)取topK. 在筛选topk的过程仅以权重作为参考时会保留无意义的词汇，所以需要人工过滤词典来去除这些杂质。
　2. 文章内容还可以从话题级别进行建模。如之前大热的LDA(基于大量的历史文档，训练一个合适的模型，对新来的增量内容做推荐) . 我们可以从语义级别进行建模，而不仅是离散的term词了。这里离散的意思是term之间没有相似的概念。
　3. 文章的内容其实潜在的体现了文章的分类。比如，我们一般会喜欢看关于岛国爱情动作女明星的视频或新闻，如果有一个服务可以自己的识别这类内容，第一时间推给我。。这就是内容的类别-category. 这需要熟悉业务的专家来对其进行分类—当然，由于内容是实时增量的，由机器识别是必须的事情，所以结合专家和机器，这就需要svm出场了，当然不要少看了v..
　4. 分类还可以延伸，像文章的质量和色情度是类似于分类的维度，有补充的作用。当然也是由分类器来作，至于用svm还是lr。。是二分类还是多分类，随心吧。
　5. 对于新闻我们还需要作者和网站来源这些维度。我一般喜欢sohu的新闻，至于作者，一般是越无脑的越好。
　6. 我是hn人，所以地域对我好像很敏感，所以能分析出文章的地域信息绝对加分
　7. 时间。是的，有多少人会看十几年前的“新闻”呢！

工程实现

　从上面的刻画维度过程可知，在内容模型的构建过程中会涉及很多的分类器，聚类算法和人工规则，所以用一个流（链）式的算子来实现内容模型会是一个不错的选择。每个维度的提取可以按依赖关系拆分到不同的算子中，然后再组成一个链式来构建最终的内容模型。

注意事项

　像分类器和lda这种机器学习的结果进入内容模型后，是一个持久性的工作。在优化过程中，如果分类器或Lda的模型有更新，一定要考虑要模型的切换时间点和相应的策略。以catogery为例，之前有10个分类，优化后为50个分类，怎样保证这些分类之间的一致性（如果不兼容，需要以某个时间点为基准重新计算整个内容模型）

0 0