内容模型篇
来源:互联网 发布:ktv必点歌曲 知乎 编辑:程序博客网 时间:2024/06/06 09:47
内容模型篇
概念
内容模型, 在具体的业务里面指新闻/视频的画像,以结构化数据存储。一般会根据业务领域知识,从许多的维度来刻画内容。
怎样构建
定义模型的刻画维度
这是一个与业务场景紧密相关的工作。以新闻推荐场景为例,刻画的维度如下:
1. 我们喜欢一篇新闻首先是最直观的–内容。所以模型里面必须有可以近似等价新闻内容的维度。term成为首选(即切词的结果), 考虑到存储及查询和计算性能,一般我们会根据term的权重(tfidf)取topK. 在筛选topk的过程仅以权重作为参考时会保留无意义的词汇,所以需要人工过滤词典来去除这些杂质。
2. 文章内容还可以从话题级别进行建模。如之前大热的LDA(基于大量的历史文档,训练一个合适的模型,对新来的增量内容做推荐) . 我们可以从语义级别进行建模,而不仅是离散的term词了。这里离散的意思是term之间没有相似的概念。
3. 文章的内容其实潜在的体现了文章的分类。比如,我们一般会喜欢看关于岛国爱情动作女明星的视频或新闻,如果有一个服务可以自己的识别这类内容,第一时间推给我。。这就是内容的类别-category. 这需要熟悉业务的专家来对其进行分类—当然,由于内容是实时增量的,由机器识别是必须的事情,所以结合专家和机器,这就需要svm出场了,当然不要少看了v..
4. 分类还可以延伸, 像文章的质量和色情度是类似于分类的维度,有补充的作用。当然也是由分类器来作,至于用svm还是lr。。是二分类还是多分类,随心吧。
5. 对于新闻我们还需要作者和网站来源这些维度。我一般喜欢sohu的新闻,至于作者,一般是越无脑的越好。
6. 我是hn人,所以地域对我好像很敏感,所以能分析出文章的地域信息绝对加分
7. 时间。是的,有多少人会看十几年前的“新闻”呢!
工程实现
从上面的刻画维度过程可知,在内容模型的构建过程中会涉及很多的分类器,聚类算法和人工规则,所以用一个流(链)式的算子来实现内容模型会是一个不错的选择。每个维度的提取可以按依赖关系拆分到不同的算子中,然后再组成一个链式来构建最终的内容模型。
注意事项
像分类器和lda这种机器学习的结果进入内容模型后,是一个持久性的工作。在优化过程中,如果分类器或Lda的模型有更新,一定要考虑要模型的切换时间点和相应的策略。 以catogery为例, 之前有10个分类,优化后为50个分类,怎样保证这些分类之间的一致性(如果不兼容,需要以某个时间点为基准重新计算整个内容模型)
- 内容模型篇
- uml 模型内容
- 内容仓库模型JCR
- 内容仓库模型
- phpcms2008 内容模型说明
- Dede内容模型管理
- 内容模型管理
- dedecms内容模型使用教程
- 波特“钻石”模型理论的基本内容
- dede 内容模型 附件 的调用
- dede 自定义内容模型 不能添加文章
- dede 内容模型 option下拉框 value
- WPF控件内容模型(10)
- dedecms 自定义内容模型 模板上操作
- MVC 模型项目查找内容总结
- DedeCMS后台新建栏目,初识内容模型
- DedeCMS后台新建栏目,初识内容模型
- select I/O模型 内容摘自网上
- 比大小
- Windows在php5.5里配置redis扩展
- 2016 Multi-University Training Contest 2 hdu 5734 Acperience【推公式,数学】
- Andorid之地理定位权限的在M之前和之后获取表现
- Oracle的scott用户
- 内容模型篇
- 【CDP-云设计模式】第4章,9.预定的横向扩展模式(Scheduled Scale Out Pattern)
- windows资源管理器已停止工作解决方案
- Reverse Nodes in k-Group
- Python 常用经验总结
- 通过ASM1117实现5V转3.3V电路
- L2-015. 互评成绩-PAT团体程序设计天梯赛GPLT
- Js自定义对象封装
- poj2063(Investment)完全背包