[session] 多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析
来源:互联网 发布:文章cms哪个好 编辑:程序博客网 时间:2024/05/23 01:57
Strata Data Conference北京站大会7月12号即将召开——
有需求的同学还请抓紧时间,
点击二维码即可登录会议官网报名。
多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析
讲师:杨帆 (Lenovo)
13:10–13:50 Saturday, 2017-07-15
数据科学&高级分析 (Data science & advanced analytics)
地点: 多功能厅5B+C(Function Room 5B+C)
观众水平 (Level): 中级 (Intermediate)
必要预备知识
对机器学习的概念有一定了解。
您将学到什么
1.根据用户行为数据,进行多视图用户建模 2.使用半监督学习,在标注量不大的情况下,在海量数据中获取良好的学习效果。
描述
1. 用户属性预测的目标。越来越多的企业构建了以用户为中心的数据运营管理体系,对用户的理解是这一运营体系的关键。许多大数据技术在这个方向得以应用与发展,形成了一整套用户画像技术体系。在无法直接收集个人信息的情况下,企业需要根据用户行为数据,来预测用户的特定属性(如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等),从而达到理解用户状态、掌握用户习惯、捕捉用户需求的目标,实现以用户为中心的数据化运营。
2. 多视图用户建模。 根据用户的行为日志,我们可以把用户抽象为:
由行为状态按时间先后顺序组成的序列模型、
在行为序列基础上提取的频繁模式特征向量、
基于传统RFM理论改进形成特征向量、
由兴趣点或兴趣点类型构成的BoW模型及相应的tf-idf向量
3. 多种学习方法。在不同的数据视图中,我们可以用不同的分类算法对用户属性进行预测:
在序列模型下,可以用Markov条件转移矩阵和序列距离计算的方法,对用户进行分类;
在各种向量模型下,包括深度学习在内的许多经典的向量空间的分类方法可以用来预测用户属性;
此外,在“用户-兴趣点”二部图上进行的标签传播,也能用于用户属性分析。
4. 协同训练。在一种视图下,在通过机器学习方法获得的预测结果中,筛选出一批高置信度的样本,做为新的训练样本,与原来的训练集一起,放到另一种视图中去学习;由于我们构建的用户数据视图相互之间比较独立,在新的视图中,我们可以得到新的高置信度样本,这批样本可以再纳入训练集;如此,在各个视图间反复迭代,训练样本集可以不断扩大。这样,我们就可以在只有较少标注样本的前提下,滚雪球似的不断扩充标注集,在有充足标注集的情况下,获得较好的机器学习效果。
讲师介绍:
杨帆 (Lenovo)
研究生毕业于中国科学技术大学,现任联想大数据产品研发部高级经理,负责大数据产品架构与算法研究等工作。曾在施乐、阿里巴巴、华为、百度、万达电商等公司从事数据挖掘研发工作,工作涉及机器学习/模式识别在图像处理、电子商务、搜索推荐、知识图谱、零售方面的应用。
- [session] 多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析
- Python数据分析与挖掘实战—挖掘建模
- 基于用户行为的数据分析与挖掘+分布式日志管理系统
- 社会计算:用户在线行为分析与挖掘
- 数据挖掘总结之有监督学习与无监督学习的区别
- 数据挖掘进行用户行为分析
- B2C 网站的行为分析与数据挖掘
- B2C 网站的行为分析与数据挖掘
- 微博特征与行为的大数据挖掘分析
- 互联网用户行为的建模与预测
- 大数据应用于市场与用户研究
- 数据挖掘与数据建模步骤
- 数据分析与挖掘学习(一)
- 数据分析与挖掘
- 『Python数据分析与挖掘实战』第五章:挖掘建模
- 监督学习,非监督学习与半监督学习
- 概念:监督学习、无监督学习与半监督学习
- 海量实时用户行为数据的存储和分析
- 提交在线调查表,有O'Reilly报告等你来取!
- Strata Data Conference北京2017大幕开启!
- #会议调查表# O'Reilly报告等你来取!
- 课程、干货任你选,Strata技术会重磅来袭!
- 扩展Spark ML来构建你自己的模型和变换器类型
- [session] 多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析
- [session] 使用开源人工智能和机器学习工具训练现实世界的信用模型
- [session] 欺诈的潜伏性: 如何利用大数据进行反欺诈检测
- [session] GeaBase:蚂蚁金服大规模实时分布式图数据库
- 什么是机器学习工程师?
- SDK + FinGraph + Go:用一手行为数据和图谱信息创造商业价值 [session]
- 使用BigDL在Apache Spark上进行大规模分布式深度学习 [session]
- HAP:多流动态实时分析系统 [session]
- Pluto:一款分布式异构深度学习框架 [session]