[session] 多视图建模与半监督学习：应用于海量用户数据挖掘与行为分析

来源：互联网发布：文章cms哪个好编辑：程序博客网时间：2024/05/23 01:57

Strata Data Conference北京站大会7月12号即将召开——

有需求的同学还请抓紧时间，

点击二维码即可登录会议官网报名。

多视图建模与半监督学习：应用于海量用户数据挖掘与行为分析

讲师：杨帆 (Lenovo)

13:10–13:50 Saturday, 2017-07-15

数据科学&高级分析 (Data science & advanced analytics)

地点：多功能厅5B＋C（Function Room 5B+C)

观众水平 (Level): 中级 (Intermediate)

必要预备知识

对机器学习的概念有一定了解。

您将学到什么

1.根据用户行为数据，进行多视图用户建模 2.使用半监督学习，在标注量不大的情况下，在海量数据中获取良好的学习效果。

描述

1. 用户属性预测的目标。越来越多的企业构建了以用户为中心的数据运营管理体系，对用户的理解是这一运营体系的关键。许多大数据技术在这个方向得以应用与发展，形成了一整套用户画像技术体系。在无法直接收集个人信息的情况下，企业需要根据用户行为数据，来预测用户的特定属性（如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等），从而达到理解用户状态、掌握用户习惯、捕捉用户需求的目标，实现以用户为中心的数据化运营。

2. 多视图用户建模。根据用户的行为日志，我们可以把用户抽象为：

由行为状态按时间先后顺序组成的序列模型、
在行为序列基础上提取的频繁模式特征向量、
基于传统RFM理论改进形成特征向量、
由兴趣点或兴趣点类型构成的BoW模型及相应的tf-idf向量

3. 多种学习方法。在不同的数据视图中，我们可以用不同的分类算法对用户属性进行预测：

在序列模型下，可以用Markov条件转移矩阵和序列距离计算的方法，对用户进行分类；
在各种向量模型下，包括深度学习在内的许多经典的向量空间的分类方法可以用来预测用户属性；
此外，在“用户-兴趣点”二部图上进行的标签传播，也能用于用户属性分析。

4. 协同训练。在一种视图下，在通过机器学习方法获得的预测结果中，筛选出一批高置信度的样本，做为新的训练样本，与原来的训练集一起，放到另一种视图中去学习；由于我们构建的用户数据视图相互之间比较独立，在新的视图中，我们可以得到新的高置信度样本，这批样本可以再纳入训练集；如此，在各个视图间反复迭代，训练样本集可以不断扩大。这样，我们就可以在只有较少标注样本的前提下，滚雪球似的不断扩充标注集，在有充足标注集的情况下，获得较好的机器学习效果。

讲师介绍：

杨帆 (Lenovo)

研究生毕业于中国科学技术大学，现任联想大数据产品研发部高级经理，负责大数据产品架构与算法研究等工作。曾在施乐、阿里巴巴、华为、百度、万达电商等公司从事数据挖掘研发工作，工作涉及机器学习/模式识别在图像处理、电子商务、搜索推荐、知识图谱、零售方面的应用。

阅读全文

0 0