用户流失分析中的关键技术

来源:互联网 发布:linux root 查看密码 编辑:程序博客网 时间:2024/05/09 19:41

用户流失分析中的关键技术

机器学习:

对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。

学习方式不同分类:

监督学习:学习样本中有结果标记

无监督学习:学习样本中无结果标记

分类模型:决策树

是一种归纳分类算法,结果为树结构。每个非叶节点均为对一个属性的测试,输出结果为离散值,每个分支对应一个不同的离散值。决策树就像是在回答一系列问题,不同的问题答案将导向不同的分支,最终得到一个分类结果。

如何构建决策树

20171111151040110333502.png

准备工做

20171111151040128152403.png

信息熵

20171111151040746617770.png

信息增益

20171111151040792471026.png

20171111151040822832134.png

特征选择

20171111151040863940581.png

20171111151040869854441.png

20171113151055444143166.png

20171113151055460581046.png

20171113151055463060098.png

决策树总结

20171113151055482166881.png

20171113151055485199194.png

集成学习

201711131510556096224.png

##### bagging

20171113151055641689618.png

20171113151055669356722.png

实际上达不到这个效果,因为模型与模型之间不是相互独立的。

boosting

20171113151055687362495.png

20171113151055700976408.png

#### 随机森林

20171113151055738570808.png

Smart Bagging:随机又放回的选取数据(行),随机选取特征(列)。

20171113151055766853153.png

特征工程

20171113151055925591829.png

模型评估:解释/泛化

201711131510559848562.png

机器学习流程

20171113151055989944791.png