宽带离网用户分析(5) Lasso和Group Lasso
来源:互联网 发布:淘宝图盾在哪里设置 编辑:程序博客网 时间:2024/06/03 10:00
宽带离网用户分析之Lasso和Group Lasso
Lasso
Lasso,全称为(The Least Absolute Shrinkage and Selectionator operator),是Tibshirani[1]在1996年提出的稀疏特征选择方法。
其中
公式的含义很简单,就是找到所有特征的权重向量
如果大家对这边的范数不太了解,可以参考下面的链接,讲的很好哒。
机器学习中的范数规则化之(一)L0、L1与L2范数
对于Lasso的求解我们介绍完下一节以后一并介绍。
Group Lasso
对于Lasso方法,所有的特征的地位是平等的,也就是说,
兜了个大圈子,我们现在回到《宽带离网用户分析》的问题,我们来重温一下这些特征:
特征分为7种,但不是7个哟,对于某些种类的特征,比如“用户每天上下线的信息”,我们可以提取的特征就有近几百维(如果将每天上网的上网时间的差值,以及之前介绍过的直方图特征拼接在一起)。假设上下线的特征为
这里大家大概可以体会到“特征成组的含义了”,这里我们先介绍方法,然后分析他为什么有用。
GroupLasso是Yuan等人[2]提出的面向特征成组特性的特征选择方法,其可以形式化的表示成下面的式子:
其中
不同于Lasso 方法将每个特征的系数项的绝对值加总, 这里所加总的是每个组系数的 L2 范数,在优化的过程中,该结构尽量选出更少的组(组间稀疏),而组内是L2范数,稀疏约束没那么强。
组特征为什么有效
有的时候,两个好的特征的结合未必比得上一个好特征和一个差特征,我们通过下面的图来解释:
上图,我们可以看出,两个“还不错”的特征的组合,未必就能够得到更好的效果。
上图,我们可以看出,“还不错”的特征a和“很不好”的特征b结合,却有很好的效果。
上面两张图说明一个问题,从某些“不好的”特征未必无效,而好上加好未必能更好。
举一个宽带离网分析中的例子:
假设有3个特征:a——用户的终端类型、b——用户周六是否上网、c——用户周日是够上网,如果用单独的特征进行离网判别,准确率分别为40%,56%,12%,但是组合的情况如下表:
我们发现bc的组合具有最好的效果,从特征上来讲,我们可以这样解释:虽然用户在周日是否上网本身效果并不好,但是结合周六上网情况就形成了重要的语义信息:用户在周末的上网时间变化,所以效果很好。
虽然用户的收入和用户周六是否上网都是效果不错的特征,但是他们的结合可能并不能传达更多的信息,所以效果不好。
从“组”的角度来讲,周六和周日是否上网就是一组,组内的特征同时出现往往能表达更多的信息,适合同时出现。
所以在这种情况下如果做组特征选择,可能就选出了bc这一组,最终的预测效果达到82%,这是直接取最好的两个特征ab所达不到的。
而且实验也证明直接用Lasso选出的特征预测效果也是不如Group Lasso来的有效的。
调参和求解
对于
对已Lasso的求解,我们用的是SLEP工具箱[3],该工具箱专职解决形式如:
这样的
参考文献:
[1]Robert Tibshirani. “Regression shrinkage and selection via the lasso.” Journal of the Royal Statistical Society. Series B (Methodological) (1996): 267-288.
[2]MingYuan, and Yi Lin. “Model selection and estimation in regression with grouped variables.” Journal of the Royal Statistical Society: Series B (Statistical Methodology) 68.1
(2006): 49-67.
[3]Jun Liu, Shuiwang Ji, and Jieping Ye. “SLEP: Sparse learning with efficient projections.” Arizona State University 6 (2009).
- 宽带离网用户分析(5) Lasso和Group Lasso
- lasso变形(一)----group lasso
- LASSO
- Lasso
- Lasso
- lasso
- LASSO, sparse group LASSO, elastic net
- LASSO, sparse group LASSO, elastic net
- lasso(L1正则化、lasso回归)
- LASSO和LARS
- Lasso 稀疏约束 + Group Lasso 分组最小角回归算法
- 岭回归、Lasso及其分析
- 5.Multil-task lasso(多任务lasso回归分析)
- Lasso regression 和 Ridge Regression
- 4. Lasso回归和岭(Ridge)回归
- 机器学习实战【9】(岭回归和Lasso)
- Process Lasso
- Lasso回归
- Intel Threading BuildingBlocks(Intel TBB)介绍
- HDU 1575 Tr A (矩阵快速幂)
- Nginx(2):工作机制
- Envir
- xpath内容中含有引号的处理方法
- 宽带离网用户分析(5) Lasso和Group Lasso
- 端口转发
- Android编译过程详解(二)
- ios面试题
- sql,javascript,php中字符串与变量的连接符
- linux 环境变量设置方法总结(PATH/LD_LIBRARY_PATH)
- list删除null
- (C/C++学习笔记)临时对象深入理解
- ListView的item点击事件不响应(你觉得应该响应的,但是就是没响应,而且不是代码问题)