宽带离网用户分析（5） Lasso和Group Lasso

来源：互联网发布：淘宝图盾在哪里设置编辑：程序博客网时间：2024/06/03 10:00

宽带离网用户分析之Lasso和Group Lasso

Lasso

　　Lasso，全称为(The Least Absolute Shrinkage and Selectionator operator)，是Tibshirani[1]在1996年提出的稀疏特征选择方法。
　　minβ||Y−Xβ||22+λ||β||1 （1）
　　其中X∈Rm×n ，Y∈Rm分别表示数据矩阵和类标向量，λ≥0是正则参数，β∈Rn是特征选择参数向量。第一项为损失函数项，第二项为罚函数项。
　　公式的含义很简单，就是找到所有特征的权重向量β，使得我们的（1）式的值最小，不但看出||Y−Xβ||22衡量的是模型的拟合值与实际值的误差，并且是用平方和的L2范数来衡量，但是如果只有这一项，往往会产生过拟合的问题，所以我们需要对β提出稀疏性的要求，就是β的L1范数，这样的约束我们就叫做Lasso。而λ的值越大，我们对β稀疏性就越偏重，这里稀疏性可以看出来，就是β所有值的绝对值的和，当该值越小，肯定所有β向量的分量都趋近于0，0值越多，我们就说β越稀疏。
　　β稀疏了有什么好处呢，首先模型的泛化能力会加强（减少过拟合的风险），计算复杂性也会下降，而且利用β选出来的特征越少，模型的可解释性也会增加。
　　如果大家对这边的范数不太了解，可以参考下面的链接，讲的很好哒。
　　机器学习中的范数规则化之（一）L0、L1与L2范数
　　对于Lasso的求解我们介绍完下一节以后一并介绍。

Group Lasso

　　对于Lasso方法，所有的特征的地位是平等的，也就是说，β中每一维的大小被界定的标准就是他对预测值的贡献，以及他联合其他维度被施加的稀疏约束。但是很多情况下，各个维度并不是平等的，特征以组的形式存在。
　　兜了个大圈子，我们现在回到《宽带离网用户分析》的问题，我们来重温一下这些特征：
　　
　　特征分为7种，但不是7个哟，对于某些种类的特征，比如“用户每天上下线的信息”，我们可以提取的特征就有近几百维（如果将每天上网的上网时间的差值，以及之前介绍过的直方图特征拼接在一起）。假设上下线的特征为o1,o2,...,on，而掉线信息的特征为l1,l2,...,lm，很明显o1,o2,l1,l2这四个特征两两之间的关系是不一样的。
　　这里大家大概可以体会到“特征成组的含义了”，这里我们先介绍方法，然后分析他为什么有用。
　　GroupLasso是Yuan等人[2]提出的面向特征成组特性的特征选择方法，其可以形式化的表示成下面的式子：
　　βλ^=argminβ(||Y−Xβ||22+λ∑Gg=1||βIg||2) （2）
　　其中X∈Rm×n ，Y∈Rm分别表示数据矩阵和类标向量，β∈Rn是特征选择参数向量，Ig是g组的特征下标，g=1,2,...,G（G∈N+是组的个数），λ≥0是正则参数。
　　不同于Lasso 方法将每个特征的系数项的绝对值加总，这里所加总的是每个组系数的 L2 范数，在优化的过程中，该结构尽量选出更少的组（组间稀疏），而组内是L2范数，稀疏约束没那么强。

组特征为什么有效

　　有的时候，两个好的特征的结合未必比得上一个好特征和一个差特征，我们通过下面的图来解释：
　　
　　上图，我们可以看出，两个“还不错”的特征的组合，未必就能够得到更好的效果。
　　
　　上图，我们可以看出，“还不错”的特征a和“很不好”的特征b结合，却有很好的效果。
　　上面两张图说明一个问题，从某些“不好的”特征未必无效，而好上加好未必能更好。
　　举一个宽带离网分析中的例子：
　　假设有3个特征：a——用户的终端类型、b——用户周六是否上网、c——用户周日是够上网，如果用单独的特征进行离网判别，准确率分别为40%，56%，12%，但是组合的情况如下表：

组合准确率 a 0.4 b 0.56 c 0.12 ab 0.57 bc 0.82 ac 0.42

　　我们发现bc的组合具有最好的效果，从特征上来讲，我们可以这样解释：虽然用户在周日是否上网本身效果并不好，但是结合周六上网情况就形成了重要的语义信息：用户在周末的上网时间变化，所以效果很好。
　　虽然用户的收入和用户周六是否上网都是效果不错的特征，但是他们的结合可能并不能传达更多的信息，所以效果不好。
　　从“组”的角度来讲，周六和周日是否上网就是一组，组内的特征同时出现往往能表达更多的信息，适合同时出现。
　　所以在这种情况下如果做组特征选择，可能就选出了bc这一组，最终的预测效果达到82%，这是直接取最好的两个特征ab所达不到的。
　　而且实验也证明直接用Lasso选出的特征预测效果也是不如Group Lasso来的有效的。

调参和求解

　　对于λ的值，我们采用交叉验证的方法进行选择。
　　对已Lasso的求解，我们用的是SLEP工具箱[3]，该工具箱专职解决形式如：
　　minx12||Y−Xβ||22+λ∑Gg=1Wg||βIg||q （3）
　　这样的ℓ1/ℓq范式的正则化最小平方差问题，和Group Lasso不一样的是，Wg表示第g组的权值，而q表示正则项的范数。
　　

参考文献：

[1]Robert Tibshirani. “Regression shrinkage and selection via the lasso.” Journal of the Royal Statistical Society. Series B (Methodological) (1996): 267-288.
[2]MingYuan, and Yi Lin. “Model selection and estimation in regression with grouped variables.” Journal of the Royal Statistical Society: Series B (Statistical Methodology) 68.1
(2006): 49-67.
[3]Jun Liu, Shuiwang Ji, and Jieping Ye. “SLEP: Sparse learning with efficient projections.” Arizona State University 6 (2009).

0 0