宽带离网用户分析(5) Lasso和Group Lasso

来源:互联网 发布:淘宝图盾在哪里设置 编辑:程序博客网 时间:2024/06/03 10:00

宽带离网用户分析之Lasso和Group Lasso

Lasso

  Lasso,全称为(The Least Absolute Shrinkage and Selectionator operator),是Tibshirani[1]在1996年提出的稀疏特征选择方法。
  minβ||YXβ||22+λ||β||1 (1)
  其中XRm×nYRm分别表示数据矩阵和类标向量,λ0是正则参数,βRn是特征选择参数向量。第一项为损失函数项,第二项为罚函数项。
  公式的含义很简单,就是找到所有特征的权重向量β,使得我们的(1)式的值最小,不但看出||YXβ||22衡量的是模型的拟合值与实际值的误差,并且是用平方和的L2范数来衡量,但是如果只有这一项,往往会产生过拟合的问题,所以我们需要对β提出稀疏性的要求,就是β的L1范数,这样的约束我们就叫做Lasso。而λ的值越大,我们对β稀疏性就越偏重,这里稀疏性可以看出来,就是β所有值的绝对值的和,当该值越小,肯定所有β向量的分量都趋近于0,0值越多,我们就说β越稀疏。
  β稀疏了有什么好处呢,首先模型的泛化能力会加强(减少过拟合的风险),计算复杂性也会下降,而且利用β选出来的特征越少,模型的可解释性也会增加。
  如果大家对这边的范数不太了解,可以参考下面的链接,讲的很好哒。
  机器学习中的范数规则化之(一)L0、L1与L2范数
  对于Lasso的求解我们介绍完下一节以后一并介绍。

Group Lasso

  对于Lasso方法,所有的特征的地位是平等的,也就是说,β中每一维的大小被界定的标准就是他对预测值的贡献,以及他联合其他维度被施加的稀疏约束。但是很多情况下,各个维度并不是平等的,特征以组的形式存在。
  兜了个大圈子,我们现在回到《宽带离网用户分析》的问题,我们来重温一下这些特征:
  特征
  特征分为7种,但不是7个哟,对于某些种类的特征,比如“用户每天上下线的信息”,我们可以提取的特征就有近几百维(如果将每天上网的上网时间的差值,以及之前介绍过的直方图特征拼接在一起)。假设上下线的特征为o1,o2,...,on,而掉线信息的特征为l1,l2,...,lm,很明显o1,o2,l1,l2这四个特征两两之间的关系是不一样的。
  这里大家大概可以体会到“特征成组的含义了”,这里我们先介绍方法,然后分析他为什么有用。
  GroupLasso是Yuan等人[2]提出的面向特征成组特性的特征选择方法,其可以形式化的表示成下面的式子:
  βλ^=argminβ(||YXβ||22+λGg=1||βIg||2) (2)
  其中XRm×nYRm分别表示数据矩阵和类标向量,βRn是特征选择参数向量,Igg组的特征下标,g=1,2,...,GGN+是组的个数),λ0是正则参数。
  不同于Lasso 方法将每个特征的系数项的绝对值加总, 这里所加总的是每个组系数的 L2 范数,在优化的过程中,该结构尽量选出更少的组(组间稀疏),而组内是L2范数,稀疏约束没那么强。

组特征为什么有效

  有的时候,两个好的特征的结合未必比得上一个好特征和一个差特征,我们通过下面的图来解释:
  图1
  上图,我们可以看出,两个“还不错”的特征的组合,未必就能够得到更好的效果。
  图2
  上图,我们可以看出,“还不错”的特征a和“很不好”的特征b结合,却有很好的效果。
  上面两张图说明一个问题,从某些“不好的”特征未必无效,而好上加好未必能更好。
  举一个宽带离网分析中的例子:
  假设有3个特征:a——用户的终端类型、b——用户周六是否上网、c——用户周日是够上网,如果用单独的特征进行离网判别,准确率分别为40%,56%,12%,但是组合的情况如下表:

组合 准确率 a 0.4 b 0.56 c 0.12 ab 0.57 bc 0.82 ac 0.42

  我们发现bc的组合具有最好的效果,从特征上来讲,我们可以这样解释:虽然用户在周日是否上网本身效果并不好,但是结合周六上网情况就形成了重要的语义信息:用户在周末的上网时间变化,所以效果很好。
  虽然用户的收入和用户周六是否上网都是效果不错的特征,但是他们的结合可能并不能传达更多的信息,所以效果不好。
  从“组”的角度来讲,周六和周日是否上网就是一组,组内的特征同时出现往往能表达更多的信息,适合同时出现。
  所以在这种情况下如果做组特征选择,可能就选出了bc这一组,最终的预测效果达到82%,这是直接取最好的两个特征ab所达不到的。
  而且实验也证明直接用Lasso选出的特征预测效果也是不如Group Lasso来的有效的。

调参和求解

  对于λ的值,我们采用交叉验证的方法进行选择。
  对已Lasso的求解,我们用的是SLEP工具箱[3],该工具箱专职解决形式如:
  minx12||YXβ||22+λGg=1Wg||βIg||q (3)
  这样的1/q范式的正则化最小平方差问题,和Group Lasso不一样的是,Wg表示第g组的权值,而q表示正则项的范数。
  

参考文献:

[1]Robert Tibshirani. “Regression shrinkage and selection via the lasso.” Journal of the Royal Statistical Society. Series B (Methodological) (1996): 267-288.
[2]MingYuan, and Yi Lin. “Model selection and estimation in regression with grouped variables.” Journal of the Royal Statistical Society: Series B (Statistical Methodology) 68.1
(2006): 49-67.
[3]Jun Liu, Shuiwang Ji, and Jieping Ye. “SLEP: Sparse learning with efficient projections.” Arizona State University 6 (2009).

0 0
原创粉丝点击