从收入“被增长”看手机上网业务分析

来源:互联网 发布:php系统常量 编辑:程序博客网 时间:2024/04/29 05:01
  掌握真实数据是一切分析工作的基础。
  这个要求并不高,但却很难做到,因为不化妆的女人多,未经粉饰的关键数据少。各行各业,上到国家下到企业,“假数据、真分析”现象可谓屡见不鲜。当然,“假数据”未必就是造假或操纵的数据,还包括不恰当或被滥用的数据,其共同特点就是不能反映真实情况。
  以2009年互联网热词“被XX”系列为例,其中“被就业”可谓指标作假的案例,而“被增长”却是指标滥用的典范。很可惜,这类问题在运营商内部同样常见,甚至有越来越严重的迹象。
  从收入“被增长”案例中,我们可以发现滥用平均值所带来的“被平均”问题。而“被平均”问题在数据业务分析上同样十分普遍,不仅损害绩效考核的公平性,而且可能对经营决策产生误导,需要引起警惕。本文对手机上网分析提了一些建议,希望能为掌握真实的数据业务发展情况提供一些思路和参考。
  
  一、收入被增长背后的统计原因
  2009年7月29日,国家统计局公布:对6.5万户城镇居民家庭抽样调查资料显示,上半年城镇居民人均可支配收入8856元,同比增长9.8%,扣除价格因素,实际增长11.2%。
  该数据一出,百姓哗然。
  这几年,除了移动资费逐年下降外,其余各类物价几乎无一不涨:猪肉涨、油价涨、水费涨、而房价更是飞涨。与此相对应,除了公务员不断加工资外,其他各行各业的工资收入几乎都不见增长,更别提跑赢物价指数。
  这显然是在挑战大众智商!
  但是,国家统计局作为最权威的统计部门,如此数据不太可能造假。我们可以相信国家统计局确实调查了6.5万户居民,确实得到了这个8856元的平均收入。当然,国内的物价指数,大凡知道CPI构成的人都会选择无视,这点就暂时不予考虑。
  那么,为何这个数据与百姓的感受如此背离? 
  从统计角度看,“被增长”主要原因有二:一是样本的典型性问题,普通百姓“被代表”了;二是用平均数来表示大部分人收入的问题,百姓再一次“被平均”了。
  “平均收入”不是在什么国家都适用的。美国人的收入结构成橄榄型,中产阶级很庞大,贫穷的和超富的占比较少,用“平均收入”基本能够反映大多数人的收入情况。而中国这些年收入差距越来越大,普通居民收入增长缓慢,有些甚至还在下降,大量中产阶层也被逼成了房奴或“蜗居”,但同时超级富豪也越来越多,收入结构失衡现象十分明显,这导致普通人的收入与“平均收入”偏离的越来越远。
  所以说,收入“被增长”的问题根源其实是“被代表”之后的“被平均”。
  
  二、众数、平均值和中位数
  既然平均值存在“被平均”的问题,那该用什么指标呢?
  从统计角度看,平均值与众数、中位数一样,其作用都是描述样本数据集合中心所处的位置。众数是指样本数据中出现次数最高的哪个数,一般只适用于序次级(Ordinal)和名义级(Nominal)的数据,这类数据在抽样调查中较为常见。而运营商内部分析所用数据大都属于刻度级(Scale),众数不太适用,一般用平均数或中位数。
  若数据分布较为正态,用平均数来大致描述数据中心点是个不错的选择。但是若数据分布极不均衡,譬如当前的居民收入分布,用平均数就很不合适,这类情况下应该用中位数。
  中位数是将样本数据按大小排序后,处于中间位置的那个数据的大小。由于中位数的概念不被人所熟知,而统计的难度也略微大一些,所以尽管是最好的描述样本中心点的指标,但却很少被人用到。
  
  三、手机上网流量分布特点
  对于手机上网,平均值也不适用,因为手机上网流量的分布也极度不均,也会存在“被平均”的问题。
  手机上网用户和流量的分布大致如下(月流量,单位MB):
  
  
  从上图可以看出,接近50%的手机上网用户的流量都在1MB以下(两年前,50%上网用户流量不足40KB、80%用户不足1MB)。但是,超高流量用户(500MB以上),占总量不足0.3%,却消耗了35%的流量。
  这种流量分布还是因为上网卡数量很少、资费基本合理、20元不限流量用户基本清理完毕的情形下。对于另外一些省份,这种流量分布失衡的情况恐怕更加显著。
  
  四、手机上网分析建议
  针对手机上网业务的分析,我有以下建议:
  1、用中位数替代平均数
  出账收入、计费时长的平均值与中位数差距较小,且差距有逐渐缩小趋势,可以用平均值进行分析,但是手机上网流量这两个指标的差距依然高达17倍(前两年是30-40倍),只有中位数才能反映大部分人的上网流量。
  
  
  2、用TOP1%贡献率监控无线带宽消耗
  对于上网流量的分布情况,我们可以对流量分档的办法进行分析。这个方法存在两大问题:一是分档受限于当前,难以适应不断变化的分布情况;二是不够直观,分析时必须把流量分档作为一个维度,给多维度分析带来很大不便。
  这些年,在做业务稽核过程中,我一直用“TOP1%贡献率”监控少量用户消耗大量资源的情况。这个指标实际是将流量分档转化成一个简单的指标,且无论未来上网速度怎样提高,这个指标同样适用。
  以下是各常见指标的TOP1%贡献率情况(示意):
  
  
  前几年,在20元不限流量上网用户处于顶峰的时候,TOP1%贡献率曾经一度达到70%。后来随着该批用户的清理,该贡献率降低到35%以下。但2009年随着上网卡的大量发行及一些问题资费的推出,TOP1%贡献率又呈现显著上升态势,需要引起关注。
  
  3、建议明确定义“手机上网用户数”的公布口径
  目前,运营商对外的手机上网用户数的口径极度混乱。今年几次大会上,信产部领导和运营商老总说出的上网用户数量大相径庭,给移动互联网行业内的人带来诸多困惑。
  我建议将月流量1-500MB的用户定义为对外公布的手机上网用户数,将其流量定义为手机上网流量。另外,可以将500MB以上的用户归入上网卡之类,事实上很多高流量的20元不限流量的卡实际上就是被当成上网卡在用。
  
  4、用“单用户量收匹配分析法”分析上网收入
  目前一些部门依然用总流量乘以公允价格的办法进行收入稽核。稍微看看上网流量分布情况,就会知道该办法相当荒唐,显失公允。所以,对于手机上网的收入,强烈建议用我上一篇博文中所提出的“单用户量收匹配分析法”进行分析。
  
  五、结束语
  “假数据、真分析”既是分析人员的耻辱,也是分析人员的悲哀。
  在新的一年里,希望这种耻辱和悲哀能够少一些。
   
    =========================================================
    以上所有数据仅为示意,无口径、无出处,请勿当成真实数据。另外,关于TOP1%贡献度和中位数的具体统计办法,参见我下篇博文。
   
原创粉丝点击