阿里音乐-比赛记录(1)

来源:互联网 发布:软件测试桩模块 编辑:程序博客网 时间:2024/05/17 06:51

第一次从数模比赛走向数据挖掘比赛,感觉很不一样,很多书本上的知识点,自己能够调用的实在太少。熟悉业务才能谈挖掘这句话,望自己在比赛中多多总结感悟,学习到更多知识,更好的借鉴前人的经验,来完善自身经验上的不足。
在6490分数卡死10天+,看着排名由两位数到3位数,各种措施和小技巧都不起作用。莫名心塞,总结一下前段时间看资金流比赛PPT,常看看,看看自身能否有所感悟,突破。

资金流比赛,时间序列方法

1) 首先理解时间序列的基本组成,一般有两种模式,加法和乘法,一般而言,加法和乘法是可以相互转换的(取对数)。时间序列基本公式:

Y=(C)+(T)+(S)+eY=(C)(T)(S)e

2) 获奖选手对于公式不同部分的处理:

  1. 水平和趋势,一般统称为T,音乐上我个人感觉水平跟趋势可以当作RMSE最小的数学期望进行研究,因为群里有大神网友指出通过均值水平评分可以达到6500分以上。资金流预测中,黑风和酸辣紫菜泡面的PPT上指出资金流的趋近平稳,对于音乐上我也是这么认为的,近期的均值类似于未来趋势,但音乐影响因素很多,不过可以将其分为确定性因数和非确定因数,确定性因素如从用户角度某部分群众形成的播放量处于平稳状态,和老音乐的播放量基本每天都有较为稳定的播放量,只有少数时候被某些用户某天狠狠的放了个几十几百遍,突然暴涨一下。不确定因素如新歌对总体均值的影响,突然各类用户播放量暴涨后会如何回落等等。未来趋势上,天戏使用均值代替未来趋势,大熊队是用auto.arima(准则未知,AIC?BIC?)得出的收敛均值代替未来趋势。音乐上对于未来均值可能需要更多的考虑,或许从

    的三者两两之间的业务角度上多多考虑。
  2. 周期上,资金流的数据周期性明显。而音乐的播放量数据感觉也是存在周期性的,但是波动大,外部影响因素多,不明显(通过7,8月线下测试看出,有大部分趋势接近),并且异常行为多。例如:某些人一天单人单曲播放量就上500多最多的上千。所以感觉数据预处理是一个比较重要的点,天戏剔除了单日成申购偏高的记录,后用平稳的均值当作趋势,再求周期S。大熊队是用stl分解(用移动平均剔除趋势后,再对序列求周期)求周期S。
  3. 随机扰动e,基本都是对节假日进行修正,天戏团队是个人的节日经验得出偏高结论进行修正的。音乐上,可用到未来信息包括周期,节假日(学生用户-开学季?),以及新歌发售等等。
  4. 总结:阿里音乐这题,因为外部影响因素太多,随机扰动并不是特别的明确,所以如何准确对对未来期望进行分析,是这道题目的重点中的重点。

其他

三只熊团队,结尾引用了一句话:要想改善对象特征,必须对象上获取信息,并将这种信息反作用于对象上,这叫控制。个人很喜欢这句话。

0 0