关于2015阿里移动推荐算法大赛的总结(三)——机器学习
来源:互联网 发布:tcl42寸网络电视 编辑:程序博客网 时间:2024/05/07 09:22
关于2015阿里移动推荐算法大赛的总结(一)
关于2015阿里移动推荐算法大赛的总结(二)——推荐算法
关于2015阿里移动推荐算法大赛的总结(三)——机器学习
后来我们回归到正途上,虽然我们也想用深度学习的方法,但是毕竟还是菜鸟的水平,所以把目标定在能用机器学习跑通一遍,顺带熟悉一下各种机器学习算法的实际应用。但是最后的最后我们只用了LR,然后就受打击了。哈哈~
想用机器学习的方法,那么思路其实也很明确,问题是那一天用户是买还是不买,那么可以看成是二分法。通过用户行为方式来判断是否会购买。就是把用户行为等抽象成特征向量得到训练集,扔进机器学习算法训练出一个模型,然后用测试集预测出结果。虽然机器学习的算法有不少,而且需要不断的调整参数和优化,但是我认为特征向量的选取才是最关键的,很显然我们到最后也没搞好~~~
下面详细整理总结一下~~~
首先,肯定要进行数据预处理,去除噪声数据(如非正常流量,爬虫或者机器行为产生的数据),数据时间刚好是双11刚过,双12在其中,所以也应该考虑到购物节对用户购买行为的影响。
关于特征向量的选取,我用了下面这种主观上可以接受的想法~
数据集是一个月的用户行为,那么我直接把数据分成4周,用前3周作为训练集,最后1周作为测试集。用每周过后的1~2天的购买行为当作标签,给这一周的行为统计向量打标签。
进行训练的时候大体思想如下:
统计表:
输入表:
训练完模型内部可能:
进行预测的时候大体思想如下:
统计表:
输入表:
输出表:
然后我们寻找预测为购买的特征对应的用户-商品对。
输出表:
注意点:
(1)在选取样本集的时候可以是多段累加数据。
(2)后期可以对不同的类型的物品建立不同的训练模型,比如电影票饭票一个模型,淘宝物品一个模型,因为不同类别购买行为规律不同。根据类别分类,分别输入进不同模型输出。
(3)根据地理位置用一个简单的推荐算法进行加权融合。
(4)考虑行为中的时间因素,如在一个周期对某商品内浏览4次,在第一天浏览4次和最后一天浏览4次购买的可能性也不同。就是引入时间对行为加权,可能本来浏览4次,最后加权出来浏览是2.33次。最后使用的是总结(二)里的遗忘曲线加权的。
结果很不尽人意,甚至不如直接取最后一天加购物车当作第二天会购买的用户商品对的评分高。但是起码这个从头到尾跑了一遍,在这个过程中,学到了好多,如思考模型算法,学习使用Python,对数据的划分处理以及对机器学习的使用调参。希望自己不断的在进步,不要求自己有多牛,但要比之前的自己牛~哈哈
- 关于2015阿里移动推荐算法大赛的总结(三)——机器学习
- 关于2015阿里移动推荐算法大赛的总结(二)——推荐算法
- 关于2015阿里移动推荐算法大赛的总结(一)
- 2015阿里移动推荐算法大赛总结
- 2015阿里移动推荐算法大赛总结
- 阿里移动推荐算法大赛总结
- 机器学习入门----以阿里移动推荐算法大赛为例
- 阿里天池大数据之移动推荐算法大赛总结及代码全公布
- 天池新人实战赛----阿里移动推荐算法大赛(离线赛与平台赛)
- 天池新人实战赛----阿里移动推荐算法大赛(御膳房、DTPAI----ODPS初体验)
- 2015阿里移动推荐算法比赛第一赛季总结
- 机器学习相关算法的大总结(三)
- 阿里音乐流行趋势预测大赛—浅尝辄止(三)
- 阿里移动推荐算法第一赛季个人总结
- 阿里移动推荐算法比赛赛后总结--感受篇
- 阿里移动推荐算法比赛赛后总结--特征篇
- 机器学习算法(推荐算法)—协同过滤推荐算法(1)
- 机器学习算法(推荐算法)—协同过滤推荐算法(2)
- 第九周项目1-复数类中的运算符重载(续)
- 1076 排序
- 为什么要使用RTP
- asp.net学习之路之登录+access数据库操作
- 黑马程序员——c语言基础:字符串
- 关于2015阿里移动推荐算法大赛的总结(三)——机器学习
- 【Java并发编程】之十七:深入Java内存模型—内存操作规则总结
- HTML DOM clip 属性
- Android快速入门教程总结帖
- apk文件安装成功后,Android AVD桌面上不显示图标
- C语言中的字符串函数
- 混合编程---c++调用matlab生成的dll----findCircles的应用
- 【机房重构】——上下机之思考过程
- LIst和ArrayList的区别