kaggle——Bike Sharing Demand

来源:互联网 发布:python 异或运算符 编辑:程序博客网 时间:2024/05/16 05:29

个人感觉最主要是通过visualization来获取一些信息,

在这之前一般都要先提取出一些有用的feature,比如这里的时间字符串要先提取出“小时”这个信息

有时在丢到model之前需要extract一些feature,也需要drop一些没用的feature

比如24小时变化的曲线



工作日24h变话的曲线(想想也是对的,大部分是在上下班的时间)



周末24h变换的曲线



从中就可以挖掘出一些有用的信息


挖掘出来最简单的应用就是根据时间来预测,用当前时间段的所有的平均值代替就行了,

但是这样做出来的结果是比较差的,还不如直接用random forest来的LB效果好(话说kaggle里面好像特别favor RF,是分类,回归问题大家都喜欢用

也许应该对不同的时间进行预测?但是这样样本量就减小了24倍,值得一试


有人也说:

1. 按照是否注册分别预测,因为从24h图上看他们的趋势是不一样的,

2. instead of predicting count, but predict ln(count+1), because evaluation is RMSLE


但是我写的对比,答案差不多


原创粉丝点击