2015年8月总结

来源:互联网 发布:painter安装教程mac 编辑:程序博客网 时间:2024/05/02 01:19

有时候,总想写点什么,可又不知道从何开始。每当要表达一些东西的时候,总会有一种语尽词穷的感觉,道不出那种振奋人心的话。“书到用时方恨少”大概就是这个意思吧。有时间,再回头学学语文,看看美文,涨涨知识吧。

下面来总结一下自已这几个月的学习成长吧。

以前总认为别人了不起,总感觉别人的知识面怎么会如此的宽泛,然后敬仰之心便犹如滔滔江水,连绵不绝。每次都会想着以后我也要好好充实自己的业余爱好,为生活增添一份乐趣,可事后往往又不了了之了。其实,学东西就好比爬山,起初精力充沛,步伐之神速令人刮目,很快就到了半山。可过了一阵子之后,精力值会达到了一个饱和点(或者说大脑的知识储藏量有限),会让你感觉怎么奋进都进步缓慢,看不到成功的灯塔,但当你再努力向前,到达山顶的时候,回首经历的一切,你会感觉,曾经的一切确实不过如此,一种“一览众山小”的感受油然而生,而这种感觉会让你心情舒畅,神清气爽,整个人都好了。

从某种角度上说,我应该算是个“技术宅”吧。能够连续待在实验室拼个好几个月,这大概算是我最自豪的事情了,没有之一。

从今年四月中旬开始,看paper,学ML(DM)算法,然后跑实验,到现在大概整整四个月时间吧。能够写出一篇论文,确实不容易。期间也遇到了许多问题,比如自己做的数据没别人的好,数据正负样本不均衡、实验效果不理想等等,不过从中确实学到了很多的东西。现在,自己独立跑实验基本没有多大问题,至少自己能用Python实现常见的算法以及对文件的一些操作,唯一感觉会出问题的当属数据集这块。因为自己构造数据集,有些奇异点处理的不好,然后直接影响了最后模型的好坏。

五月上旬基本上玩过去了,五月下旬各类机器学习书籍接连到手,然后开始学习《机器学习实践》这本书,全书是用Python实现的代码,因为有源码参考,所以很容易理解,很适合算法学习入门。由于之前学习过数据挖掘算法的理论知识,所以这本书不到半个月就把相应的知识点理解的差不多了。关于算法理论,清华大学出版社李航的《统计学习方法》确实不错,全书纯理论知识,分析独特,通俗易懂,很全面,适合想深入研究算法的人。这本书我还没完全看完,接下来可以好好学习下。

六月,上旬的时候,在Leetcode上面刷了一个星期的算法题,做了60几个题目,后来感觉还是做实验重要,然后就接着去做数据了。数据处理期间,碰到了一些专业性问题,尤其是在计算结合位点的时候,导师当时也不在,而我对于生物上的一些专业知识不是很了解,所以进度卡住了一个星期左右。还有就是在计算一个特征的时候,停留了好几天。不过还好,六月底,数据的每个特征算是做出来了,但当时喉咙开始发炎了,然后又引起感冒,整个日子都不好过,整个人也都不好了。

到了七月,开始整理自己的数据集,跑实验,然后从分析结果。这段时间碰到的问题也让人抓狂。首先是数据集不均衡,跑出来的效果很差,很不理想。不过这个问题还是比较容易解决,最常用的就是抽样了,下抽样还是上抽样就看结果好不好了。最后我选择的是下抽样,构造新的平衡数据,但是最后跑出来的效果不理想,使用别人的方法,跑出来的效果比别人差了将近8个百分点,这显然不合逻辑。到了七月下旬的时候,没办法了,还是使用别人的数据集吧。然后接着在别人数据集的基础上,加特征,构造新的数据集,然后使用不同算法来跑实验,比较效果等。最后得到的效果和别人的差不多,但是相对于另外一篇论文,似乎要差点。因为该论文没有说明自己的结果是在独立测试上的结果还是交叉验证得到的结果。所以,继续跑实验吧。

八月的第一个星期,实验总算做出来了,最后比较了下,效果提升不多,因为本来原来的实验就做的比较好了,AUC达到了0.923,确实难以超越。接下来就开始赶paper,没日没夜的赶呀,终于在8月中旬将paper赶出来了。对于APBC2016能不能中,30%的接受率,就看运气了,因为整篇论文的效果确实不是很明显。

总的来说,整个实验下来,学到了不少东西。以前是看中文论文容易,看英文paper难,现在感觉是看英文paper明显简单了,而写paper困难了。接下来好好努力,加油学英语、学算法、学理论、做实验吧,其他的事情都是浮云。

2 0