2016.11.23-2016.11.25回顾

来源:互联网 发布:ppt拆分合并软件 编辑:程序博客网 时间:2024/06/05 11:41

三天没有写博客,在忙节奏也不能乱啊,一定要吾日三省吾身,磨刀不费砍柴时。

2016.11.23

- 修正了fraud模块中某个部分的错误

- 分析了收入方式对于逾期的影响,最后发现一石激起千层浪啊,还是不要太激进了,把握好自己的节奏,人生苦短,把精力用在最有用的地方

2016.11.24

- 上周四也是个非常繁忙的一天,上午开会讨论老板的一些问题,还有确定数据源是谁来做?然后培训python sklearn包,下午是做一些分析,反正就是逾期相关的探索性分析

2016.11.25

- 最忙的一天,上午是培训分析讨论,下午就是一直弄决策树,先是安装sklearn失败,windows和linux都失败,然后换到同事电脑上工作,依葫芦画瓢用python写了个,然而生成的是dot需要一个软件来可视化,而且似乎是生成哑变量的方法,我觉得并不好,然后采用了机器学习实战这本书里的源码,可以生成树,但是没有每个叶子节点的数量比例,我最开始还用了weka直接来生成树,奇怪的是对于这种不平衡数据集,他把全部都分成了一类,而且无法生成树结构,我后来用了R包也是如此,用了SPSS还是这样,只有机器学习实战的包可以生成树,最后发现生成这个树,还不如用excel的透视表,树其实就有点像列联表,但是树有个好处就是对于连续变量,每个分支里面阈值可以不同,还有就是树的结构如果很复杂,表就hold不住了,另外一点列联表不能体现优先级,不能把两个值合并在一起,但是我上周的情况的确透视表还简单一些。

- whl的包,仍然是用pip install XXX.whl安装,但是我上周五没能成功,没明白问题出在哪

差不多以上



0 0
原创粉丝点击