2017.07.24回顾 plt.hist直方图绘制

来源:互联网 发布:js获取post过来的值 编辑:程序博客网 时间:2024/06/16 22:09

今天是新的一周的第一天,状态不是很好,还沉浸在周末的喜悦之中,无论好与坏,还是对今天的工作做一个小结吧。

1、完成了接口的拆分上线,一些检查和督促工作

2、和新人讨论关于两个变量分布变化影响的问题,一个是看了改变前后的变化,实际上14号改变前后变化并不大,看起来像是按比例分配到后面的value上去,但是也有一些轻微的左偏,说明建模数据集的分布和14号之前全量的客户数据分布存在一定的差异,建模的数据集和14号后的数据比较肯定是一个很严重的左偏,综合两个比较可以说明,那些未知更多的是年限比较短的,另外一方面我量化了这种变化的影响,probability增大,通过率下降。

3、在2的思考中,也衍生出了一个问题,就是分布变化,woe会不会变?我尝试了下,分布变化肯定会导致woe变化,所以监控一个自变量的PSI变化,是有道理的,分布变化导致WOE也变化,就和建模的时候差异大,但是我有第二个问题,就是分布变化是不是和woe变化是正相关,当然这个需要一定的假设,这点还需要去参悟,但是无论如何,讨论是可以更快地得到答案的手段,不要羞于讨论

4、为新人写了一些文字性的东西

5、关于PSI重新温故了一下,并进行了相关计算

6、尝试帮同事解决了下json返回编码的问题,我猜测是平台的wrapper的问题,但是我没能尝试出来

7、剩余的大多数时间,又在搞那个zillow的数据,做一些EDA的探索,但是发现我的招数太单一了,而且不够炫技,我的方法就是把数据集的连续变量,用plt.hist(data,bins=200)输出成直方图,经纬度数据用plt.scatter输出成散点图,然后对于类别变量用df[column].value_counts()看看各个类别的数量,在这个过程中也结合数据字典理解每个字段的含义,但是有些看了数据字典也还是不能理解,一个一个字段去看意思,去画图,由于字段很多,还是个体力活,后来去看了个论坛上的高upvote,我操,顿时觉得我的招数太少,也可以说是套路太少,而且缺少一种骚气,我需要潜心专研,多看别人的代码,果然学得快,主要是闭门造车,老是那几招,思路就发散不开!