2017.07.24回顾 plt.hist直方图绘制

来源：互联网发布：js获取post过来的值编辑：程序博客网时间：2024/06/16 22:09

今天是新的一周的第一天，状态不是很好，还沉浸在周末的喜悦之中，无论好与坏，还是对今天的工作做一个小结吧。

1、完成了接口的拆分上线，一些检查和督促工作

2、和新人讨论关于两个变量分布变化影响的问题，一个是看了改变前后的变化，实际上14号改变前后变化并不大，看起来像是按比例分配到后面的value上去，但是也有一些轻微的左偏，说明建模数据集的分布和14号之前全量的客户数据分布存在一定的差异，建模的数据集和14号后的数据比较肯定是一个很严重的左偏，综合两个比较可以说明，那些未知更多的是年限比较短的，另外一方面我量化了这种变化的影响，probability增大，通过率下降。

3、在2的思考中，也衍生出了一个问题，就是分布变化，woe会不会变？我尝试了下，分布变化肯定会导致woe变化，所以监控一个自变量的PSI变化，是有道理的，分布变化导致WOE也变化，就和建模的时候差异大，但是我有第二个问题，就是分布变化是不是和woe变化是正相关，当然这个需要一定的假设，这点还需要去参悟，但是无论如何，讨论是可以更快地得到答案的手段，不要羞于讨论

4、为新人写了一些文字性的东西

5、关于PSI重新温故了一下，并进行了相关计算

6、尝试帮同事解决了下json返回编码的问题，我猜测是平台的wrapper的问题，但是我没能尝试出来

7、剩余的大多数时间，又在搞那个zillow的数据，做一些EDA的探索，但是发现我的招数太单一了，而且不够炫技，我的方法就是把数据集的连续变量，用plt.hist(data,bins=200)输出成直方图，经纬度数据用plt.scatter输出成散点图，然后对于类别变量用df[column].value_counts()看看各个类别的数量，在这个过程中也结合数据字典理解每个字段的含义，但是有些看了数据字典也还是不能理解，一个一个字段去看意思，去画图，由于字段很多，还是个体力活，后来去看了个论坛上的高upvote，我操，顿时觉得我的招数太少，也可以说是套路太少，而且缺少一种骚气，我需要潜心专研，多看别人的代码，果然学得快，主要是闭门造车，老是那几招，思路就发散不开！

阅读全文

0 0