2017.06.14回顾 dtype相关 Series平均数 type_of_target

来源:互联网 发布:淘宝排名收费 编辑:程序博客网 时间:2024/06/05 21:49

1、Series计算平均数,df[column].mean()

2、上午给同事讲了很久的关于验证四变量模型少掉两个变量仍具备有效性的证明,这个过程中也被多次打断

3、讲完开始写昨日总结

4、ndarray只能有一种数据类型,就是其中每个元素的类型,不能说每一列一个类型

5、np.sctypeDict可以查dtype类型dict,有很多不同的表达方法,其实是说的一个类,np.str_和np.string_都是numpy.string_类型,np.str就是python的str类

6、pandas继承了numpy的dtype,对于类型为string的列,显示出来dtype就是object,进一步,为什么是object?因为array内存中存储的并不是str类型,因为str类型不固定,存储的是一个pointer,指向字符串的起始位置。

7、似乎object还有一种表达是dtype('o'),是哪种情况下的输出,我记不清了

8、关于那个bug,我认为就是dataframe因为赋值,改变了列的类型为字符串,然后用np.array转换的时候,内存空间是等长的,所以赋值被截断,这似乎又和第6点存储pointer有些冲突,不细究了,一种解决方案是数据转换的时候还可以指定长度,某些情况下输出的时候就用S20这种,哦,我似乎明白了,对于可以设定等长的字符串,这个时候dtype就可以正常显示,对于不等长字符串就是存储pointer。ndarray改变类型的时候可以指定长度,x.astype((np.str_,20))。一方面改变长度可以解决,另外一种我直接把dataframe作为输入,因为后期,我必定会开发一个基于dataframe的工具箱,稍微了改了下dataframe直接作为输入,没有问题,bug解决

9、type_of_target,这个文档,我没看到,但是看到了源码,大概原理就是根据unique值来做判断

10、了解了下京东的测试相关对接事宜,又去了解了大数据竞赛等

11、最后一点时间,发现IV工具箱并没有用纯dataframe的方式来实现,尝试全部改成dataframe,最后又遇到了dataframe构造问题

最后,昨天的锻炼时间不足,差点未能坚持,加油,执行力!

原创粉丝点击