数据建模师的日常--小技巧篇
来源:互联网 发布:许昌自学考试网络报名 编辑:程序博客网 时间:2024/05/25 18:09
1. 循环读取目录下所有CSV文件
1.1 先查看文件目录
import osfilelist = os.listdir(r'E:\scripts\2017-2-27论文')filelistOut[5]: ['paper_with_fanqizha.py', 'paper_with_pingfenka.py', '借款基础信息.csv', '央行-信用卡明细.csv', '央行-基础信息.csv', '央行-查询记录.csv', '淘宝-基础信息.csv', '淘宝-月账单.csv', '淘宝-消费明细.csv', '淘宝-消费类型分布.csv', '账单.csv', '通讯录-联系人统计.csv']
1.2复制要读取的文件名, 创建列表, 并循环读取
#读取数据并保存到data_list中filelist = [ '借款基础信息.csv', '央行-信用卡明细.csv', '央行-基础信息.csv', '央行-查询记录.csv', '淘宝-基础信息.csv', '淘宝-月账单.csv', '淘宝-消费明细.csv', '淘宝-消费类型分布.csv', '账单.csv', '通讯录-联系人统计.csv']if 'data_list' not in dir(): data_list = [] for fname in filelist: df = pd.read_csv(fname) df.rename(columns={'\ufeff借款编号': '借款编号', #填坑 '\ufeff借款信息': '借款编号'}, inplace=True) assert df.iloc[:, 0].name == '借款编号', "改名未成功" data_list.append(df)
2.开发时避免重复读取数据, 浪费时间
判断数据是否存在于内存空间后读取
import pandasif data not in dir(): data = pd.read_csv(fname)
3. 在公司和宿舍使用的脚本目录不一样, 使用目录时需要更改目录, 利用try - except 尝试读取不同目录的文件
try: tips = pd.read_csv(r'F:\分类\工作文件\python学习\pydata-book-master\ch08\tips.csv')except: tips = pd.read_csv(r'E:\scripts\python学习\pydata-book-master\ch08\tips.csv')
4.对字符串所代表的变量赋值
spyder 会警告未定义参数, 但是并不影响脚本运行, 克服强迫症globals()["a"] = 1 #方法1print(a)setattr(__builtins__, "b", 2) #方法2print(b)
5.读取字符串为pd.DataFrame
<利用python进行数据分析>代码有误, 查廖雪峰的官方网站找到解决方法from io import StringIO #书上是from StringIO import StringIO, 报错找不到模块data = """\Sample Gender Handedness1 Female Right-handed2 Male Left-handed3 Female Right-handed4 Male Right-handed5 Male Left-handed6 Male Right-handed7 Female Right-handed8 Female Left-handed9 Male Right-handed10 Female Right-handed"""data = pd.read_table(StringIO(data), sep='\s+')
0 0
- 数据建模师的日常--小技巧篇
- 数据建模师的日常--踩坑与填坑
- 日常小技巧
- DB2 日常小技巧
- vmware 日常小技巧
- Linux日常实用小技巧
- PHP日常开发小技巧
- C++小技巧日常记录
- DBA日常维护中执行SQL的一些小技巧
- PHP日常开发中常用的8个小技巧
- Laravel 一些日常性能优化的小技巧
- 大数据分析建模思路技巧和算法的特征
- linux收集日常应用小技巧
- 日常办公小技巧(不断补充)
- 30个电脑日常维护小技巧
- TextView的日常使用技巧
- 手机日常小技巧!!我觉得非常的实用,都是我们经常遇到的问题!!!
- [精华分享][Unity技巧]日常积累小技巧
- 新建登录页并实现tabBar隐藏
- 3D打印机翘边问题解决方法
- 计算mover distance的问题,速度太慢了
- 数组概念和用法
- Caffe之learning rate policy
- 数据建模师的日常--小技巧篇
- 优秀的运营思维方式,往往就是「一句话」的事
- web网站性能指标
- 机器学习(周志华)- 第2章模型评估与选择笔记
- aria2下载输出信息样本搜集
- 简单聊聊网页的资源加载优化
- zabbix3.0.4报错Get value from agent failed: cannot connect to [[1.1.1.1]:10050]: [4] Interrupted syste
- 简析BlockingQueue
- (亲测可用)MarkdownPad安装及激活