正则大法好,脏数据,呵呵。
来源:互联网 发布:淘宝为什么关闭弘化社 编辑:程序博客网 时间:2024/05/22 07:05
先上个图:
恩,话说都写到一个单元格里了,前面是日期,后面括号里是数值型的,还有些带着单位,ok,lets do IT。
①我们要先把括号统一成字符‘s’和‘e’,我这里建议大家用excel自带的替换功能,中文半角模式下的‘(’也可以被一起替换掉。
②然后是套、吨、T、等单位清洗。
③空格要用excel中的替换或者trim函数去掉,用trim函数的时候要注意,它只能去掉一次中间的空格,如果有两个空格的话,就需要用两次trim,所以建议直接用替换比较好。
④接下来就可以上代码了,我讲编号字段起名叫code,待清洗字段起名out,输入文件名test,输出文件名output
import reimport pandas as pddiff=[]data=pd.read_excel(r'C:/Users/Administrator/Desktop/test.xlsx')df_total=pd.DataFrame({'x':[],'y':[],'z':[]})for c in range(len(data)): x=re.findall('\d+[.]\d+[s]|\d+[s]',data['out'][c]) y=re.findall('[s]\d+[e]|[s]\d+[.]\d+[e]',data['out'][c]) if len(x)<>len(y): diff.append(data['code'][c]) continue else: df=[] D={'x':x,'y':y} df=pd.DataFrame(D) df['z']=data['code'][c] df_total=pd.concat([df,df_total])df_total.to_excel('C:/Users/Administrator/Desktop/output.xlsx')
那么最后的结果就可以把原来一行里集中在一个单元格里的信息释放出来了!
1 0
- 正则大法好,脏数据,呵呵。
- clang 大法好
- DFS大法好
- UVA10499scanf大法好
- python大法好!
- rope大法好
- 盲打大法好
- 分块大法好
- Lombok大法好
- Python大法好
- container_of大法好
- 集成学习大法好
- 交换大法好
- Redux大法好
- 【日常】凸轮大法好
- 周末大法好
- SetReplacementShader大法好
- 【Python大法好】汇总
- hdu 4825 字典树
- weblogic启动时提示不能访问JRE
- Android控件架构(Android群英传)
- Java基础之比较器 Comparable和Comparator
- (Shadow Mapping) 阴影映射原理与实现
- 正则大法好,脏数据,呵呵。
- STM32F1_片内FLASH编程
- 13_JavaScript 字符串
- 最长回文串 O(n)复杂度(manacher算法)
- Spring和ActiveMQ集成实现队列消息以及PUB/SUB模型
- 基于TCP/IP协议的网络攻击
- IOS开发总结之文件下载(大文件下载)
- HDOJ 3911 Black And White
- mini2440NFS启动,VFS: Unable to mount root fs via NFS, trying floppy.