数据清洗-- 使用Python脚本处理excel单元格换行符
来源:互联网 发布:湖畔网络 编辑:程序博客网 时间:2024/03/29 20:40
原文地址http://blog.csdn.net/collaboom/article/details/52227950
在下在做数据分析时,原始数据是excel格式的,导入Hive表时将其转化为txt格式。
excel文件转txt格式的步骤如下:
1.打开另存为
2.选择txt格式保存
3.打开转成的txt将编码修改为UTF-8
在往hive表中导入数据时常常以换行符‘\n’来分割条数据。然而有时因为数据格式不够标准,即excel单元格中存在着换行符情况。例子如下:
在这个表格中,B3,B4单元格都存在这换行符。如果将其导入到hive中,查询得到的结果将是这样:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
与我们预先想得到的不一样
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
因此尝试使用Python编写脚本来处理问题。开始尝试使用正则表达式进行处理。后面找到了更简便的办法,使用xlrd包对excel文件进行处理。使用pip install xlrd
可以安装该包。
下面的代码读取每一个单元格并将其中内容转化为字符串格式(默认为float格式,因此原本的整数可以转化为int去除小数点在转化为字符串),去除字符串中的换行符,将数据直接存储到txt文件中,编码格式为utf-8。
废话不说上代码:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
总结:该代码可以实现将excel表格标准化并转化为UTF-8的txt文件,方便导入数据库。
阅读全文
0 0
- 数据清洗-- 使用Python脚本处理excel单元格换行符
- 数据标准化 使用Python脚本处理excel单元格换行符
- java POI实现Excel单元格数据换行
- excel单元格内换行
- Excel单元格换行(Windows)
- EXCEL单元格换行操作
- POI Excel 08 读取重写Excel,单元格中使用\n换行符
- Data Analysis学习笔记 --- Python数据清洗处理时间数据
- python数据清洗
- python 爬虫数据清洗
- python-数据清洗
- Python开发数据清洗
- python数据清洗步骤
- Data Analysis学习笔记 --- Python数据清洗对字符串处理
- Data Analysis学习笔记 --- Python数据清洗正则处理字符串
- Data Analysis学习笔记 --- python数据清洗矢量处理字符串
- Python处理Excel数据
- Python处理Excel数据
- Spring Bean的生命周期
- Linux chmod 命令 说明
- Windows Server 2008 r2 64bit 运行ASP提示ADODB.Connection error ‘800a0e7a’错误解决办法
- Android studio 项目构建八|配置方法数超过 64K 的应用
- swift_035(Swift之第三方库Kingfisher篇)
- 数据清洗-- 使用Python脚本处理excel单元格换行符
- 声明
- eclipse 常用的快捷键
- Hbuild中字体设置
- 【Java并发编程】控制块(保护块)
- 解决多表关联删除的问题,深度为3
- javaScript中DOM和BOM--基础二
- 2017 Multi-University Training Contest
- java中的四种引用,强、软、弱、虚