如何打开内部编码格式不统一的文件?
来源:互联网 发布:网上教育软件 编辑:程序博客网 时间:2024/05/18 21:10
在进行数据处理过程中,发现数据文件如下图所示:
使用内置open()函数无法直接打开,怀疑文件内部编码格式不统一,经过网上查资料,发现python的codecs模块,专门用于自然语言编码转换;
codecs模块提供了open()方法,简化了对特定字符编码的StreamReader、StreamWriter和StreamReaderWriter的访问,通过encoding参数传递字符编码名称,即可获得对encoder和decoder的双向服务;
codecs.open(filename,mode='r',encoding=None,errors='strict',buffering=1)
简单来说,Python做编码转换时,会借助内部编码,转换过程为:原有编码->内部编码->目标编码,codecs模块的open()方法会统一将文件转换为内部Unicode编码格式,打开的文件不会出现编码问题导致的乱码。
如此,打开内部编码格式不统一的大文件时,可以使用如下方法:
import pandas as pdimport codecsfilename = "E:/学习相关/Python/数据样例/counter数据/counter___PM_LTE_CellCounter__100__1.csv"with codecs.open(filename,'rb', "utf-16") as f: reader = pd.read_csv(f,sep=',',iterator=True) loop = True chunkSize = 100000 chunks = [] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print("Iteration is stopped.") df = pd.concat(chunks, ignore_index=True) print(df)
阅读全文
0 0
- 如何打开内部编码格式不统一的文件?
- 编码格式不统一造成的乱码问题
- Eclipse下如何统一修改某一类型文件的编码格式
- 统一修改 java 文件编码格式
- eclipse 统一修改 java 文件编码格式
- 请教如何打开 .stl 格式的文件
- 如何打开docx格式的文件?
- 如何判断文件的编码格式
- 如何打开不知道文件类型的文件
- C++打开特定编码格式的文件(utf-8)
- 编码不统一问题
- PHP、MySQL、浏览器编码不统一的情况下如何保证正常解析?
- 文件的编码格式
- 文件不以%PDF格式打开
- pl/sql developer 编码格式设置(解决pl/sql乱码、提示编码不统一)
- 打开EXCEL总提示 您尝试打开的文件*.xls格式与文件扩展名指定的格式不相符
- myeclipse 如何统一修改全部的java、jsp、js 等文件的编码
- 如何在word2003中打开word2007格式的文件
- 可变参数的实现
- C语言基础与提高4——指针函数,函数指针
- Swagger与SpringMVC整合
- BZOJ3728: PA2014Final Zarowki
- 图形学opengl实验二-桌子的矩阵变换
- 如何打开内部编码格式不统一的文件?
- 内核设备树简介-2
- 指针函数的简单例程
- .9.png的区域划分
- centos 更新gdb到v7.6
- MySQL的常用函数
- poj3061 尺取法
- 欢迎使用CSDN-markdown编辑器
- C++信息学奥赛一本通题库1032