python codecs.open视\u2028字符为换行符
来源:互联网 发布:淘宝黑蝴蝶电玩怎么样 编辑:程序博客网 时间:2024/06/06 05:53
使用codecs.open逐行读取文件时,发现有一行数据被分成了两行,原因是使用codecs.open打开后再逐行读取时会将字符\u2028视为换行,原来该字符是javascript中的转义字符点击打开链接,在一些从网页上抓取的文本中常见,同理还有\u2029,示意代码如下:
import codecstxt = u'aa\nbb\u2028cc'fd = open('a.txt', 'wb')fd.write(txt.encode('utf-8'))fd.close()print('=======open方式========')fd_1 = open('a.txt', 'rb')for line in fd_1.readlines(): print('---------------') print linefd_1.close()print('\n\n=======codecs.open方式========')fd_2 = codecs.open('a.txt', 'rb', 'utf-8')for line in fd_2.readlines(): print('---------------') print linefd_2.close()输出:
=======open方式========---------------aa---------------bb cc=======codecs.open方式========---------------aa---------------bb ---------------cc
结论:
1 使用codecs.open逐行读取文件时遇到\u2028,\u2029时会拆分成两行;
2 还有注意使用for line in fd_1.readlines():读取一行时,其一行内容中是包含了换行符的,所以要使用strip()去掉;
阅读全文
0 0
- python codecs.open视\u2028字符为换行符
- python 文件读写时用open还是codecs.open
- python 文件读写时用open还是codecs.open
- python 文件读写时用open还是codecs.open
- python codecs
- python codecs
- python codecs
- 使用codecs模块,在Python中完成字符编码
- python使用codecs模块进行文件操作-读写中英文字符
- python使用codecs模块进行文件操作-读写中英文字符
- python模块之codecs
- python模块之codecs
- Python之codecs模块
- python codecs模块
- python模块之codecs
- Python模块之codecs
- Python模块之codecs
- Python模块之codecs
- 大数据告诉你,中国有2亿单身狗
- 561. Array Partition I
- Android2个Activity之间传递对象
- nginx学习随笔--use
- 2017秋招笔试C++真题
- python codecs.open视\u2028字符为换行符
- C++文件读写详解(ofstream,ifstream,fstream)还有简单使用
- SOAPfuse 安装
- 在线解压缩获取文件列表名
- Retrofit
- JAVAFX安装
- Something about scanf&printf
- aidl进程之间的通信
- MySQL半同步复制及搭建