python3暴力删除html中gbk不可编码字符
来源:互联网 发布:男士私处清洁 知乎 编辑:程序博客网 时间:2024/06/08 21:15
苦逼大学僧的日常。。。
狗真是日了我了……
UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\ufeff’ in position 0: illegal multibyte sequence
写个爬虫被这东西折磨了一天。。。不光BOM的feff,还有各种解码不出来的字符,啥玩意都有。。
各种二分找位置(他提示的位置是不准的),看是什么,加判断,最后我崩溃了……
决定把这些解码不出来的字符一一删除
利用输出的提示信息来确定不可见字符,然后将不可见字符删除,重复这个过程
缺点就是会建立一个kill.html的文件以及由于删除了开头的\ufeff所以生成的字符串输出到文件里打开会乱码。。。
import redef killAnUnseen(s): try: f = open('kill.html', 'w'); f.write(s); f.close() except UnicodeEncodeError as err: info = str(err); st = re.search('\\\\U[a-f0-9]{8}|\\\\u[a-f0-9]{4}|\\\\x[a-f0-9]{2}', info).group()[2:]; x = int(st, 16); return (s.replace(chr(x), ""), True) return s, Falsedef killUnseen(s): while(True): s, res = killAnUnseen(s) if res == False: return s
阅读全文
0 0
- python3暴力删除html中gbk不可编码字符
- JCreator中编码 GBK 的不可映射字符终极解决方案
- JCreator中编码 GBK 的不可映射字符终极解决方案
- MAVEN中“编码 GBK 的不可映射字符”的解决方案
- JAVA中出现错误:编码GBK的不可映射字符
- 编码 GBK 的不可映射字符
- 编码 GBK 的不可映射字符
- 编码 GBK 的不可映射字符
- [JAVA]编码GBK的不可映射字符
- 编码GBK的不可映射字符
- 编码 GBK 的不可映射字符
- 编码 GBK 的不可映射字符
- maven编码 gbk 的不可映射字符
- 编码gbk的不可映射字符
- 错误: 编码GBK的不可映射字符
- 错误: 编码GBK的不可映射字符
- maven编码 gbk 的不可映射字符
- maven编码 gbk 的不可映射字符
- C#--抽象工厂设计模式--三层框架
- BZOJ 1010 [HNOI2008]玩具装箱TOY (dp+斜率优化)
- 如何解决电商网站超卖现象
- bzoj1969LANE 航线规划
- Matlab中函数如何定义
- python3暴力删除html中gbk不可编码字符
- 别人的关注点
- c++标准库的算法与数据分离效应的副作用
- go函数(方法)返回值是有返回值的函数
- 认识spring容器
- 2017-09-12 LeetCode_218 The Skyline Problem
- Unity3d--实现第三人称视角(相机跟随)
- POJ 2135.Farm Tour 最小费用最大流
- HttpServletRequest cannot be resolved to a type