python3中将`&#x`(《新)的字符串转化为utf-8
来源:互联网 发布:中国洗脑 知乎 编辑:程序博客网 时间:2024/06/06 05:03
对于网页中的《新编全注
,正常情况下python3中能直接转化为utf-8,所以即使网页中显示的是这种escape sequence
,获取到之后能够显示正常,但是偶尔也不好使,不好使的情况下可以使用如下方法解决:
安装HTMLParser
pip install HTMLParser
修改HTMLParser的源码
修改
import markupbase
为import _markupbase as markupbase
(在源码的第11行)修改
return unichr(c)
为return chr(c)
python3中没有unichr,用chr即可(在源码的456行)
使用方法
from HTMLParser import HTMLParser
HTMLParser().unescape("《新编全注"
)
阅读全文
0 0
- python3中将`&#x`(《新)的字符串转化为utf-8
- Asp.net中将对象转化为JSON格式的字符串
- C语言中将字符串转化为数字的函数总结
- 将assic编码的json字符串转化为utf-8编码的json字符串
- C语言中将数字转化为字符串
- C语言中将数字转化为字符串
- c++中将数字转化为字符串
- ASP中将汉字转换为UTF-8的一段代码
- vc++ 中将gb3212的字符串转成utf-8编码
- 中文转化为UTF-8
- 把NSString 类型的字符串转化成 utf-8 字符串
- delphi中将UCS2编码的字符串转化为GB2312编码的简单方法
- C# WebService中将集合数据转化为字符串(json,xml )的方式
- C++将十进制数字转化为X 进制的字符串
- VC6中将UNICODE字符串转化为浮点数
- sql函数中将表格形式转化为字符串形式
- java中将jsonObject字符串转化为Map对象
- 如何在C++中将filetime时间转化为字符串?
- 算法储备之快速排序
- 遇见Laravel Migrations的migrate与rollback
- Android设计模式之装饰模式
- 2017.10.17
- Gradle基础知识——Groovy的闭包
- python3中将`&#x`(《新)的字符串转化为utf-8
- CSRF学习笔记之CSRF的防御
- 提高django性能
- file类、输入输出流和缓冲流
- memcache讲解和在.net中初使用
- eclipse窗口中显示类的方法列表
- 将三个数按从大到小输出
- php生成器
- java异常处理