程序博客网 > 中国洗脑知乎

python3中将`&#x`(《新)的字符串转化为utf-8

来源：互联网发布：中国洗脑知乎编辑：程序博客网时间：2024/06/06 05:03

对于网页中的《新编全&#x6ce8 ，正常情况下python3中能直接转化为utf-8，所以即使网页中显示的是这种escape sequence，获取到之后能够显示正常，但是偶尔也不好使，不好使的情况下可以使用如下方法解决：

安装HTMLParser

pip install HTMLParser

修改HTMLParser的源码

修改import markupbase为import _markupbase as markupbase (在源码的第11行)

修改return unichr(c)为return chr(c) python3中没有unichr，用chr即可（在源码的456行）

使用方法

from HTMLParser import HTMLParser
HTMLParser().unescape("《新编全注")

阅读全文

0 0

中国洗脑知乎

中国洗脑知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子哈罗闪与施巴哪个好颜宁与施一公的孩子施丹兰施丹吊顶施丹施玉孔乔施主请自重施主施主请留步请女施主留步女施主请留步南丑丑施主不要可不可以女施主请留步蒜苗有什么施主有什么和尚请女施主留步我有百万铁粉施主你馒头掉了施乐施乐打印机施乐辉施乐公司施乐7500 施乐华冷柜施乐7550 施乐5570 施乐3200 施乐2011 施乐2260 施乐2011硒鼓清零步骤富士施乐s2110 吴施乐个人资料几岁施乐2011硒鼓富士施乐m268dw 施乐m118w加粉清零图解富士施乐公司怎么样施乐华冰柜报价施乐打印机怎么样 shile 施公施公奇案施公奇案2 施公奇案1