Python处理HTML实体编码

来源:互联网 发布:jq数组包含 某个元素 编辑:程序博客网 时间:2024/04/29 03:23

还是上一篇的那个网站,里面有的汉字存成了〹的形式,这个也得自己翻译……方法如下:

import HTMLParserchar = r"〹"t = HTMLParser.HTMLParser();uChar = t.unescape(char);

这样就把实体码翻译成汉语了。


PS. 实体码中有的符号不是&#开头,而是&开头的,匹配的时候要注意。

PSS. 实体码最后的分号不能少!

1 0