Python如何替换'&#'开头的html实体,比如:&#38451

来源:互联网 发布:域名升级中紧急通知 编辑:程序博客网 时间:2024/05/13 00:58

有时候,我们在抓取的过程中,将HTML实体内容抓到后,存储到了数据库中,这时候在读取数据库的时候,就会以实体的形式出现(当然,如果是在Web页面上展示,则实体会自动被浏览器转为原字符,正常显示),这时候我们需要对其进行处理。

Python中提供了一个模块:HTMLParser,里面有很多好用的方法,

我们可以使用:dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性,其中有一个方法:unescape(),

再使用:help(HTMLParser.HTMLParser.unescape),可以看到该方法的说明信息,但是几乎没什么用。其实该方法就是将HTML实体(带有&#符号打头的)进行解码,转换为原有字符。下面是简单实例:

import HTMLParserdef decodeHtml(input):    h = HTMLParser.HTMLParser()    s = h.unescape(input)    return sprint decodeHtml('阳锟')

执行结果:阳锟

0 0
原创粉丝点击