Python如何替换'&#'开头的html实体,比如:阳
来源:互联网 发布:域名升级中紧急通知 编辑:程序博客网 时间:2024/05/13 00:58
有时候,我们在抓取的过程中,将HTML实体内容抓到后,存储到了数据库中,这时候在读取数据库的时候,就会以实体的形式出现(当然,如果是在Web页面上展示,则实体会自动被浏览器转为原字符,正常显示),这时候我们需要对其进行处理。
Python中提供了一个模块:HTMLParser,里面有很多好用的方法,
我们可以使用:dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性,其中有一个方法:unescape(),
再使用:help(HTMLParser.HTMLParser.unescape),可以看到该方法的说明信息,但是几乎没什么用。其实该方法就是将HTML实体(带有&#符号打头的)进行解码,转换为原有字符。下面是简单实例:
import HTMLParserdef decodeHtml(input): h = HTMLParser.HTMLParser() s = h.unescape(input) return sprint decodeHtml('阳锟')
执行结果:阳锟
0 0
- Python如何替换'&#'开头的html实体,比如:阳
- python替换html实体的方法
- python替换html实体的方法
- 在html 中,将中文转换为 html实体再输出 即: &#开头的html实体编码
- editplus替换开头的数字
- html文件的开头
- python音标html实体转换
- Python处理HTML实体编码
- 不合法的XML字符必须被替换为相应的实体 [Asp.net HTML XML]
- 如何让所有实体类用相同名称的主键(很有力的问题,比如所有表实体主键都用ID)
- 如何删除在PHP输出的HTML实体?
- DIV+CSS如何控制html标签li的样式,比如删除前面的点
- python开头的coding设置
- HTML的实体符号
- Python正则表达式过滤或者替换HTML标签的方法
- Rust或C#,Python 等如何封装C++的接口 (比如CTP)?
- 【小技巧】UltraEdit中替换操作如何替换特殊字符(比如回车)
- 替换开头单词
- hadoop 学习笔记:mapreduce框架详解
- bitlocker解密
- 要是我问的问题你解释的不清楚,我就喂你袋盐!
- (libgdx小游戏)捡星星
- 连通域分析——去除宽度和高度过小的连通域
- Python如何替换'&#'开头的html实体,比如:阳
- ExtJsGrid不能单选多行的问题
- eclipse查找一个字符串
- ListView按字母排序
- python替换指定字符
- Android编写访问http源代码的方法
- 作业1
- ABAP RTTS(转)
- Android数据的四种存储方式SharedPreferences、SQLite、Content Provider和File (一) —— 总览