python解析html获取Url
来源:互联网 发布:linux tomcat7 log4j 编辑:程序博客网 时间:2024/05/18 06:39
import HTMLParser
class MyParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name, value in attrs:
if name == 'href':
print value
if __name__ == '__main__':
a = '<html><head><title>test</title><body><a href="http://www.163.com">链接到163</a></body></html>'
my = MyParser()
my.feed(a)
HTMLParser解析的函数.
handle_startendtag 处理开始标签和结束标签
handle_starttag 处理开始标签,比如<xx>
handle_endtag 处理结束标签,比如</xx>
handle_charref 处理特殊字符串,就是以&#开头的,一般是内码表示的字符
handle_entityref 处理一些特殊字符,以&开头的,比如
handle_data 处理数据,就是<xx>data</xx>中间的那些数据
handle_comment 处理注释
handle_decl 处理<!开头的,比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
handle_pi 处理形如<?instruction>的东西
- python解析html获取Url
- python模块之HTMLParser: 解析html,获取url
- python模块之HTMLParser: 解析html,获取url
- python模块之HTMLParser: 解析html,获取url
- python模块之HTMLParser: 解析html,获取url
- 通过url,获取html内容,并解析
- ios 根据url获取html,并解析
- 通过url,获取html内容,并解析
- Python进阶 - HTML获取与解析
- Python进阶_2.通过URL获取HTMl内容
- html 获取URL信息
- html获取url参数
- 解析url获取参数
- python url格式解析
- python url 解析
- python url 解析
- Python lxml解析HTML并用xpath获取元素
- html获取URL中的参数
- 【初学EXT】基础知识
- 戴尔私有化走向:或同意最初244亿美元协议
- QUEUSERAPC
- “error LNK2019: 无法解析的外部符号 _ImmReleaseContext@8”
- C + API俄罗斯方块
- python解析html获取Url
- 大学计算机课程学习路线 左飞老师
- hdu 2134 (平分三分,水)
- 2.8 类类型
- 使Debian自动挂载windows分区
- 手动开平方的简易方法
- Binary Tree Level Order Traversal II
- Debian下无线网卡配置
- 大学本科计算机专业那些课 左飞