url过滤器
来源:互联网 发布:json数组长度 编辑:程序博客网 时间:2024/06/14 22:55
先上代码
# encoding:utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') import requestsfrom HTMLParser import HTMLParserclass MyHtmlParser(HTMLParser):def __init__(self):HTMLParser.__init__(self)self.link = []def handle_starttag(self, tag, attrs):if tag == 'a':if len(attrs) == 0:passelse:for (attr, value) in attrs:if attr == 'href':self.link.append(value)def SaveToFile(filename, content):f = open(filename, 'a+')try:f.write(content)except Exception, e:print Exception,":", ef.write(content)f.close()if __name__ == "__main__":r = requests.get('http://www.xysay.com')SaveToFile('HtmlSet.txt', r.content.encode('utf-8'))parser = MyHtmlParser()parser.feed(r.content.encode('utf-8'))parser.close()print parser.linkSaveToFile('urlSet.txt', str(parser.link))
用到了Requests,这是个非内置模块,所以要自己去下载安装,具体方法google。 为了实现过滤url的功能要用到HTMLParser这个模块,需要动手自己写一个HTMLParser的子类并且将handle_tagstart函数重载成能实现你想要的功能的样子,这个类里还有两个函数式handle_data和handle_tagend,由于在url过滤中没用到所以就无需重载了。
图示效果
0 0
- url过滤器
- URL安全问题(过滤器)
- JSP的URL过滤器
- django过滤器-----url
- 过滤器-过滤URL
- angular url过滤器 解析识别url
- Filter过滤器例外URL设置
- Filter过滤器例外URL设置
- filter过滤器设置URL例外
- Filter过滤器例外URL设置
- 清除url上的sessionID的过滤器
- 过滤器多个URl-pattern过滤
- 过滤器配置多个url-pattern
- JavaWeb-过滤器高级案例、URL过滤系统
- 过滤器配置多个url-pattern
- Urlrewritefilter——Url重写过滤器
- shiro url和过滤器处理功能
- StrutsPrepareAndExecuteFilter过滤器和url-pattern设置详解
- 「转」安装Linux性能监测工具Conky
- hdu 2188 巴什博弈
- BlueTooth: 对蓝牙的第一次亲密接触
- Redis的Python客户端redis-py
- uva 10881
- url过滤器
- 多线程的那点儿事(之无锁队列)
- ExecuteNonQuery、ExecuteScalar、ExecuteReader区别有哪些
- java正则表达式(java.util.regex包)
- 普京的智慧:巧用GNU/Linux
- 用例图
- SAS:两独立样本均值检验
- 【玩转微信公众平台之九】 第一个功能:消息自动回复
- 【OpenCV入门指南】第十三篇 人脸检测