[python脚本]爬blackhat官网的paper
来源:互联网 发布:php软件环境是什么 编辑:程序博客网 时间:2024/06/05 22:57
都知道blackhat上的人很牛X,自己参加不了,也只能找点人家的paper看看了。
反正没有找到有集中打包下载的地方。都是这样的https://www.blackhat.com/html/bh-eu-12/bh-eu-12-archives.html要想下载就要一个个点好麻烦。所以写个虫子,让它自己爬。没啥技术含量,直接在[python脚本]一个简单的web爬虫(1)这个上面改的·····想看paper的,自己爬吧。爬完后直接复制到迅雷下载就ok了。
eg:
python spider.py -u https://www.blackhat.com/html/bh-eu-12/bh-eu-12-archives.html
#-------coding:utf-8-------#-------author:Scr@t-------
#----filename:spider.py----
import sysimport urllib2import reimport HTMLParser class myparser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self,tag,attrs): if (tag == 'a'): URL = '' for name,value in attrs: if (name == 'href'): val = value.find('pdf'or'ppt'or'pptx'or'zip'or'rar')#所要下载的文件类型--------这个地方有问题啊,为什么只匹配pdf,后面的不匹配呢,请大神指点下 if val != -1: fp.write(value + '\n')#下面是爬sebug上的paper时,用的# URL = value[2:]# fp.write(sys.argv[2] + URL + '\n') if sys.argv[1] == '-u': content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容 fp = open("URL.list",'w') con = myparser() con.feed(content)#把content的内容,传给myparser分析else: print 'Usage:%s -u url'%sys.argv[0]
----------------------------------------------在穷无非讨饭,不死终会出头。
- [python脚本]爬blackhat官网的paper
- 一个核物理学霸为何两次收到BlackHat的邀请
- blackhat video
- HTExploit blackhat
- 备份文件的python脚本
- 我的paper
- paper的搜索
- paper的准备
- 发表过的paper
- 写paper的点滴
- paper
- paper
- paper
- PAPER
- 发送邮件的python脚本
- python写的打包脚本
- 登陆网站的python脚本
- 更新hosts的python脚本
- C++ Primer 中文版 学习笔记(十二)
- boost iostreams 压缩文件
- python爬虫实现(使用线程池)
- dedecms更新时报模板不存在,无法解析
- bochs & nasm的安装
- [python脚本]爬blackhat官网的paper
- STL中对vector容器中的结构体进行排序
- java设计模式---状态模式
- poj 2777
- Binder进程通信介绍
- 用Python写Exploit
- 比较Java和C++的几个修饰符
- Ubuntu搭建hadoop单机版伪分布环境
- KMP算法