[python脚本]爬blackhat官网的paper

来源：互联网发布：php软件环境是什么编辑：程序博客网时间：2024/06/05 22:57

都知道blackhat上的人很牛X，自己参加不了，也只能找点人家的paper看看了。

反正没有找到有集中打包下载的地方。都是这样的https://www.blackhat.com/html/bh-eu-12/bh-eu-12-archives.html要想下载就要一个个点好麻烦。所以写个虫子，让它自己爬。没啥技术含量，直接在[python脚本]一个简单的web爬虫（1）这个上面改的·····想看paper的，自己爬吧。爬完后直接复制到迅雷下载就ok了。

eg：

　　python spider.py -u https://www.blackhat.com/html/bh-eu-12/bh-eu-12-archives.html

#-------coding:utf-8-------#-------author:Scr@t-------
#----filename:spider.py----
import sysimport urllib2import reimport HTMLParser class myparser(HTMLParser.HTMLParser):    def __init__(self):        HTMLParser.HTMLParser.__init__(self)    def handle_starttag(self,tag,attrs):      if (tag == 'a'):           URL = ''        for name,value in attrs:          if (name == 'href'):            val = value.find('pdf'or'ppt'or'pptx'or'zip'or'rar')#所要下载的文件类型--------这个地方有问题啊，为什么只匹配pdf,后面的不匹配呢，请大神指点下            if val != -1:                fp.write(value + '\n')#下面是爬sebug上的paper时，用的#                URL = value[2:]#                fp.write(sys.argv[2] + URL + '\n')                             if sys.argv[1] == '-u':  content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容  fp = open("URL.list",'w')    con = myparser()  con.feed(content)#把content的内容，传给myparser分析else:  print 'Usage:%s -u url'%sys.argv[0]

----------------------------------------------在穷无非讨饭，不死终会出头。