python爬虫:抓取乌云厂商url
来源:互联网 发布:淘宝银色遮光布有毒吗 编辑:程序博客网 时间:2024/04/29 10:06
目标:
乌云网是国内最大最权威的安全平台,所以乌云网的注册厂商都是业较有影响力的厂商,我们的最终目的是通过乌云网拿到所有厂商的url,即主站域名,随后调用subDomainsBrute能批量暴力扫描子域名,最后将所有得到的子域名通过AWVS漏扫接口批量扫描,从而达到了批量、全面扫描国内网站巨头站点的目标。
本次目标:
乌云网的厂商列表有43页、844条厂商记录,页面为http://www.wooyun.org/corps/page/1到http://www.wooyun.org/corps/page/43,。本次写一个爬虫扫描这些网页将得到的url存储到本地。
代码
# -*-coding:UTF-8 -*-from urllib import urlretrieveimport redef getWooyunUrl(): L = [] for i in range(1, 44): url = "http://www.wooyun.org/corps/page/" + str(i) try: revtal = urlretrieve(url)[0] except IOError: revtal = None f = open(revtal) lines = ''.join(f.readlines()) regex = '_blank">(.*)</a' for m in re.findall(regex, lines): if(m[0] == 'h'): L.append(m) L = [line + '\n' for line in L] f = open("wooyun.txt", 'w') f.writelines(L) f.close()if __name__ == '__main__': getWooyunUrl()
大约200秒之后,本地会生成wooyun.txt文件里面包含所有url。
文件内容:
0 0
- python爬虫:抓取乌云厂商url
- 搜索引擎爬虫,抓取url
- 网页爬虫抓取URL
- python抓取搜索到的url,小型爬虫
- python爬虫,抓取百度指定内容的url链接
- 抓取网页所有url的简单Python爬虫源码
- python爬虫抓取图片
- Python爬虫抓取
- python 爬虫抓取奥数题
- python爬虫抓取-helloworld
- python 爬虫 基本抓取
- python爬虫爬取补天公益SRC厂商
- [Python]网络爬虫(一):抓取网页的含义和URL基本构成
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- [Python]网络爬虫(一):抓取网页的含义和URL基本构成
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- 转载:[Python]网络爬虫(一):抓取网页的含义和URL基本构成
- RabbitMQ学习总结(2)——安装、配置与监控
- Java笔记 第四章(3) Java面向对象编程基础 第三部分(对象概述)
- C#将数值转换为千分位表示
- TCP和UDP的区别有哪些?
- 记录 “Thinkphp 3.2及以上版本实现支付宝担保交易、即时到账接口类、函数和使用方法”
- python爬虫:抓取乌云厂商url
- ffmpeg到opencv的格式转换
- 改进jQuery的$.getScript(url,callback)动态加载JS
- C&C++标准库
- ArcGIS JavaScript API 4.0beta 3
- python 时间转换
- SdWebImage心得
- 【转】Objective-C Runtime 运行时:类与对象
- Android TV焦点框动画效果