《百度URL采集器》

来源：互联网发布：unity3d ios 交互编辑：程序博客网时间：2024/05/29 06:27
# coding = utf-8# __author__ = Christopherfrom urllib import request, parsefrom bs4 import BeautifulSoupimport reimport os# from time import strftimeclass Spider:    def __init__(self):        self.header = {}        self.url = 'http://www.baidu.com/s?wd='        self.page = 0        self.word = 'inurl:action'  # 这里设置你想要搜索的内容        '''        self.hrefre = re.compile('(http|ftp|https)'                                 ':\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])')'''    def EncodingWd(self, wd):        return parse.quote(wd)    def struct_url(self, search_word, page=0):        url = self.url        if search_word == '':            pass        else:            self.url = search_word        if page != 0:            url = url + self.EncodingWd(self.word) + '&pn=' + str(page) + '0'        else:            url += self.EncodingWd(self.word)        return url    def spider(self, page, search_word):        self.header['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.1'        auth_url_lis = []        baidu_search_url = (self.struct_url(search_word, page))        req = request.Request(baidu_search_url, headers=self.header)        rsp = request.urlopen(req)        html = rsp.read()        soup = BeautifulSoup(html, 'html.parser')        # auth_url_lis = []        for url in soup.find_all('a', {'class': 'c-showurl'}):            auth_url_lis.append(url.get('href'))            # soupresult.append(soup.findAll('a', {'class': 'c-showurl'}))            # time.sleep(8)        return auth_url_lis    '''    def extract_href(self, waitforre):        hrefre = self.hrefre        result = []        base_url = 'http://www.baidu.com/'        for i in re.findall(hrefre, waitforre):            result.append(base_url+i[2])        return result'''    def auth_url(self, crypt_url):        result = []        # header = {}        # header['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.1'        try:            req = request.Request(crypt_url, headers=self.header)            url = request.urlopen(req)            result.append(url.geturl())        except:            print('[*]Can\'t get auth_url!%s' % str(crypt_url))        return resultdef main():    path = os.getcwd()    path += '\\auth_url.txt'  # 获取脚本当前路径    spi_ob = Spider()    file = open(path, 'a')    # for k in range(0, 5):    print('[#]Version 0.3\n[#]__Author__=ChristopherLam\n[#]qq:770304694', end='\n')    search_word = str(input('[*]请输入搜索关键词(可不填)：'))    subscript_page = int(input('[*]请输入页码下限（0为第一页）：'))    superscript_page = int(input('[*]请输入页码上限：'))        print('[*]Spider is under running...')    for k in range(subscript_page, superscript_page):        auth_url_lis = spi_ob.spider(page=k, search_word=search_word)        while auth_url_lis:            url_result = spi_ob.auth_url(auth_url_lis.pop())            while url_result:                file.write(url_result.pop()+'\n')    file.close()    print('[*]Success. Quit...')    # for i in re_result:    #    print(i)if __name__ == '__main__':    main()


                                                     1        0           	
					
					   《百度URL采集器》
	  	   百度知道采集器
	  	   【百度爬虫系列 III】深度搜索(给定网址采集全部url)
	  	   毕业论文  百度指数采集
	  	   基于phantomjs二次开发的百度元搜索采集器
	  	   百度地图场所联系信息采集器功能介绍
	  	   PHP加密URL防止采集
	  	   python数据采集百度知道
	  	   采集百度搜索的方法
	  	   Python百度采集教程一
	  	   百度地图的采集车
	  	   采集百度推荐词、百度下拉框
	  	   百度搜索URL参数
	  	   百度搜索URL参数
	  	   百度搜索URL参数
	  	   百度URL解码关键字
	  	   百度图片url解码
	  	   百度URL参数解析
	     		  
	  	   WebDriver介绍
	  	   动态规划（篇3）最长公共子序列（LCS）
	  	   Spring学习心得（18）--  通知的种类
	  	   第一、Java的开发前奏
	  	   cuda8+cuDNN Faster R-CNN安装塈运行demo
	  	   《百度URL采集器》
	  	   射频识别技术漫谈(10)——识别号的格式变化
	  	   MyBatis之动态SQL
	  	   条款06：若不想使用编译器自动生成的函数，就该明确拒绝
	  	   35. Search Insert Position
	  	   学习记录
	  	   xcode debug设置,使用
	  	   git代理设置
	  	   《java集合》--WeakHashMap