斗图套图爬取

来源:互联网 发布:centos下搭建hadoop 编辑:程序博客网 时间:2024/06/06 02:11
#encoding:utf8import requestsimport osfrom lxml import etreefrom multiprocessing import Poolclass Dt:    def __init__(self):        self.stit = "https://www.doutula.com/article/list/?page="        self.root_url = "https://www.doutula.com/article/list/"        self.head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36"}    def get_ts(self,url):        xpath = etree.HTML(requests.get(url,headers=self.head).text)        links = xpath.xpath('//*[@class="row"]/div[1]/a/@href')        for ll in links:            self.img(ll)    def img(self,url):        xpath = etree.HTML(requests.get(url,headers=self.head).text)        name = xpath.xpath('//*[@class="pic-title"]/h1/a/text()')[0].strip()        urls = xpath.xpath('//*[@class="artile_des"]//img/@src')        self.download(name,urls)    def download(self,name,urls):        os.mkdir("img/%s"%name)        for i in urls:            img = requests.get(i,headers=self.head).content            f = open("img/%s/%s"%(name,i[-10:]),"wb")            f.write(img)            print("完成")    def dio(self):        pool = Pool(10)        kkk = pool.map(self.get_ts,[self.stit+str(i) for i in range(1,50)])#开启进程池        try:            for link in kkk:                self.img(link)        except Exception as e:            print(e)if __name__ == '__main__':    wode = Dt()    wode.dio()
阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 杜甫草堂门票多少钱 杜甫沉郁顿挫 杜甫是什么居士 我心中的杜甫 杜甫 夜雨剪春韭 杜甫的秋兴八首 杜甫江阁门票 杜甫秋兴八首其一 杜甫代表诗作 杜甫的人生经历 杜甫我想对你说 杜甫属什么生肖 杜甫距今多少年 我眼中的杜甫 杜甫故里景区 杜甫咏怀古迹其三 杜甫的八阵图 杜甫被后人称为什么 杜甫五言绝句 杜甫和李白什么关系 杜甫诗歌的主要风格 杜甫秋兴八首集说 杜甫五言古诗 杜甫绝句的中心思想 杜甫很忙图片 登高 杜甫 诗眼 登高 杜甫 鉴赏 新秋杜甫赏析 杜甫晚期的诗 唐代诗人杜甫是 杜甫诗意图册 杜甫绝句二首其一 杜甫描写秋天的诗句 杜甫笔落惊风雨 杜甫的代表作有哪些 杜甫和谁并称为什么 杜甫被尊称为什么 杜甫 寄韩谏议 杜甫艺术成就 杜甫的诗大全 杜甫写景的诗有哪些