简单爬虫爬取百度贴吧

来源:互联网 发布:酒店网络部署方案 编辑:程序博客网 时间:2024/05/19 14:00
import urllib.requestimport urllib.parseimport osimport sslssl._create_default_https_context = ssl._create_unverified_context#定义生成request对象方法def request_handle(base_url,bar_name,page):    #构造参数    pn = (page-1)*50    data = {        'kw':bar_name,        'pn':pn    }    data = urllib.parse.urlencode(data)    #根据参数,生成对应的url    url = base_url+data    #构造headers    headers = {        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'    }    request = urllib.request.Request(url=url)    #返回request对象    return request#定义下载方法def download(request,page,bar_name):    response = urllib.request.urlopen(request)    if not os.path.exists(bar_name):        os.mkdir(os.path.join(os.getcwd(),bar_name))    filename = '第'+str(page)+'页.html'    filepath = os.path.join(bar_name,filename)    with open(filepath,'wb') as f1:        f1.write(response.read())#主函数def main():    bar_name = input('请输入您想爬取的吧名:')    start_page = int(input('请输入您想爬取的起始页码:'))    end_page = int(input('请输入您想爬取的结束页面:'))    base_url = 'http://tieba.baidu.com/f?ie=utf-8&'    #遍历需要爬取的页码,依次开始爬取内容    for page in range(start_page,end_page+1):        #构造reuest请求        request = request_handle(base_url,bar_name,page)        # 执行爬取函数,开始爬取        print('开始下载第:' + str(page) + '页')        download(request,page,bar_name)        print('结束下载第:' + str(page) + '页')
阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 清秀是什么意思 清秋 清秋是什么意思 清秋什么意思 清科集团 清科 儿童吐字不清挂什么科 清科研究 清穿皇长子 清穿 清穿茗后 清穿之茗后 清穿福晋 清穿日子 清穿之荣宠 清穿四爷 清穿老答应 清穿的日子 清穿太子 非主流清穿 清穿太子妃 又见清穿 清穿之 清穿记事 清穿之悠闲 清穿系列 清穿文 清穿完结文 清穿日常txt 清穿贵人升职记 清穿之贵人升职记 清穿贵人升职 清穿之皇长子 清穿千娇百媚 清穿之荣妃日常 清穿我金手指 清穿之千娇百媚 清穿之美人绝代 清穿我有金手指 清穿之我有金手指 清穿太子娇妃