Python实例：网络爬虫抓取豆瓣3万本书（5）

来源：互联网发布：室内平面方案户型优化编辑：程序博客网时间：2024/05/09 02:25

第五步没有什么心的知识点。

直接看代码吧。

# -*- coding:utf-8 -*-# 提取各标签列表页到excelimport timeimport os.pathfrom tool.ExcelManager import listFiles,readExcel,writeExcelfrom tool import TagManager start = time.clock()putplace = 'books'# 判断存放位置是否存在if os.path.exists(putplace):    passelse: # 否则新建    print('新建图书提取存放excel处：'+putplace)    os.makedirs(putplace)taglist = readExcel('web/booktag.xlsx') # 读取标签列表del taglist[0]# 对于每个标签for tag in taglist:    # 图书按照标签存放于文件夹中    mulu=putplace+'/'+tag[0]    if os.path.exists(mulu):        pass    else:        os.makedirs(mulu)    excelpath = mulu+'/'+tag[1]+'.xlsx'    # 存在处理过的excel文件则跳过    if os.path.exists(excelpath):        print(excelpath+'已经存在')        continue    tagbooks = [['书籍名','URL入口','图片地址','出版信息','评价星数']] # 该标签所有书存放处    path = 'web/'+tag[0]+'/'+tag[1] # 构造读取文件夹入口    print('本地提取：'+path)    # 查找目录下已经抓取的Html    files = listFiles(path)    # 遍历分析    for i in files:        file = path+'/'+i        print('提取：'+file)        content = open(file,'rb').read()        books = TagManager.makeBookListInfo(content) # 提取图书列表        tagbooks.extend(books)#把书放进去    # 将信息写入本地文件中    writeExcel(excelpath,tagbooks)    print('写入成功：'+excelpath)end = time.clock()print("提取图书列表总共运行时间 : %.03f 秒" %(end-start))

1 0