Python实例:网络爬虫抓取豆瓣3万本书(5)
来源:互联网 发布:室内平面方案户型优化 编辑:程序博客网 时间:2024/05/09 02:25
第五步没有什么心的知识点。
直接看代码吧。
# -*- coding:utf-8 -*-# 提取各标签列表页到excelimport timeimport os.pathfrom tool.ExcelManager import listFiles,readExcel,writeExcelfrom tool import TagManager start = time.clock()putplace = 'books'# 判断存放位置是否存在if os.path.exists(putplace): passelse: # 否则新建 print('新建图书提取存放excel处:'+putplace) os.makedirs(putplace)taglist = readExcel('web/booktag.xlsx') # 读取标签列表del taglist[0]# 对于每个标签for tag in taglist: # 图书按照标签存放于文件夹中 mulu=putplace+'/'+tag[0] if os.path.exists(mulu): pass else: os.makedirs(mulu) excelpath = mulu+'/'+tag[1]+'.xlsx' # 存在处理过的excel文件则跳过 if os.path.exists(excelpath): print(excelpath+'已经存在') continue tagbooks = [['书籍名','URL入口','图片地址','出版信息','评价星数']] # 该标签所有书存放处 path = 'web/'+tag[0]+'/'+tag[1] # 构造读取文件夹入口 print('本地提取:'+path) # 查找目录下已经抓取的Html files = listFiles(path) # 遍历分析 for i in files: file = path+'/'+i print('提取:'+file) content = open(file,'rb').read() books = TagManager.makeBookListInfo(content) # 提取图书列表 tagbooks.extend(books)#把书放进去 # 将信息写入本地文件中 writeExcel(excelpath,tagbooks) print('写入成功:'+excelpath)end = time.clock()print("提取图书列表总共运行时间 : %.03f 秒" %(end-start))
1 0
- Python实例:网络爬虫抓取豆瓣3万本书(5)
- Python实例:网络爬虫抓取豆瓣3万本书(3)
- Python实例:网络爬虫抓取豆瓣3万本书(1)
- Python实例:网络爬虫抓取豆瓣3万本书(2)
- Python实例:网络爬虫抓取豆瓣3万本书(4)
- Python实例:网络爬虫抓取豆瓣3万本书(6)
- Python实例:网络爬虫抓取豆瓣3万本书(7)
- Python实例:网络爬虫抓取豆瓣3万本书(8)
- Python实例:网络爬虫抓取豆瓣3万本书(9)
- 利用Python网络爬虫抓取豆瓣首页图片代码分享
- Python 爬虫 抓取豆瓣读书TOP250
- 网络爬虫--python抓取豆瓣同城北京地区活动信息
- Python网络爬虫(5)糗事百科段子抓取
- python网络爬虫(五):并发抓取
- python网络爬虫(1)--抓取图片
- java jsoup 网络爬虫 学习例子(二) 只抓取豆瓣电影5星(力荐)电影名称
- 抓取豆瓣某本书的评论
- 多线程获取豆瓣网页的网络爬虫(Python实现)
- 简单验证码实现[servlet]
- 算法基础2:插入排序
- Android的View动画使用总结
- 线程安全&线程不安全
- Swift开发:SVProgressHUD 使用
- Python实例:网络爬虫抓取豆瓣3万本书(5)
- 递归FFT
- 写活动模式
- dedecms中添加自定义函数
- 标签条码打印软件如何设置打印区域
- python服务器环境搭建(1)——本地服务器准备
- Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0集群搭建
- 多线程写入文件笔试题
- new Date()再chrome和firefox下面的不同表现