爬虫基本操作——从文件中批量读取需求,查询后,批量写入Excel表中
来源:互联网 发布:java web权限控制框架 编辑:程序博客网 时间:2024/06/02 01:01
爬虫基本操作——从文件中批量读取需求,查询后,批量写入Excel表中
Mark下,防遗忘
代码如下(有注释)
# code by sunkun 20170417# -*- coding: UTF-8 -*-import urllibimport urllib2import reimport csvimport codecsfile = open("categorylist.txt") # 需要查询的关键词按行放在文件里resultFile = open('C:\Users\sunkun\Desktop\categorylist_type.csv','wb') # 输出的文件。 # resultFile2 = open('C:\Users\sunkun\Desktop\pinpai2.csv','a+') resultFile.write(codecs.BOM_UTF8) # 防止中文乱码fieldname = ['keywords', 'type'] # 返回文件,第一列放关键词,第二列放查询到的返回类型。writer = csv.DictWriter(resultFile, fieldnames=fieldname)# writer.writeheader() # 是否写上表头while 1: line = file.readline() if not line: break # print line keyWords = (urllib).quote(line) # url不支持中文,进行转码操作 # keyWords = line.encode('utf-8') # line = '新闻软件' # url = 'http://quickshare.swc.sogou/quickshared?content=Clapton&class=null&part=0&platform=iOS&location=116.326022%7C39.992892&id=1481119148606063034&naming=raphael&framework=raphael' urlStart = 'http://quickshare.swc.sogou/quickshared?content=' urlEnd = '&class=null&part=0&platform=iOS&location=116.326022%7C39.992892&id=1481119148606063034&naming=raphael&framework=raphael' url = urlStart + keyWords + urlEnd try: request = urllib2.Request(url) response = urllib2.urlopen(request) content = response.read().decode('gbk') pattern = re.compile('<returntype>(.*?)</returntype>', re.S) resultType = re.findall(pattern, content) # print content print line, resultType[0] # 测试 writer.writerow({'keywords':line, 'type':resultType[0]}) # 写入到文件中 # singleResult = ""+line+resultType[0] # singleResult = [line, resultType[0]] # print singleResult # writer = csv.writer(resultFile) # resultFile.writelines(singleResult) # resultFile.write(line+'\t') # resultFile.write("\t") # resultFile.write(resultType[0]) # resultFile.write("\n") # resultFile.write(resultType[0]) # resultFile1.writelines(line) # resultFile2.writelines(resultType[0]) # resultFile2.writelines("\n") except urllib2.URLError, e: # 异常处理 if hasattr(e, "code"): print e.code if hasattr(e, "reason"): print e.reason
0 0
- 爬虫基本操作——从文件中批量读取需求,查询后,批量写入Excel表中
- yii2从excel文件中读取表格内容,并批量写入数据库
- 从.txt文件中批量读取图片
- opencv从文件中批量读取图像
- opencv从文件中批量读取图像
- java读取Excel数据,然后写入到txt文件,并批量保存到oracle数据库中
- Matlab中从文件夹中批量读取文件的做法
- 从excel文件中获得数据,实现网站的批量查询数据功能
- 从Excel中读取内容写入txt文件中
- opencv学习中——批量读取文件夹的操作
- WPF 批量读取文件夹下TXT文件写入EXCEL
- MATLAB中从文件夹批量读取图片文件的方法
- 【Flask】从Excel中批量导入数据
- 【Python小工具】Python实现批量解析PDF文件提取内容并写入到Excel中
- 从Excel文件读取数据批量导入到Mysql数据库
- 从Mysql数据库读取数据批量导入到Excel文件
- 使用Apache POI创建Excel,并从数据库中读取数据写入到Excel文件中
- Asp.Net 文件操作基类(读取,删除,批量拷贝,批量删除,写入)
- \t\t迅雷笔试题
- \t\tundefined reference to 'pthread_create'(转载)
- lucene索引
- \t\tPThread编程手册(转载)
- 【BZOJ 1857】【SCOI 2010】传送带
- 爬虫基本操作——从文件中批量读取需求,查询后,批量写入Excel表中
- java_web 学习记录(二):servlet
- 读取配置文件工具
- \t\t【转】红黑树原理详解(上)
- \t\t红黑树原理详解(下)
- AMD终极揭秘
- web.xml整合框架
- \t\t中国历代皇帝列表,中国皇帝列表,中国历代时间表,中国各朝代列表
- jms消息中间件