androidbenchmark和iphonebenchmark这两页面中设备信息爬虫
来源:互联网 发布:asp微商城源码 编辑:程序博客网 时间:2024/06/15 21:32
#coding=utf-8#---------------------------------------# 程序:androidbenchmark爬虫# 作者:ewang# 日期:2016-7-11# 语言:Python 2.7# 功能:获取页面中的Android PassMark Rating信息保存到文件中。#---------------------------------------import stringimport urllib2import reimport osclass androidbenchmark_Spider:#申明相关属性def __init__(self,url): #给SougoPicUrl属性赋值self.androidbenchmarkUrl=url#用来保存图片URL信息self.androidbenchmark=[]print u'爬虫,爬爬...'#初始化加载页面并将其转码存储defAndroidBenchMark(self):#读取页面的原始信息Page=urllib2.urlopen(self.androidbenchmarkUrl).read()#获取页面标题title=self.find_title(Page)print u'网页名称:'+title#获取页面中文本信息self.save_infor(title)#查找页面标题def find_title(self,page):#匹配<title>xxxx</title>myTitle=re.search(r'<title>(.*?)</title>',page,re.S)#初始化标题名为暂无标题title=u'暂无标题'#如果标题存在把标题赋值给titleif myTitle: #(.*?)这称作一个group,组是从1开始title=myTitle.group(1)else:print u'爬虫报告:无法加载网页标题...'return title#保存页面信息def save_infor(self,title):#加载页面文本信息到数组中self.get_infor()#创建并打开本地文件f=open(title+'.csv','w+')#把获取的页面信息写入文件中f.writelines(self.androidbenchmark)#关闭打开的文件f.close()print u'爬虫报告:文件'+title+'.csv'+u'已经下载:'+os.getcwd()print u'按任意键退出...'raw_input()#获取页面源码并将其存储到数组中def get_infor(self): #获取页面中的源码page=urllib2.urlopen(self.androidbenchmarkUrl).read()#把页面中所有jpg图片的URL提取出来self.deal_Android_Device(page)def deal_Android_Device(self,page):#获取所有设备名称Android_Device=re.findall('\<a href=\"phone\.php\?phone=(.*?)\"\>',page,re.S)#把手机型号的添加到androidbenchmark列表中for aItem in Android_Device: self.androidbenchmark.append(aItem+"\n")#------------程序入口处----------------print u"""#---------------------------------------# 程序:程序:androidbenchmark爬虫# 作者:ewang# 日期:2016-7-7# 语言:Python 2.7# 功能:获取页面中的Android PassMark Rating信息保存到文件中。#--------------------------------------------------"""#print u'需要爬取得URL(passmark_chart,memmark_chart,cpumark_chart,diskmark_chart,g2dmark_chart,g3dmark_chart):'#bdurl = 'http://www.androidbenchmark.net/' + str(raw_input(u'http://www.androidbenchmark.net/')) +'.html'And_ipone=['http://www.androidbenchmark.net/','http://www.iphonebenchmark.net/']chart_page=['passmark_chart.html','memmark_chart.html','cpumark_chart.html','diskmark_chart.html','g2dmark_chart.html','g3dmark_chart.html']for dev in And_ipone:for chart in chart_page:bdurl=dev+chartAndroid_Device_Name=androidbenchmark_Spider(bdurl)Android_Device_Name.AndroidBenchMark()
#coding=utf-8#---------------------------------------# 程序:androidbenchmark爬虫# 作者:ewang# 日期:2016-7-11# 语言:Python 2.7# 功能:获取页面中的Android PassMark Rating信息保存到文件中。#---------------------------------------import stringimport urllib2import reimport osclass androidbenchmark_Spider:#申明相关属性def __init__(self,url): #给SougoPicUrl属性赋值self.androidbenchmarkUrl=url#用来保存图片URL信息self.androidbenchmark=[]print u'爬虫,爬爬...'#初始化加载页面并将其转码存储defAndroidBenchMark(self):#读取页面的原始信息Page=urllib2.urlopen(self.androidbenchmarkUrl).read()#获取页面标题title=self.find_title(Page)print u'网页名称:'+title#获取页面中文本信息self.save_infor(title)#查找页面标题def find_title(self,page):#匹配<title>xxxx</title>myTitle=re.search(r'<title>(.*?)</title>',page,re.S)#初始化标题名为暂无标题title=u'暂无标题'#如果标题存在把标题赋值给titleif myTitle: #(.*?)这称作一个group,组是从1开始title=myTitle.group(1)else:print u'爬虫报告:无法加载网页标题...'return title#保存页面信息def save_infor(self,title):#加载页面文本信息到数组中self.get_infor()#创建并打开本地文件f=open(title+'.csv','w+')#把获取的页面信息写入文件中f.writelines(self.androidbenchmark)#关闭打开的文件f.close()print u'爬虫报告:文件'+title+'.csv'+u'已经下载:'+os.getcwd()print u'按任意键退出...'raw_input()#获取页面源码并将其存储到数组中def get_infor(self): #获取页面中的源码page=urllib2.urlopen(self.androidbenchmarkUrl).read()#把页面中所有jpg图片的URL提取出来self.deal_Android_Device(page)def deal_Android_Device(self,page):#获取所有设备名称Android_Device=re.findall('\<a href=\"phone\.php\?phone=(.*?)\"\>',page,re.S)#把手机型号的添加到androidbenchmark列表中for aItem in Android_Device: self.androidbenchmark.append(aItem+"\n")#------------程序入口处----------------print u"""#---------------------------------------# 程序:程序:androidbenchmark爬虫# 作者:ewang# 日期:2016-7-7# 语言:Python 2.7# 功能:获取页面中的Android PassMark Rating信息保存到文件中。#--------------------------------------------------"""print u'需要爬取得URL(passmark_chart,memmark_chart,cpumark_chart,diskmark_chart,g2dmark_chart,g3dmark_chart):'bdurl = 'http://www.androidbenchmark.net/' + str(raw_input(u'http://www.androidbenchmark.net/')) +'.html'Android_Device_Name=androidbenchmark_Spider(bdurl)Android_Device_Name.AndroidBenchMark()
#coding=utf-8#---------------------------------------# 程序:iphonebenchmark爬虫# 作者:ewang# 日期:2016-7-11# 语言:Python 2.7# 功能:获取页面中的iphone PassMark Rating信息保存到文件中。#---------------------------------------import stringimport urllib2import reimport osclass iphonebenchmark_Spider:#申明相关属性def __init__(self,url): #给SougoPicUrl属性赋值self.iphonebenchmarkUrl=url#用来保存图片URL信息self.iphonebenchmark=[]print u'爬虫,爬爬...'#初始化加载页面并将其转码存储defiphoneBenchMark(self):#读取页面的原始信息Page=urllib2.urlopen(self.iphonebenchmarkUrl).read()#获取页面标题title=self.find_title(Page)print u'网页名称:'+title#获取页面中文本信息self.save_infor(title)#查找页面标题def find_title(self,page):#匹配<title>xxxx</title>myTitle=re.search(r'<title>(.*?)</title>',page,re.S)#初始化标题名为暂无标题title=u'暂无标题'#如果标题存在把标题赋值给titleif myTitle: #(.*?)这称作一个group,组是从1开始title=myTitle.group(1)else:print u'爬虫报告:无法加载网页标题...'return title#保存页面信息def save_infor(self,title):#加载页面文本信息到数组中self.get_infor()#创建并打开本地文件f=open(title+'.csv','w+')#把获取的页面信息写入文件中f.writelines(self.iphonebenchmark)#关闭打开的文件f.close()print u'爬虫报告:文件'+title+'.csv'+u'已经下载:'+os.getcwd()print u'按任意键退出...'raw_input()#获取页面源码并将其存储到数组中def get_infor(self): #获取页面中的源码page=urllib2.urlopen(self.iphonebenchmarkUrl).read()#把页面中所有jpg图片的URL提取出来self.deal_iphone_Device(page)def deal_iphone_Device(self,page):#获取所有设备名称iphone_Device=re.findall('\<a href=\"phone\.php\?phone=(.*?)\"\>',page,re.S)#把手机型号的添加到iphonebenchmark列表中for aItem in iphone_Device: self.iphonebenchmark.append(aItem+"\n")#------------程序入口处----------------print u"""#---------------------------------------# 程序:程序:iphonebenchmark爬虫# 作者:ewang# 日期:2016-7-7# 语言:Python 2.7# 功能:获取页面中的iphone PassMark Rating信息保存到文件中。#--------------------------------------------------"""print u'需要爬取得URL(passmark_chart,memmark_chart,cpumark_chart,diskmark_chart,g2dmark_chart,g3dmark_chart):'bdurl = 'http://www.iphonebenchmark.net/' + str(raw_input(u'http://www.iphonebenchmark.net/')) +'.html'iphone_Device_Name=iphonebenchmark_Spider(bdurl)iphone_Device_Name.iphoneBenchMark()
0 0
- androidbenchmark和iphonebenchmark这两页面中设备信息爬虫
- 爬虫爬取页面信息及图片链接
- php爬虫页面信息获取利器
- 在Windows Phone 7中获取用户信息和设备信息
- android中获取设备信息
- 获取App和设备信息
- Python爬虫爬取豆瓣图书的信息和封面,放入MySQL数据库中。
- 把玩之糗事百科简单页面信息爬虫
- Python爬虫信息输入及页面的切换
- NET_DVR_GetDVRConfig 获取设备配置信息的两种方式
- YII2中常用的页面跳转,以及获取用户信息和登录信息等信息总结
- android系统中“关于设备”中android版本和android安全补丁信息修改
- 在Linux系统中存储设备的两种表示方法-sdxx和(hdx,x)
- 两台设备中同步Hexo博客
- js获取浏览器信息和页面信息
- frame页面跳转和信息提示页面
- frame页面跳转和信息提示页面
- 这两部分代码无法实现 文章 基础信息和 内容两表的正确修改。
- HTML5+CSS3 最酷的 loading 效果汇总
- spring中的spel表达式语言
- Freemaker初接触(二) 简单生成html文件
- L3-008. 喊山
- 剑指offer-4-面试26:复杂链表的复制
- androidbenchmark和iphonebenchmark这两页面中设备信息爬虫
- 16 款优秀的Web开发辅助工具推荐
- 获取TbaleViewCell的frame及cell点击动画
- Tkinter教程之Text(2)篇
- C的xml编程-libxml2(转)
- Spring 表达式语言 (SpEL)
- 三分查找的一些细节
- MySql+MyBatis放回插入的主键
- RxJava应用场景