利用python抓取网页各种类型内容（静态、动态）

来源：互联网发布：阿里云邮箱别名管理编辑：程序博客网时间：2024/05/22 08:01

声明：

本实验的操作系统是ubuntu,python 2.X

Code-1:抓取静态的title数据（无需登录用户）

获取淘宝主页的页面静态数据

url:http://www.taobao.com

#!/usr/bin/envpython #-*- coding: utf-8 -*-#@authorAmiber#@date2012-12-01#@brief grap the static-web data with chinese languagfrom BeautifulSoup import BeautifulSoupimport urllib2url = r"http://www.taobao.com"resContent = urllib2.urlopen(url).read()resContent = resContent.decode('gbk').encode('utf8')soup = BeautifulSoup(resContent)print soup.title.stringurl = r"http://www.news.baidu.com"resContent = urllib2.urlopen(url).read().decode('gb18030').encode('utf8')soup = BeautifulSoup(resContent)print soup.title.string

Code-2:抓取静态网页中的table数据（无需登录用户）

获取的是国家统计局一个网上上的静态表格数据

#!/usr/bin/envpython#!-*- coding:utf-8 -*-#@authorAmiber#@date2012-12-01#@brief grap the table-data in static-webfrom BeautifulSoup import BeautifulSoupimport urllib2import reimport stringdef earse(strline,ch) :left = 0right = strline.find(ch)while right !=-1 :strline = strline.replace(ch,'')right = strline.find(ch)return strlineurl = r"http://www.bjstats.gov.cn/sjfb/bssj/jdsj/2012/201211/t20121130_239295.htm"resContent = urllib2.urlopen(url).read()resContent = resContent.decode('gb18030').encode('utf8')soup = BeautifulSoup(resContent)print soup('title')[0].stringtab= soup.findAll('table')trs = tab[len(tab)-1].findAll('tr')for trIter in trs :tds = trIter.findAll('td')for tdIter in tds :span = tdIter('span')for i in range(len(span)) :if span[i].string :print earse(span[i].string,' ').strip(),else :passprint

Code-3:抓取静态网页中的文档数据（无需登录用户）

获取的是一个bbs网站的一个zip文档数据

#!/usr/bin/envpython #!-*- coding:utf-8 -*-#@authorAmiber#@date 2012-12-01#@brief download  the file from  web-sitefrom BeautifulSoup import BeautifulSoupimport urllib2import stringimport reurl = r"http://bbs.for68.com/getresource.php?rid=59906"re = urllib2.Request(url)rs = urllib2.urlopen(re).read()open('down.tar','wb').write(rs)

Code-4:抓取静态网页中的图片数据（无需登录用户）

获取一个网站上的图片数据

#!/usr/bin/envpython#!-*- coding: utf-8 -*-#@authorAmiber#@date 2012-12-01#@brieffrom BeautifulSoup import BeautifulSoupimport urllib2import reimport stringurl = r"http://tu.365imgs.cn/img/h005/h84/img20121127094009JEn0.jpg"re = urllib2.Request(url)resouce = urllib2.urlopen(re).read()open("wall.jpg","wb").write(resouce)

Code-5:抓取静态网页中的数据（登录用户）

这个例子是参考了一个博客，登录人人网站并且抓取登录后的网页

#!/usr/bin/envpython #!-*- coding: utf-8 -*-#@author Amiber#@date 2012-12-02#@brief grap the data when log is neededimport urllibimport urllib2import cookielibfrom BeautifulSoup import BeautifulSoupimport stringimport remyCookie = urllib2.HTTPCookieProcessor(cookielib.CookieJar())openner = urllib2.build_opener(myCookie)post_data = {'email':'XXXXXXXX','password':'YYYYYYYYY','origURL':'http://www.renren.com/Home.do','domain':'renren.com'}req = urllib2.Request('http://www.renren.com/PLogin.do',urllib.urlencode(post_data))resContent = openner.open(req).read()soup =  BeautifulSoup(resContent)print soup.prettify()

Code-6:抓取动态网页中的查询-1数据（无需登录用户）

此类别的查询数据是，当你改变查询条件，整个url都变。下面以抓取天气预报网站上的查询数据为例子

#!/usr/bin/envpython #!-*- coding: utf-8 -*-#@authorAmiber#@date2012-12-02#@brief grap the query-data in static -web#@brief the difference is that when you change your query,the url is differentfrom BeautifulSoup import BeautifulSoupimport urllib2import reimport stringimport sysimport codecsurl = r"http://www.weather.com.cn/weather/101070105.shtml"lookutf_8 = codecs.lookup('utf8')resContent = urllib2.urlopen(url).read()resContent = lookutf_8.decode(resContent)[0]resContent = lookutf_8.encode(resContent)[0]soup = BeautifulSoup(resContent)weatherYuBao = soup.findAll('div',id='7d')print weatherYuBaourl = r"http://www.weather.com.cn/weather/101010100.shtml?"resContent = urllib2.urlopen(url).read()resContent = lookutf_8.decode(resContent)[0]resContent = lookutf_8.encode(resContent)[0]soup =BeautifulSoup(resContent)weatherYuBao = soup.findAll('div',id='7d')print weatherYuBao

code-7:抓取动态网页中的查询-2数据（无需登录用户）

抓取的数据是互动百科的分类数，网址为：http://www.hudong.com/category/treeManage.jsp

通过对原网页代码研究：view-source:http://www.hudong.com/category/treeManage.jsp

可以找到js文件：http://www.huimg.cn/fenlei/js/Ajax_cate20111205.js

找到url的生成js函数为：searchcate

从而可以推断出ajax数据生成的url为：http://www.hudong.com/category/Ajax_cate.jsp?catename=%query%

#!/usr/bin/envpython #!-*- coding: utf-8 -*- #@authorAmiber#@date 2012-12-02#@briefgrep the hudong-tree-structor#keyUrl[0] = "http://www.hudong.con/category/treeManager.jsp"#keyUrl[1] = "http://www.huimg.cn/fenlei/js/Ajax_cate20111205.js"#KeyUrl[2] = "http://www.hudong/category/Ajax_cate.jsp?catename=%query%"from BeautifulSoup import BeautifulSoupimport reimport stringimport urllib2import codecsimport Queuebaseurl = "http://www.hudong.com/category/Ajax_cate.jsp?catename="def getAllCategory(contentList,query) :'''   recusive get the tree-structure'''url = baseurl+urllib2.quote(query)resContent = urllib2.urlopen(url).read()if len(resContent) > 3 and resContent.find('}') !=-1 :resContent = resContent[2:len(resContent)-3]else :contentList.append([])return soup = BeautifulSoup(resContent)content = soup.__str__().split('},')conList = []print query,":",for cIter in content :tmpList = map(lambda str: str.strip('"').rstrip('"}]'),cIter.split(':'))elist =[]elist.append(tmpList[len(tmpList)-1])print tmpList[len(tmpList)-1],conList.append(elist)printcontentList.append(conList)for cLIter in conList :getAllCategory(cLIter,cLIter[0])def main() :query="页面总分类"url = baseurl+urllib2.quote(query)resContent = urllib2.urlopen(url).read()lookutf_8 = codecs.lookup('utf8')if len(resContent) >3 :resContent = resContent[2:len(resContent)-3]soup = BeautifulSoup(resContent)print query,": ",content = soup.__str__().split('},')contentList = []for cIter in content :tmpList = map(lambda str: str.strip('"').rstrip('"}]'),cIter.split(':'))elist = []elist.append(tmpList[len(tmpList)-1])print tmpList[len(tmpList)-1],contentList.append(elist)print for cIter in contentList :getAllCategory(cIter,cIter[0])print if __name__ == '__main__' :main()

Notice:考虑到速度问题，可以在迭代求子分类的时候采用多线程，因为分类中间彼此独立

生成数据部分显示：

页面总分类 : 自然文化人物历史生活社会艺术经济科学体育技术地理 HOT
自然 : 植物动物自然现象自然资源环境保护微生物宇宙天文生物自然理论自然遗产地质灾害生物分类
植物 : 种子植物藻类植物农作物植物理论各类型植物珍稀濒危植物蕨类植物各国植物苔藓类植物菌类植物地衣植物苔藓植物植物栽培园林植物热带植物植物分类表绿色植物水生植物
种子植物 : 裸子植物
裸子植物 : 裸子植物名称
农作物 : 玉米
植物理论 : 植物科名生命植物科属植物分类植物学名词
生命 : 元素
各类型植物 : 草本植物可以食用的植物观赏植物被子植物分支竹孑遗植物有毒植物食肉植物木本植物著名植物药用植物一年生植物捕虫植物形形色色植物趣味植物受保护植物罕见植物园林绿化植物经济植物各类植物名称低等植物高等植物花木中国进境植物检疫危险性病虫草植物名称双子叶植物藤本植物浮游植物沙漠植物
草本植物 : 草本
可以食用的植物 : 水果蔬菜茶调味品草本茶谷类香草可食用果仁玉米
水果 : 水果种类减肥水果果汁水果梨
水果种类 : 浆果核果坚果仁果柑橘瓜
仁果 : ć˘¨
瓜 : 西瓜
果汁水果 : 防腐剂纤维素维生素C
蔬菜 : 食用菌蔬菜种植蔬菜配送蔬菜农药脱水蔬菜蔬菜种子野菜
蔬菜配送 : 食堂管理农副产品
蔬菜农药 : 定量分析工商局
茶 : 茶学茶文化中国各种茶名中国名茶茶的种类
茶学 : 茶文化茶学文献
茶文化 : 茶具茶道茶艺制茶方法茶健康
茶具 : 茶杯茶壶
茶壶 : 紫砂壶
茶道 : 日本茶道
茶文化 : 茶具茶道茶艺制茶方法茶健康
茶具 : 茶杯茶壶
茶壶 : 紫砂壶
茶道 : 日本茶道
中国名茶 : 铁观音普洱茶
茶的种类 : 白茶绿茶黑茶红茶黄茶花茶草本茶凉茶乌龙茶紧压茶普洱茶别类茶
调味品 : 甜味剂酱香草广东调味料亚洲调味料醋食盐烹调调料调料
甜味剂 : 二糖
酱 : 酱油咖哩
咖哩 : 咖哩食品
广东调味料 : 香港调味料
烹调调料 : 香料
调料 : 烹调调料
烹调调料 : 香料
谷类 : 谷类食品水稻
谷类食品 : 面粉制品稻米食品
面粉制品 : 面包面条蛋糕饼干烤饼油炸面食
面包 : 三明治饼店
面条 : 即食面意式面食中式面条日式面条
日式面条 : 日本面条食品
蛋糕 : 饼店
饼干 : 饼店馅饼
稻米食品 : 饭粥糯米食品
饭 : 炒饭寿司
水稻 : 杂交水稻
观赏植物 : 观叶植物
被子植物分支 : 单子叶植物分支木兰分支睡莲科金鱼藻目木兰藤目金粟兰科无油樟科
单子叶植物分支 : 鸭跖草分支天门冬目薯蓣目无叶莲科
鸭跖草分支 : 禾本目
禾本目 : 禾本科莎草科梭子草科香蒲科凤梨科灯心草科帚灯草科黑三棱科黄眼草科苔草科刺鳞草科须叶藤科谷精草科
禾本科 : 结缕草属画眉草属芨芨草属酸竹属尖稃草属凤头黍属山羊草属獐毛属冰草属剪股颖属银须草属毛颖草属看麦娘属悬竹属须芒草属异颖草属黄花茅属水蔗草属楔颖草属三芒草属燕麦草属荩草属野古草属芦竹属沟稃草属燕麦属地毯草属簕竹属巴山木竹属菵草属孔颖草属格兰马草属臂形草属短颖草属短柄草属短穗竹属凌风草属雀麦属扁穗草属野牛草属拂子茅属细柄草属沿沟草属小沿沟草属蒺藜草属酸模芒属空竹属山涧草属寒竹属香竹属虎尾草属金须茅属单蕊草属隐子草属小丽草属空轴茅属薏苡属莎禾属蒲苇属隐花草属香茅属狗牙根属洋狗尾草属弓果黍属鸭茅属龙爪茅属扁芒草属绿竹属牡竹属发草属羽穗草属野青茅属双药芒属龙常草属二型花属双花草属马唐属觿茅属弯穗草属双稃草属镰序竹属毛蕊草属油芒属稗属穇属披碱草属偃麦草属总苞草属九顶草属肠须草属细画眉草属蜈蚣草属旱禾属旱茅属旱麦草属鹧鸪草属蔗茅属野黍属类蜀黍属黄金茅属拟金茅属真穗草属箭竹属铁竹属羊茅属耳稃草属井冈寒竹属吉曼草属巨竹属甜茅属球穗草属镰稃草属异燕麦属牛鞭草属假蛇尾草属黄茅属茅香属绒毛草属大麦属水禾属膜稃草属苞茅属猬草属距花黍属白茅属箬竹属大节竹属柳叶箬属鸭嘴草属旱莠竹属假稻属囊稃竹属千金子属薄稃草属细穗草属银穗草属赖草属单竹属扇穗茅属黑麦草属淡竹叶属臭草属糖蜜草属梨藤竹属梨竹属月月竹属异枝竹属小草属莠竹属粟草属芒属毛俭草属麦氏草属单枝竹属乱子草属河八王属山鸡谷草属新小竹属慈竹属类芦属少穗竹属蛇尾草属求米草属固沙草属直芒草属稻属落芒草属露籽草属黍属假拟沿沟草属假牛鞭草属类雀稗属雀稗属狼尾草属茅根属束尾草属显子草属虉草属梯牧草属芦苇属刚竹属大明竹属早熟禾属金发草属棒头草属多裔草属单序草属沙鞭属新麦草属假铁秆草属钩毛草属假金发草属伪针茅属矢竹属泡竹属细柄茅属碱茅属筇竹属红毛草属鹅观草属筒轴茅属甘蔗属囊颖草属赤竹属齿稃草属裂稃茅属硬草属水茅属黑麦属沟颖草属业平竹属狗尾草属刺毛头黍属倭竹属唐竹属三蕊草属高粱属米草属稗荩属鬣刺属大油芒属鼠尾栗属钝叶草属冠毛草属针茅属坚轴草属筱竹属菅属蒭雷草属锥茅属泰竹属粽叶芦属钝基草属锋芒草属荻属三角草属草沙蚕属磨擦草属三毛草属小麦属尾稃草属香根草属鼠茅属玉山竹属玉蜀黍属菰属裂稃草属