Python爬虫urllib笔记(四)之使用BeautifulSoup爬取百度贴吧

来源:互联网 发布:软件学院毕业设计题目 编辑:程序博客网 时间:2024/06/06 20:40

BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)

提取百度贴吧网页中的楼主发的图片

# -*- coding:utf-8 -# # # BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看)# pip install beautifulsoup4import urllibfrom bs4 import BeautifulSoupdef get_content(url):    html = urllib.urlopen(url)    content = html.read()    html.close()    return contentdef get_imgs(info):"""<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/sign=4a711e3af1246b607b0eb27cdbf91a35/9c019245d688d43f73ecd19b7a1ed21b0ef43b10.jpg" size="15633" height="900" width="507">"""soup=BeautifulSoup(info)#找出所有img标签--加入样式键对值 用_标识防止关键字冲突all_img=soup.find_all('img', class_='BDE_Image')# i = 0# for img in all_img:# #提取每个代码段的src的地址# print img['src']# #下载文件# urllib.urlretrieve(img['src'],'F:\\data\\pachong\\pic2\\%s.jpg' % i)# i +=1#把所有地址返回成数组形式return [img['src'] for img in all_img]info=get_content("http://tieba.baidu.com/p/4364768066")print get_imgs(info)




0 0
原创粉丝点击