Python爬虫XPATH
来源:互联网 发布:好喝的洋酒推荐 知乎 编辑:程序博客网 时间:2024/03/29 20:17
import urllibimport urllib.requestimport lxmlfrom lxml import etreea=0def loadPage(url): """ :param url: :param filename: :return: """ request=urllib.request.Request(url=url) response=urllib.request.urlopen(request) html=response.read() # print(html) content=etree.HTML(html) #print(content) #返回的是所有匹配成功后匹配集合threadlist_lz clearfix #//div[@class="threadlist_lz clearfix"]//a[@"j_th_tit"]/ahref #//img[@"BDE_imge"]/@src link_list=content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href') # print(link_list) for link in link_list: print(link) fulllink='http://tieba.baidu.com'+link # print(fulllink) loadImage(fulllink)def loadImage(link): print(link) request=urllib.request.Request(link) response=urllib.request.urlopen(request) html=response.read() content=etree.HTML(html) #print(content) # link_list1=content.xpath('//div[@class="d_post_content j_d_post_content clearfix]/') # print(link_list1) link_list=content.xpath('//img[@class="BDE_Image"]/@src') print(link_list) for link in link_list: writeImage(link) # print(link)def writeImage(link): """ # :param link: :return: """ request=urllib.request.Request(link) image=urllib.request.urlopen(request).read() filename=link[-5:] with open(filename,'wb')as f: f.write(image) print('-'*30) print('打印是照片' + str(a)) a=a+1def tiebaSpider(url,beginPage,endpPage): for page in range(beginPage,endpPage+1): pn=(page-1)*50 # filename='第'+str(page)+'页.html' fullurl=url+"&pn"+str(pn) html=loadPage(fullurl)if __name__=="__main__": kw=input('请输入你要需要爬取的贴吧名:') beginPage=int(input('请输入起始页')) endPage=int(input('请输入结束页')) url='https://tieba.baidu.com/f?' kw1={'kw':kw} key = urllib.parse.urlencode(kw1) fullurl=url+key print(fullurl) tiebaSpider(fullurl,beginPage,endPage)
阅读全文
0 0
- python之xpath爬虫
- python爬虫之xpath
- Python爬虫XPATH
- python爬虫xpath的语法
- python爬虫xpath的语法
- Python爬虫:Xpath语法笔记
- Python爬虫:Xpath语法笔记
- python爬虫利器-xpath使用
- Python爬虫之<XPath与多线程爬虫>
- xpath: Python网页爬虫定位辅助利器
- [python]多线程xpath爬虫
- Python爬虫:Xpath语法笔记【转载】
- Python--通过XPath实现网络爬虫
- python中的爬虫神器 XPath 介绍
- python xpath介绍和新闻内容爬虫
- python.scrapy爬虫-xpath查询语法
- XPath在python爬虫中的高级应用
- Python 爬虫学习笔记二: xpath 模块
- leetcode 287. Find the Duplicate Number
- (3)在Action中用request、session、application和前端简单数据、对象数据传递到后端
- MATLAB 区域生长 连通区域计算 曲线的断点查询
- Python 爬虫之 selenium 爬虫,模拟浏览器爬取天猫信息
- 获取app中所有activity集合
- Python爬虫XPATH
- 横向滑动菜单Tablayout,点击选项给下面的viewpager中的fragment传值
- Hadoop 2.8 集群的安装
- jasperReports
- 面试中常见的排序算法
- 【数据建模 缺失值处理】缺失值的处理
- 从驱动层到应用层打通Android系统通路
- [高级软件工程实验]将menu设计为可重用的子系统
- Maven学习总结(四)——Maven核心概念