python3爬取豆瓣书籍top250
来源:互联网 发布:navicat怎么写sql语句 编辑:程序博客网 时间:2024/05/19 03:44
豆瓣
import reimport sslimport urllib.requestssl._create_default_https_context=ssl._create_unverified_contextclass Douban:def __init__(self):self.queque=[]self.user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14'self.headers={'User_Agent':self.user_agent}self.enable=Falseself.pageIndex=0self.pageStorage=[]self.result=[]def getpage(self):url='https://book.douban.com/top250?start='+str(self.pageIndex)req=urllib.request.Request(url,headers=self.headers)with urllib.request.urlopen(req) as response:pageCode=response.read().decode('utf-8')p=re.compile(r'.*?title=.*?>(.*?)<.*?<p class="pl">(.*?)</p>.*?<span class="rating_nums">(.*?)</span>.*?\((.*?)\).*?<span class="inq">(.*?)</span>',re.S)self.result=re.findall(p,pageCode)book_list=[]for item in self.result:#book_list.append([item[0].strip(),item[1].strip(),item[2].strip(),item[3].strip(),item[4].strip()])book_list.append([item[0].strip(),item[1].strip(),item[2].strip(),item[3].strip()])for item in book_list:print(item)return pageCodedef start(self):self.enable=Truewhile self.pageIndex<10:print('{}~{}'.format(self.pageIndex*25,(self.pageIndex+1)*25-1))pageCode=self.getpage()self.pageIndex+=1if __name__=='__main__':douban_spider=Douban()douban_spider.start()
阅读全文
0 0
- python3爬取豆瓣书籍top250
- 爬取豆瓣图书Top250书籍信息
- python3实战|python3爬取豆瓣top250备份到数据库
- Python3爬虫入门之爬取豆瓣Top250电影名称
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
- Python3之爬虫爬取豆瓣读书Top250
- python3实现豆瓣top250电影信息爬取
- mathematica爬取豆瓣Top250
- Python爬取豆瓣电影top250
- Python爬取豆瓣电影Top250数据
- Python+Scrapy 爬取豆瓣电影排行榜Top250
- python+beautifulsoup爬取豆瓣电影TOP250
- nodejs爬取豆瓣top250电影信息
- Scrapy+mongoDB爬取豆瓣TOP250
- scrapy爬取豆瓣TOP250电影
- 爬取豆瓣Top250图书【Beautiful】
- python爬取豆瓣图书Top250
- Python爬取豆瓣电影top250
- 获取微信用户发来的链接
- 文章标题
- 排序算法-选择排序
- 洛谷P2902 [USACO08MAR]珍珠配对Pearl Pairing
- 一起用construct2做射击小游戏吧!2
- python3爬取豆瓣书籍top250
- 最长回文子串(le)
- HDU:2027 统计元音
- 用androidstudio 第一次创建项目慢和copy的android项目编译缓慢的问题
- 数组
- 输入任意一个大于2的正整数n,输出所有小于等于n的素数
- 查询
- PowerDesigner画线遇到的问题
- 用电路做加法