爬虫之路——Day3
来源:互联网 发布:windows 10如何截图 编辑:程序博客网 时间:2024/06/03 19:48
用来导入豆瓣主页所有的推荐电影
import requestsimport pymongoimport reimport timeconnection = pymongo.MongoClient()att = connection.doubantags = {'热门', '最新', '经典', '可播放', '豆瓣高分', '冷门佳片', '华语', '欧美', '韩国', '日本', '动作', '喜剧', '爱情', '科幻', '悬疑', '恐怖', '文艺'}i = 0for tag in tags: start = time.time() i += 1 url = "https://movie.douban.com/j/search_subjects" page_limit = 20 page_start = 0 params = { 'type': 'movie', 'tag': tag, 'sort': 'recommend', 'page_limit': str(page_limit), 'page_start': str(page_start) } response = requests.get(url, params=params) data = response.text post_info = att[tag] while(True): params = { 'type': 'movie', 'tag': tag, 'sort': 'recommend', 'page_limit': str(page_limit), 'page_start': str(page_start) } response = requests.get(url, params=params) if(response.text == '{"subjects":[]}'): break data = response.text movies = re.findall('"rate":"(.*?)",.*?,"title":"(.*?)","url":"(.*?)",.*?,"cover":"(.*?)",.*?,.*?,"is_new":(.*?)}', data) for movie in movies: #a = movie[2].replace('\\\\', '') tmp = { "rate": movie[0], "title": movie[1], "url": movie[2], "cover": movie[3], "is_new": movie[4] } post_info.insert(tmp) page_start += 20 time.sleep(1) end = time.time() print(tag + ": " + str(end - start) + '\n')# 反斜杠的处理 http://www.jb51.net/article/19740.htm
0 0
- 爬虫之路——Day3
- Mysql学习之路——day3
- python自动化之路-day3
- python学习之路Day3
- C++学习之路 day3
- IMWeb提升营 —Day3
- Python爬虫学习笔记Day3
- python自动化之路-day3.1
- 爬虫之路——DAY1
- 爬虫之路——DAY2
- 爬虫之路——Day4
- 查漏补缺,巩固基础——C++Primer之旅day3
- Day3之FunctionDemo2
- 《c++必知必会》学习心得——day3
- 福建省队集训被虐记——DAY3
- Jquery——Day3(高级事件)
- Jquery——Day3(动画效果)
- Java学习----day3——八大排序
- leetcode_c++:Divide and Conquer:. Search a 2D Matrix II(240)
- View树的绘图流程
- MongoDB学习笔记-数据导入Excel文件
- LeetCode OJ(6.ZigZag Conversion)
- mybatis---创建序列
- 爬虫之路——Day3
- 轻松突击ThreadLocal
- python中的五种异常处理机制介绍
- java nio理解(3)
- 操作系统中的信号量(sema)与互斥(mutex)
- 构造函数你真的看懂了吗
- 《图数据库》(人民邮电出版社)读书笔记一、二
- Android 高手进阶之自定义View,自定义属性(带进度的圆形进度条)
- True Nobility(《真正的高贵》)By Ernest Hemingway(海明威)