Python 爬取豆瓣电影Top250(一)
来源:互联网 发布:淘宝店铺添加视频教程 编辑:程序博客网 时间:2024/06/04 17:46
from bs4 import BeautifulSoupimport requestsimport timeimport pymongo#创建数据库client = pymongo.MongoClient('localhost', 27017) #激活客户端douban = client['douban']url_list = douban['url_list']item_list = douban['item_info']start_url = ['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0, 250, 25)]urlone = 'https://movie.douban.com/top250?start=0&filter='#获取某页各电影的信息(影名,链接,评分,评论数,一句话影评)def get_index_url(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text, 'lxml') titles = soup.select('div.hd > a > span.title') links = soup.select('div > div.info > div.hd > a ') scores = soup.select('div.bd > div > span.rating_num') comments_count = soup.select('div > div.info > div.bd > div > span:nth-of-type(4)') film_review = soup.select('p.quote > span') # content > div > div.article > ol > li:nth-child(2) > div > div.info > div.bd > p.quote > span # print(film_review) ##content > div > div.article > ol > li:nth-child(1) > div > div.info > div.bd > div > span:nth-child(4) tt = [] #影名中有不规范的地方 for i in titles: if (i.get_text()[1]!= '/'): # print(i.get_text()) tt.append(i.get_text()) # print(tt) for title,link,score,comment,review in zip(tt, links, scores,comments_count,film_review): data = { 'title': title, 'link' : link.get('href'), 'score': score.get_text(), 'comments_count' : comment.get_text(), 'review_one': review.get_text() } print(data)get_index_url(urlone)# for i in start_url:# get_index_url(i)
阅读全文
0 0
- Python 爬取豆瓣电影Top250(一)
- Python爬虫实战(一):爬取豆瓣电影top250排名
- Python爬取豆瓣电影top250
- Python爬取豆瓣电影Top250数据
- python+beautifulsoup爬取豆瓣电影TOP250
- Python爬取豆瓣电影top250
- python爬取豆瓣电影Top250
- python爬取豆瓣电影top250
- python爬豆瓣电影Top250
- 用Python爬虫爬取豆瓣TOP250电影
- Python 采用Scrapy爬虫框架爬取豆瓣电影top250
- python中lxml+cssselect爬取豆瓣电影Top250
- [Python/爬虫]利用xpath爬取豆瓣电影top250
- python爬虫爬取豆瓣top250电影影评
- Scrapy教程(一)爬取豆瓣top250电影
- nodejs爬取豆瓣top250电影信息
- scrapy爬取豆瓣TOP250电影
- scrapy ------ 爬取豆瓣电影TOP250
- IT已死!联想和HTC能否涅槃重生?
- PHP开发者大会看房产O2O:技术将成为变革的重要驱动力
- 丰田“友情收购”波士顿动力,汽车公司更适合造机器人?
- HDU 5927 Auxiliary Set (DFS+模拟)
- PRML学习笔记-线性回归 Linear Regression
- Python 爬取豆瓣电影Top250(一)
- 接盘侠还是捡漏?丰田研究所收购波士顿动力分析
- 让我们坐上巴铁,回2010年看看当时的科技最佳发明
- 腾讯副总裁王波:连接释放潜力,“互联网+”为警务创新赋能
- nginx配置缓存限流
- Django错误:AttributeError: 'WSGIRequest' object has no attribute 'Post'
- SpringMVC之分析AnnotationDrivenBeanDefinitionParser(一)
- UE4 范围伤害RadiusDamage及碰撞检测通道ECollisionChanel
- strchr()的用法