Python3爬虫入门之爬取豆瓣Top250电影名称
来源:互联网 发布:网络731代表什么意思 编辑:程序博客网 时间:2024/05/14 14:13
Python3爬虫入门之爬取豆瓣Top250电影名称
准备工具
- Python3.5
- requests
- BeautifulSoup
- lxml
最终效果
- 首先看一下网站的结构
可以很清楚的看到每个电影对应了一个<li>
标签,我们只需要一步一步的从<ol>
向下搜索,可以得到电影对应的名称,即<span class="titile">肖申克的救赎</span>
这一行 - 接着看一下网页内 后页按钮对应的代码结构
可以看出后一页的URL为https://movie.douban.com/top250?start=25&filter=
最后一页这没有这个标签 对应None
这样我们就可以进行翻页了
直接上代码 - 获取html代码
这里使用requests模块,获取很方便
import requests# 获取目标网页htmldef download_page(url):# 伪装成浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' } data = requests.get(url, headers=headers).content return data
- 解析html
获取到html源码后就要对其进行解析了,这里使用BeautifulSoup模块
from bs4 import BeautifulSoupURL='https://movie.douban.com/top250'# 解析html 方法一 (这里的写法参考了某博主的代码)def parse_html(html): # 获取BeautifulSoup 对象 soup = BeautifulSoup(html,'lxml') movie_name_list = [] # 先获取最外层ol movie_list_soup = soup.find('ol', attrs={'class':'grid_view'}) # 获取每个列表<li> for movie_li in movie_list_soup.find_all('li'): detail = movie_li.find('div', attrs={'class':'hd'}) movie_name = detail.find('span', attrs={'class':'title'}).getText()# 这里名称要用getText()获取相应内容 movie_name_list.append(movie_name) next_page = soup.find('span',attrs={'class':'next'}).find('a') if next_page: return movie_name_list,URL+next_page['href'] return movie_name_list,None
from bs4 import BeautifulSoupURL='https://movie.douban.com/top250'# 解析html方法2 这里用了一些BeautifulSoup的新特性 用起来比较方便def parse_html1(html): soup = BeautifulSoup(html, 'lxml'); movie_names = [] movie_list = soup.select('ol.grid_view li div.item div.info div.hd a') for movie_title in movie_list: movie_name = movie_title.find('span',class_='title') movie_names.append(movie_name.getText()) next_page = soup.find('span',class_='next').find('a') if next_page: return movie_names,URL+next_page['href'] return movie_names,None
- 汇总一下,并把获取到的名字列表写进文件中
import requestsfrom bs4 import BeautifulSoupURL='https://movie.douban.com/top250'# 获取目标网页htmldef download_page(url): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' } data = requests.get(url, headers=headers).content return data# 解析htmldef parse_html1(html): soup = BeautifulSoup(html, 'lxml'); movie_names = [] movie_list = soup.select('ol.grid_view li div.item div.info div.hd a') for movie_title in movie_list: movie_name = movie_title.find('span',class_='title') movie_names.append(movie_name.getText()) next_page = soup.find('span',class_='next').find('a') if next_page: return movie_names,URL+next_page['href'] return movie_names,Nonedef main(): url = URL with codecs.open('e:/movies.txt','wb',encoding='utf-8') as fp: while url: html = download_page(url) movies,url=parse_html1(html) for movie_name in movies: fp.write(movie_name) fp.write('\r\n')if __name__=='__main__': main()
0 0
- Python3爬虫入门之爬取豆瓣Top250电影名称
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
- Python3之爬虫爬取豆瓣读书Top250
- [python爬虫入门]爬取豆瓣电影排行榜top250
- Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
- python3爬取豆瓣书籍top250
- python3实战|python3爬取豆瓣top250备份到数据库
- python3 [入门基础实战] 爬虫入门之爬取豆瓣读书随笔页面
- python3 [入门基础实战] 爬虫入门之爬取豆瓣阅读中文电子书[热门排序]
- python3实现豆瓣top250电影信息爬取
- 用Python爬虫爬取豆瓣TOP250电影
- Python 采用Scrapy爬虫框架爬取豆瓣电影top250
- 爬虫框架scrapy,爬取豆瓣电影top250
- python爬虫实战 | 爬取豆瓣TOP250排名信息
- 【go语言爬虫】go语言爬取豆瓣电影top250
- [Python/爬虫]利用xpath爬取豆瓣电影top250
- Python爬虫实战(一):爬取豆瓣电影top250排名
- php爬虫爬取豆瓣电影top250内容
- rpm -ivh pdksh-5.2.14-37.el5_8.1.x86_64.rpm安装
- 如何将在Windows系统上写好的项目部署到Linux服务器上?
- PC104从出厂到开机
- java int和String 相互转换
- 173. Binary Search Tree Iterator
- Python3爬虫入门之爬取豆瓣Top250电影名称
- |POJ 3461|KMP|Oulipo
- Linux和Unix的区别
- Nginx实现反向代理负载均衡
- leetcode 376. Wiggle Subsequence
- AR/VR应用开发学习路线
- 栈
- 穷举法,实例2,啤酒和饮料
- Linux:包管理之RPM