使用python抓取豆瓣电影信息
来源:互联网 发布:caffe loss值不变 编辑:程序博客网 时间:2024/04/29 18:44
#!/usr/bin/env python2.7# encoding=utf-8"""爬取豆瓣电影TOP250 - 完整示例代码"""import codecsimport requestsfrom bs4 import BeautifulSoupDOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url): return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36' }).contentdef parse_html(html): soup = BeautifulSoup(html) movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'}) movie_name_list = [] for movie_li in movie_list_soup.find_all('li'): detail = movie_li.find('div', attrs={'class': 'hd'}) movie_name = detail.find('span', attrs={'class': 'title'}).getText() movie_name_list.append(movie_name) next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main(): url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url: html = download_page(url) movies, url = parse_html(html) fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__': main()
简单说明下,在目录下会生成一个文档存放电影名。python2
0 0
- 使用python抓取豆瓣电影信息
- python抓取豆瓣电影
- [Python]抓取豆瓣电影列表的标题
- Python抓取电影天堂电影信息
- 简单抓取豆瓣电影
- 抓取豆瓣电影
- 【python】自动获取豆瓣电影信息
- python爬取豆瓣电影信息
- python爬虫之获取豆瓣电影信息
- python爬取豆瓣电影信息
- 入门级爬虫 抓取豆瓣top250 的电影信息
- Python之简单抓取豆瓣读书信息
- 用python学习抓取借鉴取豆瓣电影top250
- 使用scrapy、selenium、phantojs抓取豆瓣热门电影的spider
- 豆瓣获取电影信息
- Pyhton抓取豆瓣电影示例
- 豆瓣电影Top250基本信息抓取
- 豆瓣电影Top250基本信息抓取
- Django-- HttpResponse
- 玄学曲线并不玄 教你如何看懂GPU呈现
- 关于Action里面传值的问题
- 设计模式基本原则
- Qt5 模块简介
- 使用python抓取豆瓣电影信息
- ORACLE临时表总结
- Swift中面向协议的Segue Identifiers
- code::blocks 在linux下的安装 全过程
- android--------关于ActionBar的Overflow问题
- 杂谈(1)
- echo 颜色设置
- 强烈推荐!帮你从零开始全面掌握UI设计的配色方法
- 将二进制转换成16进制