python 爬虫初学项目一(80s电影网)
来源:互联网 发布:java程序设计培训 编辑:程序博客网 时间:2024/06/05 21:48
python 爬虫初学项目一(80s电影网)
初学python爬虫,第一篇博客,以后会不断更新。
- 爬取80s网站的电视剧的部分
- 爬取每个电视剧中每集的下载链接
- 做简单的输出打印
代码如下:
代码块
代码块语法遵循标准markdown代码,例如:
import requestsfrom bs4 import BeautifulSoupdef url_open(url): res = requests.get(url) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') return soupdef search_80s(number, first_url='http://www.80s.tw/ju/list/----0--p'): name = [] page = [] url = [] for i in range(1,number+1): url.append(first_url+str(i)) for i in range(len(url)): soup = url_open(url[i]) name_list = soup.select('h3 a')[:25] for line in name_list: name.append(line.text.strip()) page.append('http://www.80s.tw'+line['href']) return name,pagedef get_download_url(page): name = [] url = [] soup = url_open(page) every_name = soup.select('span a ') for line in every_name: name.append(line.text.strip()) url.append(line['href']) str1 = '豆瓣短评' if str1 in name: tmp_index = name.index('豆瓣短评') name = name[tmp_index+1:-6] url = url[tmp_index+1:-6] return name,urlname, page = search_80s(1)for i in range(len(name)): print(name[i],page[i]) dl_name, dl_url = get_download_url(page[i]) for j in range(len(dl_name)): print(dl_name[j], dl_url[j])
小弟初学python,写的爬虫代码可能的不太好,希望大家给点建议。
阅读全文
0 0
- python 爬虫初学项目一(80s电影网)
- 初学python,爬虫小项目
- Python爬虫初学(1)豆瓣电影top250评论数
- Python爬虫初学(2)豆瓣电影top250评论数
- python爬虫 豆瓣电影
- python豆瓣电影爬虫
- Python 爬虫个人记录(一)豆瓣电影250
- Python爬虫实战(一):爬取豆瓣电影top250排名
- python爬虫实现下载电影天堂电影
- python爬虫初学(2)
- 初学python,爬虫开刀
- 初学python爬虫
- 1. 初学python爬虫
- 初学python爬虫
- python爬虫初学
- Python爬虫豆瓣电影top250
- python实现80s爬虫+xunsearch使用
- Python爬虫初学(1)
- Python在控制台调试程序
- JAVA插入Windows32位mongoDB数据库sockect write error异常的解决
- THE POM for ... is missing,no dependency information available
- node.js的Express框架起步
- 获取子控件在父控件中下标
- python 爬虫初学项目一(80s电影网)
- 重新编辑regular expression match
- “腾讯分析”网站前端分析
- Hive删除数据库
- HDU 1102:Constructing Roads
- 该干嘛干嘛
- Myeclipse学习总结(13)——Eclipse/MyEclipse/IDEA中《阿里巴巴Java开发规约》插件使用指南
- MySql数据库-01MySql的安装
- CentOS7 minimal 最小化安装网络设置