python 爬虫随笔2
来源:互联网 发布:淘宝小号批量注册机 编辑:程序博客网 时间:2024/06/05 03:20
前言
- 这并没有写完
思路
- 实在没事做,就写了一个爬虫,主要是爬去我校pt站的图片,用以积累;以后就可以爬其他图站嘞;
- 实践了爬虫的基本思想;写pyspider的时候,也是这种很明显的思路
- 一个入口url,比如导航页之类的,然后从这个页面获取其他的url
- 到最终的详情页,我们爬取数据;
- 我们使用集合储存链接,然后让线程一直跑,这样的话,一有新的内容就可以得到,然后我们也就可以发邮件啊什么的通知自己了(只是说说,我是没实现);
代码
# -*- coding:utf-8 -*-import requestsfrom pyquery import PyQueryimport reimport urllib# def getImageUrl(list):# returndef downLoadImage():# headers headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Host': 'pt.cugb.edu.cn', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}# cookie cookies = {'c_secure_uid': 'NTQ5', ' c_secure_pass': '7d72b685dccd03101b9f7eb6344f7c76', ' letskillie6': 'false', ' c_secure_user_link_online': 'success'}# url url = 'http://pt.cugb.edu.cn/torrents.php'# 请求```python r = requests.get(url, cookies, headers=headers, cookies=cookies) # print r.text q = PyQuery(r.text) #获取详情连接列表 hrefList = list() for each in q('table.table-hover>tr>td:nth-child(2)>table>tr>td:nth-child(1)>a').items(): hrefList.append(each.attr.href) x = 0 for href in hrefList: r = requests.get("http://pt.cugb.edu.cn/"+href, cookies, headers=headers, cookies=cookies) # print r.text q = PyQuery(r.text) # print q('') for each in q('#main > table:nth-child(2) > tr> td.rowhead>a').items(): reg = r'src="(.*?\.jpg)"' imgre = re.compile(reg) imglist = re.findall(imgre, each.html()) print imglist[0] urllib.urlretrieve("http://pt.cugb.edu.cn"+imglist[0][0:], 'C:\imageSave/%s.jpg' % x) x +=1def getTitle(): # headers headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Host': 'pt.cugb.edu.cn', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'} # cookie cookies = {'c_secure_uid': 'NTQ5', ' c_secure_pass': '7d7', ' letskillie6': 'false', ' c_secure_user_link_online': 'success'} # url url = 'http://pt.cugb.edu.cn/torrents.php' # 请求 r = requests.get(url, cookies, headers=headers, cookies=cookies) # print r.text q = PyQuery(r.text) # 简单的获取首页的种子标题; for each in q('table.table-hover>tr>td:nth-child(2)>table>tr>td:nth-child(1)>a>b:nth-last-child(1)').items(): print each.html() print "\n"if __name__ == '__main__': downLoadImage() # getTitle()
阅读全文
0 0
- python 爬虫随笔2
- Python爬虫随笔1
- python爬虫随笔3 妹子图爬虫
- python随笔2
- python爬虫初学(2)
- python网络爬虫2
- python爬虫2
- [Python]网络爬虫2
- Python 爬虫学习2
- Python爬虫基础-2
- python爬虫练习2
- 网络爬虫随笔
- 分布式爬虫系统随笔
- Python爬虫----爬虫入门(2)
- Python随笔
- python 随笔
- python 随笔
- python-随笔
- Date类练习题(17/09/24)
- Service Worker初体验
- 请定义一个交通工具(Vehicle)的类...
- android studio 项目的包名有红线但不影响运行决解方法
- java笔记(三)
- python 爬虫随笔2
- 【牛客 题库】指针与常量字符串
- Polynomial addition Operation using C++
- [LeetCode]557. Reverse Words in a String III
- CodeForces
- 'startup' 不是内部或外部命令,也不是可运行的程序 或批处理文件。
- Leetcode-Sprial Matrix II
- 服务器没空间的“外包”馊主意
- 1-2-3