[python]我的第一只爬虫
来源:互联网 发布:思创医惠 人工智能 编辑:程序博客网 时间:2024/06/02 07:11
我的第一只爬虫
数据源
[ 糗百 ] http://www.qiushibaike.com/hot/page/2
打开糗百主页,查看html源文件
代码
抓取作者名字
#coding=utf-8import urllibimport urllib2import repage = 2url = 'http://www.qiushibaike.com/hot/page/' + str(page)user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'headers = { 'User-Agent' : user_agent }try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode('utf-8') pattern = re.compile('<div.*?author.*?<a.*?</a>.*?<a.*?title="(.*?)">.*?<h2>(.*?)</h2>.*?</a>.*?</div>',re.S) items = re.findall(pattern,content) for item in items: print item[0]except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason
结果
Python 2.7.2 |EPD_free 7.2-2 (32-bit)| (default, Sep 14 2011, 11:02:05) [MSC v.1500 32 bit (Intel)] on win32Type "copyright", "credits" or "license()" for more information.>>> ================================ RESTART ================================>>> 挖鼻孔的老虎loser...........Dan喵@胖妞向阳河单名一个饭字欲湖冰心王爷有人陌路莫回。媚娘向阳河♂ART⌒oOㄣ季向晚哥哥这个冬天冻成狗哈哈大好时光王冰痕壞壊_智商都用来卖萌啦二女子、(驹迷)超越_后来!
1 0
- [python]我的第一只爬虫
- 我的第一只Python爬虫
- 我的第一只Python爬虫
- 我的第一只小爬虫
- 爬虫日记(一):我的第一只“爬虫”...
- 第一只python小爬虫
- 我的第一个Python爬虫
- 我的第一个python爬虫脚本
- python第一只爬虫:爬豆瓣top250
- 我写的第一个用Python写的爬虫
- 纪念我的第一个Python爬虫——图片
- 我的第一个小爬虫程序-python
- 我的第一个网页爬虫(python)
- 我的第一条爬虫
- 我的第一个爬虫
- 我的第一个爬虫
- 第一只爬虫---糗事百科
- Python爬虫学习:我的第一个爬虫—爬取贴吧感兴趣帖子的图片(大家都懂,哈哈)
- 移动平台对 meta 标签的定义
- JVM垃圾回收器常用参数介绍
- groovy学习资料收藏
- 第3周项目4(2) 换分币
- HDU_ACM_A+B for Input-Output Practice (II)
- [python]我的第一只爬虫
- 使用EventBus进行数据传递解析
- Material Design (二),TextInputLayout的使用
- C++函数返回临时变量的引用运行要出错
- 简单AsyncTask用法
- Java中 VO、 PO、DO、DTO、 BO、 QO、DAO、POJO的概念
- UVa 11111 - Generalized Matrioshkas
- java常用设计模式文章收集
- C++反汇编与逆向之识别main函数学习笔记