Python爬虫实践(九):第一个爬虫实例(简书首页)

来源:互联网 发布:独立分销商城源码 编辑:程序博客网 时间:2024/05/01 18:54

做一个简单的爬虫,简单的不能再简单

这里选取简书首页,爬取各个文章标题,由于不需要登录,所以无需Cookie,简书的网页源代码下载也无需设置headers



在简书的首页按 F12,查看页面元素Element,可以看到我们所需要爬取的内容夹在了 <h4 ....>..<a...>XXXXX</a>  之间

所以,pattern我们可以这么写:

pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)

完整代码:

# _*_ coding:utf-8 _*_import urllibimport urllib2import reurl='http://www.jianshu.com/'request = urllib2.Request(url)response=urllib2.urlopen(request)# print response.read()content = response.read()pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)items=re.findall(pattern,content)for item in items:    print item

运行结果:

一个1号店前员工看京东收购我是怎么教英语学英语的?吐血整理,全是干货,绝对受益读懂这6条建议,你的大学才经得起挥霍。先别急着结婚,想清楚这10个关键问题再决定简书早报160622——《一个1号店前员工看京东收购》想追求Ta?你大胆去追,但千万别求我月收入三千,就不能喝星巴克的咖啡了?和傻逼做朋友是不道德的我希望这部国产片永远不在国内公映征集贴:知世故而不世故|三句足矣如何利用思维导图认识自己?简书播客#第十九期 谁说爱就不会伤害,但凡感情未必不是有伤也有爱给你15㎡的卧室,你会如何软装?如何找到热爱的工作?大学里应该知道的事情:爱情篇给简书找BUG赢好礼16.06.16——简书android 1.11.0公测教你如何玩转抓娃娃机攻略你所爱的人,正是你内心深处的另一个自己。《简书周刊076·自己动手,丰衣足食》上线放弃吧,他只是一个不可能的人。


0 0