Python爬虫爬取一篇韩寒新浪博客

来源:互联网 发布:美国网络恐怖组织 编辑:程序博客网 时间:2024/05/15 07:38



网上看到大神对Python爬虫爬到很多有用的信息,觉得很厉害,突然对想学Python爬虫,虽然自己没学过Python,但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频,共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客,第三集讲爬取全部博客。

看了视频,也留下了代码。

爬虫第一步:查看网页源代码:

第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>

对比其他博客的代码,找出公共部分“< title=‘’ ‘href=’,'.html'


代码为:

# -*- coding : -utf-8 -*-import urllibstr0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'title = str0.find(r'<a title')#print titlehref = str0.find(r'href=')#print hrefhtml = str0.find(r'.html')#print htmlurl = str0[href + 6:html + 5]print urlcontent = urllib.urlopen(url).read()#print contentfilename = url[-26:]print filenameopen(filename+'.html','w').write(content)print '下载成功!'

运行结果:




保存的文件:


0 0
原创粉丝点击