Python爬虫爬取一篇韩寒新浪博客

来源：互联网发布：美国网络恐怖组织编辑：程序博客网时间：2024/05/15 07:38

网上看到大神对Python爬虫爬到很多有用的信息，觉得很厉害，突然对想学Python爬虫，虽然自己没学过Python，但在网上找了一些资料看了一下，看到爬取韩寒新浪博客的视频，共三集，第一节讲爬取一篇博客，第二节讲爬取一页博客，第三集讲爬取全部博客。

看了视频，也留下了代码。

爬虫第一步：查看网页源代码：

第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>

对比其他博客的代码，找出公共部分“< title=‘’ ‘href=’,'.html'

代码为：

# -*- coding : -utf-8 -*-import urllibstr0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'title = str0.find(r'<a title')#print titlehref = str0.find(r'href=')#print hrefhtml = str0.find(r'.html')#print htmlurl = str0[href + 6:html + 5]print urlcontent = urllib.urlopen(url).read()#print contentfilename = url[-26:]print filenameopen(filename+'.html','w').write(content)print '下载成功！'

运行结果：

保存的文件：

0 0