Python爬虫爬取一篇韩寒新浪博客
来源:互联网 发布:美国网络恐怖组织 编辑:程序博客网 时间:2024/05/15 07:38
网上看到大神对Python爬虫爬到很多有用的信息,觉得很厉害,突然对想学Python爬虫,虽然自己没学过Python,但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频,共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客,第三集讲爬取全部博客。
看了视频,也留下了代码。
爬虫第一步:查看网页源代码:
第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>
对比其他博客的代码,找出公共部分“< title=‘’ ‘href=’,'.html'
代码为:
# -*- coding : -utf-8 -*-import urllibstr0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'title = str0.find(r'<a title')#print titlehref = str0.find(r'href=')#print hrefhtml = str0.find(r'.html')#print htmlurl = str0[href + 6:html + 5]print urlcontent = urllib.urlopen(url).read()#print contentfilename = url[-26:]print filenameopen(filename+'.html','w').write(content)print '下载成功!'
运行结果:
保存的文件:
0 0
- Python爬虫爬取一篇韩寒新浪博客
- Python爬虫爬取一页韩寒新浪博客
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
- 第一个Python爬虫,爬取某个新浪博客所有文章并保存为doc文档
- python开发新浪博客爬虫
- Python爬虫爬取博客访问量
- Python3爬虫韩寒新浪博客文章
- 第四课 Python爬虫简单爬取新浪新闻列表
- 使用python网络爬虫爬取新浪新闻(一)
- 【python 新浪微博爬虫】python 爬取新浪微博24小时热门话题top500
- python爬虫爬取csdn博客专家所有博客内容
- 【Python爬虫】爬取个人博客的图片
- Python爬取新浪微博热搜榜
- Python爬取新浪新闻
- python 爬虫——scrapy框架爬取新浪娱乐文本初探
- [python爬虫] Selenium爬取新浪微博内容及用户信息
- python爬虫——根据指定关键词爬取新浪微博
- [Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下)
- leetcode:Sqrt(x) 【Java】
- Android图片加载与缓存开源框架:Android Glide
- 菜鸟的Android之旅(二)——Activity(一)
- javascript 面向对象编程
- 2、数组(数据结构)
- Python爬虫爬取一篇韩寒新浪博客
- XAudio2学习七之工程迁移错误
- $.ajax属性及用法
- Linux 多线程与进程间通信 实例 1
- Swift快速入门(五)集合
- hybrid App开发中关于返回键的逻辑控制
- my97datepicker日期限制
- alarm and pause Functions
- Linux3.5内核以后的路由下一跳缓存