【网络爬虫】【python】网络爬虫(一):python爬虫概述
来源:互联网 发布:2016詹姆斯数据统计 编辑:程序博客网 时间:2024/04/27 07:09
python爬虫的实现方式:
1.简单点的urllib2 + regex,足够了,可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息……总结起来,两个函数:urllibw.urlopen()和re.compile()。其实对于正则解析html网页,python同样有和jsoup类似的工具包——BeautifulSoup,用好了同样比正则省事多了。同时BeautifulSoup还针对非结构化html标签有清洗功能,比如网页中标签不完整,有些源代码中出现起始标签而没有结束标签,html标签不完整会影响抓取结构化数据,通过BeautifulSoup先对源代码清洗,再分析获取内容。
进阶版本:异步爬取可以使用多线程、效率更高可以采用非阻塞方案tornado和curl可以实现非阻塞的下载。
2.成熟的开源爬虫框架scrapy,后边系列文章再写吧……不再多说了,网上对于这两种实现方式也有很多demo项目。
其实关于如何学习python爬虫,知乎有个话题《如何入门Python爬虫》:
http://www.zhihu.com/question/20899988
python爬虫系列部分先几个简单的例子开始,python工具库urllib2很多库函数已经帮我们做了之前java实现版的某些繁重工作和一些步骤,所以没必要再重复劳动。之后会再介绍scrapy框架。
关于scrapy,一个优秀的基于twisted开源爬虫框架,并且作为GSoC (Google Summer of Code),这个开源项目也是有很高的关注度的,该项目的版本也在不断更新。其实对于scrapy框架的学习,更多的可以参见官方文档,在这里也顺便推荐一个中文的scrapy学习资料:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html,来自github开源社区的几位学生,目前该文档大部分已经翻译完成,翻译质量不错,学scrapy的同时可以看下。
原创文章,转载请注明出处:http://blog.csdn.net/dianacody/article/details/39726007
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- python网络爬虫(一)
- python网络爬虫(一)
- python网络爬虫(一)
- 【python网络爬虫一】爬虫工作原理
- Python之网络爬虫一
- 写网络爬虫学python(一)
- python 网络爬虫(一) 简单demo
- 【Python】网络爬虫(一):pyquery一瞥
- [Python]网络爬虫(一):一些基本概念
- 学习python写网络爬虫(一)
- 学习Python之网络爬虫(一)
- Python 网络爬虫学习(一)
- python网络爬虫实战笔记(一)
- Python网络爬虫(一):初步了解
- Python网络爬虫学习笔记(一)
- Python网络爬虫(一):初步认识网络爬虫
- python网络爬虫-第一个网络爬虫
- C程序内存管理
- 安装gcc 3.4
- jq实现图片轮播:圆形焦点+左右控制+自动轮播
- 巨坑,PendingIntent.getBroadcast
- 【Java.ThirdParty】Apache Jakatra Commons
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- Android应用开发-小巫CSDN博客客户端之嵌入有米广告
- [Leetcode] Merge Two Sorted Lists
- 23个完整应用下载
- HTML, CSS学习笔记(完整版)
- 第三方框架(可信框架)
- KVO示例
- HDU 4815 Little Tiger vs. Deep Monkey 01背包
- IOS 代码规范