【网络爬虫】【python】网络爬虫（一）：python爬虫概述

来源：互联网发布：2016詹姆斯数据统计编辑：程序博客网时间：2024/04/27 07:09

python爬虫的实现方式：

1.简单点的urllib2 + regex，足够了，可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多，把网页拉回来，再正则regex解析信息……总结起来，两个函数：urllibw.urlopen()和re.compile()。其实对于正则解析html网页，python同样有和jsoup类似的工具包——BeautifulSoup，用好了同样比正则省事多了。同时BeautifulSoup还针对非结构化html标签有清洗功能，比如网页中标签不完整，有些源代码中出现起始标签而没有结束标签，html标签不完整会影响抓取结构化数据，通过BeautifulSoup先对源代码清洗，再分析获取内容。

进阶版本：异步爬取可以使用多线程、效率更高可以采用非阻塞方案tornado和curl可以实现非阻塞的下载。

2.成熟的开源爬虫框架scrapy，后边系列文章再写吧……不再多说了，网上对于这两种实现方式也有很多demo项目。

其实关于如何学习python爬虫，知乎有个话题《如何入门Python爬虫》：

http://www.zhihu.com/question/20899988

python爬虫系列部分先几个简单的例子开始，python工具库urllib2很多库函数已经帮我们做了之前java实现版的某些繁重工作和一些步骤，所以没必要再重复劳动。之后会再介绍scrapy框架。

关于scrapy，一个优秀的基于twisted开源爬虫框架，并且作为GSoC (Google Summer of Code)，这个开源项目也是有很高的关注度的，该项目的版本也在不断更新。其实对于scrapy框架的学习，更多的可以参见官方文档，在这里也顺便推荐一个中文的scrapy学习资料：http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html，来自github开源社区的几位学生，目前该文档大部分已经翻译完成，翻译质量不错，学scrapy的同时可以看下。

原创文章，转载请注明出处：http://blog.csdn.net/dianacody/article/details/39726007

0 0