数据抓取总结

来源:互联网 发布:redhat linux iso下载 编辑:程序博客网 时间:2024/05/18 02:43

关于爬虫的架构,经验,以及分享
http://brucedone.com/archives/937
动态页面抓取(注意效率):
http://blog.csdn.net/zcc_0015/article/details/50814431
http://blog.chinaunix.net/uid-22414998-id-3692113.html
http://blog.chinaunix.net/uid-22414998-id-3695673.html
开源软件汇总:
http://blog.chinaunix.net/uid-22414998-id-3774291.html
scrapy中的一些坑:
1。extract()方法得到的都是数组
2。re的正则表达式需要写好完全的匹配模式
3。注意怎么防止被ban掉
4。urllib.urlretrieve(absoluteSrc, file_path)保存大(内容)照片时,容易保存不完整,导致无法正确打开。可以保存小(内容)照片。

0 0
原创粉丝点击