爬虫整理与复习
来源:互联网 发布:mac os x 10.6 iso 编辑:程序博客网 时间:2024/06/07 05:36
之前学过了一阵子的爬虫,看的内容多且杂,彼时并未将内容融会贯通, 且各处收集代码较杂乱。
自己也写了一些,或是将网上的代码加以修改,当时是在Windows7的条件下均运行过至少一次可以达到预期效果。后转入ubuntu系统,现再次将之前所学代码系统得过一遍,达到复习效果的同时,使其亦可在linux上正常运行。
做了一些基本的准备:创建了一个本地仓库”several_crawlers”;爬虫需要爬取文件到本地,创建了一个文件夹’all’来保存这些文件,代码如下。
allfiledir.py
import osbasedir = os.path.abspath(os.path.dirname(__file__))allfilrdir = basedir + '/all'if not os.path.exists(allfilrdir): os.mkdir(allfilrdir)
1 0
- 爬虫整理与复习
- Struts2的笔记整理与复习
- css复习整理(一):选择器与创建
- 对二叉树的复习与整理
- 爬虫整理
- Java锁与性能相关知识复习与整理
- 阿里巴巴笔试题--二叉树(知识复习与整理)
- Java基础笔记的复习与整理--集合框…
- Java基础笔记的复习与整理---Socke…
- gdb调试复习整理及coredump的设置与解析
- 求职复习算法整理
- 线程知识复习整理
- Java反射复习整理
- 知识复习整理
- 金融法重点复习(整理)
- 操作系统复习整理
- 多线程的复习整理
- KMP复习整理
- 深入理解SELinux SEAndroid(第一部分)
- 获取attr属性的值和getDimension方法获取到资源文件中定义的dimension值
- Jmeter中利用BeanShell Sampler与控制台进行交互
- Oracle xmltype解决方案
- ubuntu下升级cmake
- 爬虫整理与复习
- Android自定义图表:ChartView
- 【Android基础】Android 手动显示和隐藏软键盘
- 嵌入式Android系统开发-未完待续
- 微信公众号开发可以参考
- js时间对象
- leetcode15:3Sum
- SESSION 数据入库
- volley的基本用法