爬虫整理与复习

来源:互联网 发布:mac os x 10.6 iso 编辑:程序博客网 时间:2024/06/07 05:36

  之前学过了一阵子的爬虫,看的内容多且杂,彼时并未将内容融会贯通, 且各处收集代码较杂乱。
  自己也写了一些,或是将网上的代码加以修改,当时是在Windows7的条件下均运行过至少一次可以达到预期效果。后转入ubuntu系统,现再次将之前所学代码系统得过一遍,达到复习效果的同时,使其亦可在linux上正常运行。
    做了一些基本的准备:创建了一个本地仓库”several_crawlers”;爬虫需要爬取文件到本地,创建了一个文件夹’all’来保存这些文件,代码如下。

allfiledir.py

import osbasedir = os.path.abspath(os.path.dirname(__file__))allfilrdir = basedir + '/all'if not os.path.exists(allfilrdir):    os.mkdir(allfilrdir)
1 0
原创粉丝点击