Larbin网络爬虫在Linux下的配置 ——终于搞定了

来源:互联网 发布:齐鲁软件大赛2017 编辑:程序博客网 时间:2024/04/30 03:42

我主机是Windows XP系统,又装了ReaHat虚拟机在上边(Labin目前好像还不支持Windows,不得已而为之)


1. labin-2.6.2解压缩 (on Windows XP)


2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)


3. ./adns/internal.h 568-571行注释掉;
   #include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
   注释掉PRINTFFORMAT(4,5) on line 323 325 327

4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)

5. VM->settings->share->add this file "larbin" in

6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch

我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!

爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!

原创粉丝点击