arachnode.net终于跑起来了
来源:互联网 发布:福临门秋田小町 知乎 编辑:程序博客网 时间:2024/05/05 01:10
虽然我的NCrawler已经跑的很稳定了,但是毕竟这是一个正在开发的版本,还是想跑跑arachnode.net。毕竟这个爬虫是目前dot net下最完善的爬虫之一(应该是之一吧!不过别的我还真不清楚。)看看它的客户就知道多厉害了:NASA,FBI,MIT,斯坦福,哈佛,思科……
目前官网能够下载的arachnode.net版本是2.0的demo。没有细看,但是爬虫这一部分没有看到源码,就看到一个dll。所以我还是用的去年下载的1.2版,这个有完整的源码,虽然功能可能弱点。花了两天功夫才让它爬了起来,以下是配置的完整过程:
- 首先按照百度百科“Arachnode.net”词条的内容把该执行的斗志行了,该打开的都打开了。
- 在表“dbo.CrawlRequests”中添加需要怕的网站信息。注意起始地址“AbsoluteUri”字段有约束条件,不能包含"http://www",但是必须包含“http://”,且至少含有三个“/”。
- 在表“cfg.Configuration”中指定“DownloadedFilesDirectory”、“DownloadedImagesDirectory”、“DownloadedWebPagesDirectory”、“LuceneDotNetIndexDirectory”四个字段的值,都是本地磁盘目录路径。
- 在表“cfg.CrawlActions”中包含“LuceneDotNetIndexDirectory”的“Settings”行中给“LuceneDotNetIndexDirectory=”后面加上本地磁盘路径。不知道是否必须和上面的LuceneDotNetIndexDirectory一致。
可以开始跑了!!!哈哈
但是我看到还有console中还有红色字体报错……
- arachnode.net终于跑起来了
- 我的VE终于跑起来了
- 终于把Hello World!跑起来了
- WinCE7模拟器终于跑起来了
- 驱动终于跑起来了,做实验
- 终于把orbited跑起来了
- hbase单机终于跑起来了
- hbase终于跑起来了 续
- hbase终于跑起来了再续
- Velocity Example终于跑起来了。
- 终于,android 2.3.7 跑起来了
- MACOS终于在DELL D630上跑起来了
- 终于将官方网站的osgi demo跑起来了
- Windows Compact 7终于在板子上跑起来了!
- HomeworldSDL终于在Linux虚拟机上跑起来了
- 终于让minicef把Brackets这个编辑器跑起来了
- 【血泪】SDL终于移植成功,并且在模拟器上跑起来了 花了
- Eclipse 3.01 + JBoss 3.2.3 + Lomboz 3.0.1,第一个ejb终于跑起来了。
- 虚继承与虚基类的本质
- Lotus中的保留域
- NoSQ 非关系型的数据库
- 访问 IIS 元数据库失败。
- s3c2440的LCD应用
- arachnode.net终于跑起来了
- 如何将数据导入到 SQL Server Compact Edition 数据库中
- WTL 使用日志(一)
- Log4net 使用文档例子
- USACO 1.4.2 BFS 解法。
- Linux 2.6.19.x 内核编译配置选项简介
- js中替换字符的一些用法,传值,分割
- http://bbs.chinaunix.net/thread-1676942-8-1.html
- D3D啊~~为什么你这么麻烦