Nutch相关的资料
来源:互联网 发布:java零基础 编辑:程序博客网 时间:2024/05/13 16:25
Nutch相关的资料
┌─────────────────────────
│Nutch相关的资料 - 中文处理 (05年06月17日开始收集)
└─────────────────────────
http://issues.apache.org/jira/browse/NUTCH-36
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html
以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。
由Jack Tang于04-Apr-2005提出,是描述在Nutch搜索中加入中文支持的技术。
因为刚刚提出,没有成熟,需要探索才能使用,有点挑战!希望早日搞定!
Nutch JavaDoc Overview (Nutch 0.6 API)
Nutch的Java代码文档。
http://incubator.apache.org/nutch/apidocs/
Nutch Mailing Lists
Nutch的邮件列表。
http://incubator.apache.org/nutch/mailing_lists.html
Nutch - Tutorial
Nutch的教程。(入门必读!)
http://incubator.apache.org/nutch/tutorial.html
Nutch Wiki - Dissecting The Nutch Crawler
Nutch维基:分解Nutch爬虫。(有相当详尽的资料,值得研读!)
http://wiki.apache.org/nutch/DissectingTheNutchCrawler
Nutch Wiki - Distributed Web DB
Nutch维基:分布式网页数据库。
http://wiki.apache.org/nutch/DistributedWebDB
Nutch Wiki - Front Page
Nutch维基:入口。
http://wiki.apache.org/nutch/FrontPage
Nutch Wiki - Nutch Distributed File System
Nutch维基:Nutch分布式文件系统。
http://wiki.apache.org/nutch/NutchDistributedFileSystem
Nutch Wiki - Nutch File Formats
Nutch维基:Nutch文件格式。
http://wiki.apache.org/nutch/NutchFileFormats
Nutch Wiki - Web DB
Nutch维基:Nutch文件系统。(旧的版本!)
Nutch Wiki - Why Nutch Has A Plugin System
Nutch维基:讲述Nutch的插件系统,可惜不全。
http://wiki.apache.org/nutch/WhyNutchHasAPluginSystem
┌─────────────────────────
│Nutch相关的资料 - Online (05年06月08日开始收集)
└─────────────────────────
Nutch Documentation
This is not the offical nutch wiki, but some private collected documentation!!!
By Stefan Groschupf.
http://wiki.media-style.com/display/nutchDocu/Home
未知都是已知的 - Fenng's BLOG Nutch 初体验之一
什么是 Nutch ? Nutch 和 Larbin / Lucene 相比较有什么不同? 测试笔记。
http://www.dbanotes.net/archives/2005/01/nutch_aee.html
未知都是已知的 - Fenng's BLOG Nutch 初体验之二
介绍一下 Nutch 进行全网的爬行(Whole-web Crawling) 的操作测试过程以及注意事项。
http://www.dbanotes.net/archives/2005/01/nutch_aeeaeae.html
竹笋炒肉 - 试用Nutch
是作者对nutch的一些试用记录。作者认为,搭建网站时实现本站检索的最好的方案,是采用车东基于lucene的开源项目web lucene的软件包。而nutch似乎比较适合于建立垂直搜索引擎网站。
http://hedong.3322.org/archives/000247.html
Nutch - A Flexible and Scalable Open-Source Web Search Engine
(PDF File,是一篇Doug Cutting参与的描述Nutch的论文。)
http://labs.commerce.net/wiki/images/0/06/CN-TR-04-04.pdf
Nutch - Open Source Web Search Software
(PDF File,是一篇Doug Cutting的introduce Nutch的power point file。)
http://nutch.sourceforge.net/twiki/Main/Presentations/pisa2.pdf
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
关于“International Parser”,Doug Cutting replied to this thread.
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
关于Myanmar language analyzer。
http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
SatireWire Vearch - Vertical Search Engines
Known as "vearch" engines, these new players provide unprecedented speed and relevancy by cataloging a narrow selection of sites...
http://www.satirewire.com/news/0006/satire-vearch.shtml
<script type="text/javascript"><!--google_ad_client = "pub-3593204875158947";google_ad_width = 250;google_ad_height = 250;google_ad_format = "250x250_as";google_ad_type = "text_image";//2007-01-13: IdeaClubBodygoogle_ad_channel = "3252141990";google_color_border = "FFFFFF";google_color_bg = "FFFFFF";google_color_link = "0000CC";google_color_text = "000000";google_color_url = "000000";//--></script> <script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"></script> <iframe name="google_ads_frame" marginwidth="0" marginheight="0" src="http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-3593204875158947&dt=1182354904726&lmt=1182354904&prev_fmts=728x90_as&format=250x250_as&output=html&correlator=1182354904255&channel=3252141990&url=http%3A%2F%2Fwww.ideagrace.com%2Fclub%2Fread.php%3Ftid%3D329&color_bg=FFFFFF&color_text=000000&color_link=0000CC&color_url=000000&color_border=FFFFFF&ad_type=text_image&ref=http%3A%2F%2Fwww.baidu.com%2Fs%3Flm%3D0%26si%3D%26rn%3D10%26ie%3Dgb2312%26ct%3D0%26wd%3DNutch%26pn%3D10%26cl%3D3&cc=168&flash=9&u_h=768&u_w=1024&u_ah=738&u_aw=1024&u_cd=16&u_tz=480&u_java=true" frameborder="0" width="250" scrolling="no" height="250" allowtransparency="allowtransparency"></iframe>
┌─────────────────────────
│Nutch相关的资料 - 中文处理 (05年06月17日开始收集)
└─────────────────────────
http://issues.apache.org/jira/browse/NUTCH-36
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html
以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。
由Jack Tang于04-Apr-2005提出,是描述在Nutch搜索中加入中文支持的技术。
因为刚刚提出,没有成熟,需要探索才能使用,有点挑战!希望早日搞定!
Nutch JavaDoc Overview (Nutch 0.6 API)
Nutch的Java代码文档。
http://incubator.apache.org/nutch/apidocs/
Nutch Mailing Lists
Nutch的邮件列表。
http://incubator.apache.org/nutch/mailing_lists.html
Nutch - Tutorial
Nutch的教程。(入门必读!)
http://incubator.apache.org/nutch/tutorial.html
Nutch Wiki - Dissecting The Nutch Crawler
Nutch维基:分解Nutch爬虫。(有相当详尽的资料,值得研读!)
http://wiki.apache.org/nutch/DissectingTheNutchCrawler
Nutch Wiki - Distributed Web DB
Nutch维基:分布式网页数据库。
http://wiki.apache.org/nutch/DistributedWebDB
Nutch Wiki - Front Page
Nutch维基:入口。
http://wiki.apache.org/nutch/FrontPage
Nutch Wiki - Nutch Distributed File System
Nutch维基:Nutch分布式文件系统。
http://wiki.apache.org/nutch/NutchDistributedFileSystem
Nutch Wiki - Nutch File Formats
Nutch维基:Nutch文件格式。
http://wiki.apache.org/nutch/NutchFileFormats
Nutch Wiki - Web DB
Nutch维基:Nutch文件系统。(旧的版本!)
Nutch Wiki - Why Nutch Has A Plugin System
Nutch维基:讲述Nutch的插件系统,可惜不全。
http://wiki.apache.org/nutch/WhyNutchHasAPluginSystem
┌─────────────────────────
│Nutch相关的资料 - Online (05年06月08日开始收集)
└─────────────────────────
Nutch Documentation
This is not the offical nutch wiki, but some private collected documentation!!!
By Stefan Groschupf.
http://wiki.media-style.com/display/nutchDocu/Home
未知都是已知的 - Fenng's BLOG Nutch 初体验之一
什么是 Nutch ? Nutch 和 Larbin / Lucene 相比较有什么不同? 测试笔记。
http://www.dbanotes.net/archives/2005/01/nutch_aee.html
未知都是已知的 - Fenng's BLOG Nutch 初体验之二
介绍一下 Nutch 进行全网的爬行(Whole-web Crawling) 的操作测试过程以及注意事项。
http://www.dbanotes.net/archives/2005/01/nutch_aeeaeae.html
竹笋炒肉 - 试用Nutch
是作者对nutch的一些试用记录。作者认为,搭建网站时实现本站检索的最好的方案,是采用车东基于lucene的开源项目web lucene的软件包。而nutch似乎比较适合于建立垂直搜索引擎网站。
http://hedong.3322.org/archives/000247.html
Nutch - A Flexible and Scalable Open-Source Web Search Engine
(PDF File,是一篇Doug Cutting参与的描述Nutch的论文。)
http://labs.commerce.net/wiki/images/0/06/CN-TR-04-04.pdf
Nutch - Open Source Web Search Software
(PDF File,是一篇Doug Cutting的introduce Nutch的power point file。)
http://nutch.sourceforge.net/twiki/Main/Presentations/pisa2.pdf
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
关于“International Parser”,Doug Cutting replied to this thread.
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
关于Myanmar language analyzer。
http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
SatireWire Vearch - Vertical Search Engines
Known as "vearch" engines, these new players provide unprecedented speed and relevancy by cataloging a narrow selection of sites...
http://www.satirewire.com/news/0006/satire-vearch.shtml
- Nutch相关的资料
- Nutch相关的资料 - 中文处理(收藏)
- Solr 和Nutch的一些资料
- Nutch 相关 (三) Nutch的分词的架构
- nutch 学习资料
- ThreadLocal的相关资料
- SubVersion的相关资料
- jBPM相关的资料
- const的相关资料
- Oracle的相关资料
- FLEX的相关资料
- DTree 的相关资料
- Rainbow的相关资料
- ipv6的相关资料
- 操作系统相关的资料
- IAP的相关资料
- 机器人相关的资料
- gho 的相关资料
- LED背光学习_可变模式分数电荷泵实现低功耗手机LCD背光驱动方案
- SuperMan Return
- PDU(短信)收发格式对比
- Oracle时间格式讨论
- 豆豆的假期
- Nutch相关的资料
- 使用Ubuntu需要翻越的几座大山
- 项目管理的胡思乱想
- 项目中的遐想
- 我们为什么在一起?
- LED背光学习_标准和白光LED的基础知识与驱动
- xml基本概念A
- eclipse 中 Properties 文件编辑器插件的安装
- 一些有用的位操作