【旧】2004-1-27 13:53:44 软件技术前沿:关于XML和RSS(1) ——初步分析Newz Crawler

来源:互联网 发布:windows找不到bat文件 编辑:程序博客网 时间:2024/04/28 04:13
软件技术前沿:关于XML和RSS(1)  ——初步分析Newz Crawler

Newz Crawler不好用,对中文支持太差,headline经常变空,频道标题也变没了。
 看来还得自己写一个。

 昨晚研究了一下它的数据格式,比较简单。
 每个文件对应一个主文件夹,文件内容就是主文件夹里面的频道和其对应的文件名。
 如news.ncw

 每个频道对应feed目录下的一个文件
 {17C1E396-1C2F-4E34-B106-7940E3933454}.ncn

 xxx.ncn的内容就是标题和离线的数据。


 如果自己写,有几个问题需要仔细考虑

 1.数据存储的格式。如果数据量相当大的话,比如一年的离线数据,用单个文件存储是否恰当。

 2.新回贴如何处理。对于blog可能不是很重要,但对论坛来说比较关键,直接关系到论坛的人气和提问的效率。

 3.如何支持现有的论坛,尽量少改动现有代码。现有论坛大致分为两种风格。一种是平面型,所有的回贴都是跟在主贴后,仅有时间先后关系。另一种为树型结构,可以对回贴再进行回复,所有的回贴构成一个树。个人认为后一种人气比较高,比较符合自然的思维习惯,但是实现起来很麻烦。

 4.关于RSS协议分析和实现只是工作量的问题,不存在技术难度。