【旧】2004-1-27 13:53:44 软件技术前沿:关于XML和RSS(1) ——初步分析Newz Crawler
来源:互联网 发布:windows找不到bat文件 编辑:程序博客网 时间:2024/04/28 04:13
软件技术前沿:关于XML和RSS(1) ——初步分析Newz Crawler
Newz Crawler不好用,对中文支持太差,headline经常变空,频道标题也变没了。
看来还得自己写一个。
Newz Crawler不好用,对中文支持太差,headline经常变空,频道标题也变没了。
看来还得自己写一个。
昨晚研究了一下它的数据格式,比较简单。
每个文件对应一个主文件夹,文件内容就是主文件夹里面的频道和其对应的文件名。
如news.ncw
每个频道对应feed目录下的一个文件
{17C1E396-1C2F-4E34-B106-7940E3933454}.ncn
xxx.ncn的内容就是标题和离线的数据。
如果自己写,有几个问题需要仔细考虑
1.数据存储的格式。如果数据量相当大的话,比如一年的离线数据,用单个文件存储是否恰当。
2.新回贴如何处理。对于blog可能不是很重要,但对论坛来说比较关键,直接关系到论坛的人气和提问的效率。
3.如何支持现有的论坛,尽量少改动现有代码。现有论坛大致分为两种风格。一种是平面型,所有的回贴都是跟在主贴后,仅有时间先后关系。另一种为树型结构,可以对回贴再进行回复,所有的回贴构成一个树。个人认为后一种人气比较高,比较符合自然的思维习惯,但是实现起来很麻烦。
4.关于RSS协议分析和实现只是工作量的问题,不存在技术难度。
- 【旧】2004-1-27 13:53:44 软件技术前沿:关于XML和RSS(1) ——初步分析Newz Crawler
- 【旧】2004-1-28 1:25:59 软件技术前沿:关于XML和RSS(2) ——学习xml--《无废话xml》
- 【旧】2004-1-26 15:46:03 技术随笔:关于blog和RSS
- python crawler(1)
- python crawler(1)
- python crawler(1)
- 【前端前沿看点】weex和react native的原生开发之争——对比分析
- Crawler——链接爬虫
- 关于wiki和Rss
- 关于彩信和RSS
- 关于android单元测试结合SAX解析xml文件初步分析
- 地震局office自动化软件技术要点分析(1)
- Java学习----day4——(1)关于栈内存和堆内存的初步了解
- 关于RSS技术 和应用
- android关于AndroidManifest.xml详细分析+1
- 关于RSS订阅功能的实现与初步认识
- plug.xml文件初步分析
- jsp中实现读取RSS——SAX解析XML
- 制作自己的网页快捷图标
- 【旧】2004-1-26 15:46:03 技术随笔:关于blog和RSS
- 生活在美国:最常有用的英语口语900句
- 第一次尝试BLOG!
- 【旧】2004-1-27 11:28:39 损失惨重!(大年初六)
- 【旧】2004-1-27 13:53:44 软件技术前沿:关于XML和RSS(1) ——初步分析Newz Crawler
- 一路上演出,难得糊涂; 一路上回顾,难得麻木;谁能把握生命的长度,永恒有多恐怖
- 【旧】2004-1-28 1:25:59 软件技术前沿:关于XML和RSS(2) ——学习xml--《无废话xml》
- 生活在美国:最常有用的英语口语900句
- 【旧】2004-2-4
- 【旧】2004-2-7
- .net 开发人员应必须拥有的10个工具
- 【旧】2004-4-6 0:51:39 开始研究VC
- BOOST学习