【旧】2004-1-28 1:25:59 软件技术前沿:关于XML和RSS(2) ——学习xml--《无废话xml》

来源:互联网 发布:windows找不到bat文件 编辑:程序博客网 时间:2024/05/17 04:44
软件技术前沿:关于XML和RSS(2)?——学习xml--《无废话xml》

2004年1月28日星期三?1时25分59秒
?Xml是个筐,什么都能往里装。第一次对XML有概念是在大富翁论坛,觉得没什么。又是一个泡沫,虽然很美丽,吹破了也只剩一滩水。

?标准的制定是一个比较有意思的事情。为什么要制定,如何协调各方面的利益,如何和现有系统兼容,如何保持扩展性

?晚上看了《无废话XML》,台湾人的确很会写书,深入浅出,生动有趣。呵呵,不过还是没什么概念。CSS不是什么新东西,HTML更不用说了,这个年代,什么都要炒作。

?简单说,XML就是类似于HTML的标记语言,但是语法更严格,要做到well-formed
?1.?标签tag必须关闭,也就是一定要配对
?2.?标签不能交叉,只能嵌套。(一直都很讨厌HTML的tag交叉,现在好了,终于出标准了)
?3.?所有属性要加引号(这是我常犯的毛病,从来不写引号,麻烦不好看)
?4.?通通小写。

?推行XML的目的
?1.?最关键的目的:为移动应用铺平道路。(这么深奥的道理居然都被我领悟了,牛!)晚上新闻里报道,香港已经开始提供3G服务了。对于五花八门,邋遢含糊的HTML代码以及各种各样的插件,需要一个非常庞大的浏览器程序来解释。而对于嵌入式设备,如手机、PDA,还有以后可能出现的智能家电,资源是非常有限的,恐怕就很难把这些网页按设计的原意显示出来。但移动应用恰好又是未来最有潜力的一个市场,资本家们是肯定不会放过的。


?关于字符编码,有点晕,总结一下

?ASCII???????1个byte?不废话了

?ISO8859-1???俗称的Latin-1?西欧字母??应该就是ASCII

?Unicode
?2个byte?前256=00+ASCII
?Unihan统汉字(中日韩)分布在0x3400-0x9FFF
?Big5和GB2312都在0x4E00-0x9FFF
?保留了0xD800-0xDFFF共2048个位置给代理对
?保留了0xE000-0xF8FF共6400个位置给私用区

?

?UTF-8??????
?不等长,1-3个byte
?Unicode转换到UTF-8按以下方式?
?0x0000-0x007F?不变?直接转为0x00-0x7F(1个byte)
?0x0080-0x07FF?->?B?110x?xxxx???10xx?xxxx
?0x0800-0xFFFF?->B?1110?xxxx???10xx?xxxx???10xx?xxxx
?UTF-8能够有效解决半个汉字的问题。UTF-16等双字节编码方式,必须从头开始扫描才能确定字符边界。一旦错位,必须到下一个ASCII才能恢复

?UTF-16
?基本和Unicode相同,但增加了代理对(surrogate?pairs)的概念。Unicode保留了0xD800-0xDFFF共2048个位置给代理对。这个区域又分为高低部,第一部分(高部)0xD800-0xDBFF,第二部分(低部)0xDC00-0xDFFF。这样通过高低部(4个字节)就可以容纳一百多万个字?(1024×1024)。加上原先不使用代理部的unicode字符,就构成了UTF-16。
?之所以高低部不重叠,也是为了解决多字节的边界问题。

?疑问:
?1.?很久以前(至少三年前)就有.shtml格式的文件,和xhtml有没有关系。查一下。
?2.以后的文件都保存为XML,作为通用格式??太弱了吧,简直是开玩笑。
?
windywong 发表于 >2004-1-28 1:25:59 保存该日志到本地