【旧】2004-1-28 1:25:59 软件技术前沿：关于XML和RSS(2) ——学习xml--《无废话xml》

来源：互联网发布：windows找不到bat文件编辑：程序博客网时间：2024/05/17 04:44

软件技术前沿：关于XML和RSS(2)?——学习xml--《无废话xml》

2004年1月28日星期三?1时25分59秒
?Xml是个筐，什么都能往里装。第一次对XML有概念是在大富翁论坛，觉得没什么。又是一个泡沫，虽然很美丽，吹破了也只剩一滩水。

?标准的制定是一个比较有意思的事情。为什么要制定，如何协调各方面的利益，如何和现有系统兼容，如何保持扩展性

?晚上看了《无废话XML》，台湾人的确很会写书，深入浅出，生动有趣。呵呵，不过还是没什么概念。CSS不是什么新东西，HTML更不用说了，这个年代，什么都要炒作。

?简单说，XML就是类似于HTML的标记语言，但是语法更严格，要做到well-formed
?1.?标签tag必须关闭，也就是一定要配对
?2.?标签不能交叉，只能嵌套。（一直都很讨厌HTML的tag交叉，现在好了，终于出标准了）
?3.?所有属性要加引号（这是我常犯的毛病，从来不写引号，麻烦不好看）
?4.?通通小写。

?推行XML的目的
?1.?最关键的目的：为移动应用铺平道路。（这么深奥的道理居然都被我领悟了，牛！）晚上新闻里报道，香港已经开始提供3G服务了。对于五花八门，邋遢含糊的HTML代码以及各种各样的插件，需要一个非常庞大的浏览器程序来解释。而对于嵌入式设备，如手机、PDA，还有以后可能出现的智能家电，资源是非常有限的，恐怕就很难把这些网页按设计的原意显示出来。但移动应用恰好又是未来最有潜力的一个市场，资本家们是肯定不会放过的。

?关于字符编码，有点晕，总结一下

?ASCII???????1个byte?不废话了

?ISO8859-1???俗称的Latin-1?西欧字母??应该就是ASCII

?Unicode
?2个byte?前256=00+ASCII
?Unihan统汉字（中日韩）分布在0x3400-0x9FFF
?Big5和GB2312都在0x4E00-0x9FFF
?保留了0xD800-0xDFFF共2048个位置给代理对
?保留了0xE000-0xF8FF共6400个位置给私用区

?UTF-8??????
?不等长，1-3个byte
?Unicode转换到UTF-8按以下方式?
?0x0000-0x007F?不变?直接转为0x00-0x7F(1个byte)
?0x0080-0x07FF?->?B?110x?xxxx???10xx?xxxx
?0x0800-0xFFFF?->B?1110?xxxx???10xx?xxxx???10xx?xxxx
?UTF-8能够有效解决半个汉字的问题。UTF-16等双字节编码方式，必须从头开始扫描才能确定字符边界。一旦错位，必须到下一个ASCII才能恢复

?UTF-16
?基本和Unicode相同，但增加了代理对（surrogate?pairs）的概念。Unicode保留了0xD800-0xDFFF共2048个位置给代理对。这个区域又分为高低部，第一部分（高部）0xD800-0xDBFF，第二部分（低部）0xDC00-0xDFFF。这样通过高低部（4个字节）就可以容纳一百多万个字?（1024×1024）。加上原先不使用代理部的unicode字符，就构成了UTF-16。
?之所以高低部不重叠，也是为了解决多字节的边界问题。

?疑问：
?1.?很久以前（至少三年前）就有.shtml格式的文件，和xhtml有没有关系。查一下。
?2.以后的文件都保存为XML，作为通用格式？？太弱了吧，简直是开玩笑。
?
windywong 发表于 >2004-1-28 1:25:59←