使用tidy_win32.zip转换GB2312编码的HTML页面

来源:互联网 发布:顶级域名免费注册 编辑:程序博客网 时间:2024/05/18 00:25

题记:

tidy我们并不陌生,之前的版本传说只能解析en编码的文件,最近由source组重新编写了一个适应

GB2312编码的tidy_win3版本!

下载地址:

www.w3cn.org/resource/down/2004/tidy_win32.zip

教程(从wc3n.org上Copy的):

软件说明

我们现在的网站大部分都是HTML的,如果希望将它们标准化,手工的一页一页修改非常麻烦。如果有一个工具能自动将HTML转换成符合标准的XHTML就好了。其实在这方面已经有许多商业和免费的工具软件可以使用,这里将要介绍的HTML Tidy 就是一个很基本但很有用的工具,它可以运行在多种平台上,而且是开放源代码的。

安装使用教程

第一步:下载软件;

第二步:解开压缩包到任意目录,可以看见文件夹里只有1个文件tidy.exe;

第三步:如果你双击这个文件没有任何反应,晕哦,它是需要在命令窗口输入指令运行的,要复习一下以前的dos命令了;

第四步:在"开始->程序->附件"中运行"命令提示符",打开命令窗口。进入你的安装目录,例如你安装在d:/tidy目录,就输入c:/<d: 回车;再输入d:/<cd tidy 回车

第五步:输入转换命令。例如要转换index.html

tidy -asxhtml index.html -big5 index.html

其中-asxhtml参数的意思是将HTML转换成符合标准的XHTML。-big5是指以big编码输入和输出文挡,-gb2312是指以gb2312编码输入和输出文挡。还有更多的参数可以使用,你可以输入tidy -help(或者-h)查看,如下图:

HTML tidy的命令参数

第六步:这样index.html就已经转换为符合XHTML标准的文挡了。

补充

阿捷试验了几个文挡,成功转换的并不多,不是tidy工具不好,而是我们的代码实在太不规范。tidy要求你的HTML文挡中的标签至少是按循序嵌套的。tidy好象只是做以下二件事情(可能更多):

  • 1.将不成对的标签加上结束符"/",例如<br>转换为<br />,<img>转换为<img />
  • 2.给所有属性值加引号。例如 <a href=http://www.w3cn.org>转换为<a href="http://www.w3cn.org">

tidy也有windows下可视化运行版本,等阿捷研究一下再介绍给大家。工具只是提高我们的工作效率,关键在于我们自己要明白应该怎么做。

原创粉丝点击