使用tidy_win32.zip转换GB2312编码的HTML页面
来源:互联网 发布:顶级域名免费注册 编辑:程序博客网 时间:2024/05/18 00:25
题记:
tidy我们并不陌生,之前的版本传说只能解析en编码的文件,最近由source组重新编写了一个适应
GB2312编码的tidy_win3版本!
下载地址:
www.w3cn.org/resource/down/2004/tidy_win32.zip
教程(从wc3n.org上Copy的):
软件说明
我们现在的网站大部分都是HTML的,如果希望将它们标准化,手工的一页一页修改非常麻烦。如果有一个工具能自动将HTML转换成符合标准的XHTML就好了。其实在这方面已经有许多商业和免费的工具软件可以使用,这里将要介绍的HTML Tidy 就是一个很基本但很有用的工具,它可以运行在多种平台上,而且是开放源代码的。
安装使用教程
第一步:下载软件;
第二步:解开压缩包到任意目录,可以看见文件夹里只有1个文件tidy.exe;
第三步:如果你双击这个文件没有任何反应,晕哦,它是需要在命令窗口输入指令运行的,要复习一下以前的dos命令了;
第四步:在"开始->程序->附件"中运行"命令提示符",打开命令窗口。进入你的安装目录,例如你安装在d:/tidy目录,就输入c:/<d: 回车;再输入d:/<cd tidy 回车
第五步:输入转换命令。例如要转换index.html
tidy -asxhtml index.html -big5 index.html
其中-asxhtml参数的意思是将HTML转换成符合标准的XHTML。-big5是指以big编码输入和输出文挡,-gb2312是指以gb2312编码输入和输出文挡。还有更多的参数可以使用,你可以输入tidy -help(或者-h)查看,如下图:
第六步:这样index.html就已经转换为符合XHTML标准的文挡了。
补充
阿捷试验了几个文挡,成功转换的并不多,不是tidy工具不好,而是我们的代码实在太不规范。tidy要求你的HTML文挡中的标签至少是按循序嵌套的。tidy好象只是做以下二件事情(可能更多):
- 1.将不成对的标签加上结束符"/",例如<br>转换为<br />,<img>转换为<img />
- 2.给所有属性值加引号。例如 <a href=http://www.w3cn.org>转换为<a href="http://www.w3cn.org">
tidy也有windows下可视化运行版本,等阿捷研究一下再介绍给大家。工具只是提高我们的工作效率,关键在于我们自己要明白应该怎么做。
- 使用tidy_win32.zip转换GB2312编码的HTML页面
- 使用tidy_win32.zip转换GB2312编码的HTML页面
- ASP中Utf-8与Gb2312编码转换乱码问题的解决方法 页面编码声明
- utf_8与GB2312编码的转换
- unicode编码转换gb2312编码
- 字符串和二进制数组转换、将HTML文件显示为页面的一部分、UTF8和GB2312之间的转换
- word转换HTML后 HTML编码是charset=x-cp20936怎么转换成gb2312
- 使用java的native2ascii工具命令来转换编码gbk,gb2312,utf-8
- 使用java的native2ascii工具命令来转换编码gbk,gb2312,utf-8【转】
- unicode utf-8 gb2312编码 使用C++相互转换的代码
- 字符编码和python使用encode,decode转换utf-8, gbk, gb2312的问题
- 编码为UTF-8的css文件、js文件、html文件批量转换成编码为GB2312的文件,两种编码可以互换
- html页面编码转换成中文
- python获取html编码GB2312中文乱码的问题
- 编码转换:怎样将 GB2312 编码的字符串转换为 ISO-8859-1 编码的字符串?
- url 编码转换(utf8 - gb2312)
- url 编码转换(utf8 - gb2312)
- GB2312和utf8编码转换
- Textbox回车时触发TextChanged的却触发其他Button的click的问题
- oracle 存储过程异常处理
- How to customize a link at your desktop in LINUX
- 在CSDN落脚了
- Weak Reference
- 使用tidy_win32.zip转换GB2312编码的HTML页面
- 经典语录
- 控制随机抽中几率
- 坚持下去不是因为我很坚强,而是因为我别无选择。(俞敏洪)
- MySQL管理常用命令记录
- 在这里的第一篇博客
- 指针的联姻规则
- 910
- 如何遍历目录中的文件?