认识和处理BOM头

来源:互联网 发布:如何自学数控编程 编辑:程序博客网 时间:2024/05/19 10:41

了解BOM头的处理方法


  类似WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符:

0xEF 0xBB 0xBF,即BOM)


  它是一串隐藏的字符,用于让记事本等编辑器识别这个文件是否以UTF-8编码。对于一般的文件,这样并不会产生什么麻烦。但对于 PHP来说,BOM是个大麻烦。 


  PHP并不会忽略BOM,所以在读取、包含或者引用这些文件时,会把BOM作为该文件开头正文的一部分。根据嵌入式语言的特点,这串字符将被直接执行(显示)出来。由此造成即使页面的 top padding 设置为0,也无法让整个网页紧贴浏览器顶部,因为在html一开头有这3个字符呢!


  在Linux下可以使用sed命令去除BOM头:

sed -i 's/\xEF\xBB\xBF//' FILE_NAME# 命令解释:# -i:直接修改文件内容# 单引号括起来的字符串是文件处理脚本script# 第一个字符's'是取代的意思,通过其后面的正则表达式来进行处理,由两个'/'分割;  此处为"/\xEF\xBB\xBF/",其中'\xEF'表示匹配十六进制'0xEF'# 最后一个'/'后面跟随替换的新文本,此处为空,则表示删除

sed 的『 -i 』选项可以直接修改文件内容,这功能非常有帮助!举例来说,如果你有一个 100 万行的文件,你要在第 100 行加某些文字,此时使用 vim 可能会疯掉!因为文件太大了!那怎办?就利用 sed 啊!透过 sed 直接修改/取代的功能,你甚至不需要使用 vim 去修订!


检测BOM文件

$ grep -r -I -l $'^\xEF\xBB\xBF' /path

查看BOM文件的BOM头

$ hexdump -C FILE_NAME

这里写图片描述


遍历目录删除所有BOM文件

新建dir.sh文件,名字随意更改,记得上下一致

#! /bin/bashfunction read_dir(){    echo '开始搜索BOM文件'    del="d"    for file in `grep -r -I -l $'^\xEF\xBB\xBF' $1`    do        echo $file        if test "$2"x = "$del"x        then            echo '去除BOM头'            `sed -i 's/\xEF\xBB\xBF//' $file`            echo '去除完成'        fi    done    echo '搜索结束'}read_dir $1 $2

使用方法:

$ ./dir.sh FILE_NAME [d]# 如果不加参数[d]则默认显示所有BOM文件,加上便会将BOM头删除

使用vim处理BOM头

一、打开文件

$ vi bom.txt

二、检测bom头

:set bomb?

三、设置bom头

:set bomb

四、删除bom头

:set nobomb
0 0
原创粉丝点击