程序博客网 > 图片转word软件

网页编码识别

来源：互联网发布：图片转word软件编辑：程序博客网时间：2024/05/12 23:18

因采集需求，想解决网页编码识别问题。网上提出了很多方法。比如根据文件头字节判断，或根据网页的charset标识符判断。

我在实际应用中，这些方法都有各自的不足，比如有的网页charset写的是gbk，但实际是utf8。

于是想了一个个人认为比较新鲜的方法。将html下载回来后，做一份utf8副本和一份gbk副本，然后将utf8转换为bytes，判断bytes内是否有乱码标识（连续三个byte表示为239 191 189），如果有，则表示为乱码，直接使用gbk，如果没有，则表示没有乱码，直接使用utf8。

下面看看我的代码：

获取html：

var data = new System.Net.WebClient { }.DownloadData(this.textBox1.Text); //根据textBox1的网址下载htmlvar r_utf8 = new System.IO.StreamReader(new System.IO.MemoryStream(data),Encoding.UTF8); //将html放到utf8编码的StreamReader内var r_gbk = new System.IO.StreamReader(new System.IO.MemoryStream(data), Encoding.Default); //将html放到gbk编码的StreamReader内var t_utf8 = r_utf8.ReadToEnd(); //读出html内容var t_gbk = r_gbk.ReadToEnd(); //读出html内容if (!isLuan(t_utf8)) //判断utf8是否有乱码{htm = t_utf8;this.Text = "utf8";}else{htm = t_gbk;this.Text = "gbk";}this.textBox2.Text = htm;

判断是否有乱码：

bool isLuan(string txt)
{
var bytes = Encoding.UTF8.GetBytes(txt);
//239 191 189
for (var i = 0; i < bytes.Length; i++)
{
if(i < bytes.Length - 3)
if (bytes[i] == 239 && bytes[i + 1] == 191 && bytes[i + 2] == 189)
{
return true;
}
}
return false;
}

以上介绍的就是c# 获取网页源码，自动判断编码格式方法，希望对你有所帮助。

0 0

图片转word软件

图片转word软件

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子一公顷等于几亩一亩换算一亩地是怎么算的一亩地是多少米一亩园皮包怎么样一顷地是多少亩一亩为多少平米一亩等于几平方千米一亩田农庄一亩等多少平方米一亩梁田一亩园皮具一亩田是多少平方一亩田等于多少平方一亩等于多少吨一亩地等于多少公顷一亩酒业一亩地是多少平方米换算一亩泉白酒价格一公里等于多少亩随身带着一亩地txt 一亩田鸡蛋网一亩地大棚一亩地等于多少分一亩地有多少平方米一亩地需要多少麦种一亩田蛋鸡网一亩地蔬菜一公顷是几亩地一公顷多少亩地一亩地是多长多宽一亩田养鸡网一亩地等于多少米花生一亩地产量多少一亩田歌词一亩地能产多少棉花一亩田能产多少斤莲藕一亩地多大面积一亩地种多少核桃树一亩地合多少平方米一亩地玉米秸秆产量