网页抓取出现乱码

来源:互联网 发布:mac qq离线文件 编辑:程序博客网 时间:2024/04/29 19:50

  最近遇到从网页上抓取信息出现乱码,主要是一些不常见字体,引起的乱码,修改字符集仍然无效,于是在网上搜索,找到一篇http://blog.sina.com.cn/s/blog_3fe961ae0100nxoq.html,分析下,于是采取他的方法先下载下来然后再抓取,结果乱码去除了,但是,由于改网页不常见字很少,采取都下载下来再抓取未免会浪费很多时间,再则,我也没有透彻理解为什么下载下来乱码就解决了,以前也遇到过类似情况,一直不明原因,难道是字符流与字节流的原因?