把heritrix抓取的网页在eclipse里读进,然后写出文件时出现乱码

来源:互联网 发布:论坛推广软件 编辑:程序博客网 时间:2024/05/10 13:33

herittrix抓取的网页(保存在一个文件里)用记事本打开显示正常,但把文件读入然后再写出另一个文件的时候,中文字符会出现乱码

原因:编码问题:保存的文件是用UTF-8的编码方式保存中文字符的,而eclipse使用GBK编码,这样就会出错

解决办法:在创建写入流的时候表明编码方式为UTF-8

Reader reader=null;

reader = new InputStreamReader(new FileInputStream(file),"utf-8");

更多详细内容见http://wenku.baidu.com/view/34cc347501f69e31433294d5.html?from_page=view&from_mod=copy_login

0 0
原创粉丝点击