把heritrix抓取的网页在eclipse里读进,然后写出文件时出现乱码
来源:互联网 发布:论坛推广软件 编辑:程序博客网 时间:2024/05/10 13:33
herittrix抓取的网页(保存在一个文件里)用记事本打开显示正常,但把文件读入然后再写出另一个文件的时候,中文字符会出现乱码
原因:编码问题:保存的文件是用UTF-8的编码方式保存中文字符的,而eclipse使用GBK编码,这样就会出错
解决办法:在创建写入流的时候表明编码方式为UTF-8
Reader reader=null;
reader = new InputStreamReader(new FileInputStream(file),"utf-8");
更多详细内容见http://wenku.baidu.com/view/34cc347501f69e31433294d5.html?from_page=view&from_mod=copy_login
0 0
- 把heritrix抓取的网页在eclipse里读进,然后写出文件时出现乱码
- 网页抓取出现乱码
- 使用 python urllib2 抓取网页时出现乱码的解决方案
- heritrix抓取网页!
- 用记事本手写一个.jsp文件,然后在网页中打开中文显示乱码的解决方案
- CURL抓取网页时出现的问题
- Heritrix的多线程抓取
- Java网页抓取网页内容时,乱码问题的解决
- 用wget命令的爬虫功能抓取网页到本地文件,然后用grep命令分析文件。
- Heritrix在Eclipse下的配置方法
- 通过HtmlParser+Heritrix抓取PCONLINE网页(Heritrix篇)
- heritrix抓取动态网页mirror修正
- 基于Heritrix的增量抓取
- 基于Heritrix的增量抓取
- heritrix 抓取指定的html
- Heritrix 的主题抓取策略
- 【Heritrix基础教程】在Eclipse中配置Heritrix
- 抓取网页并存储在指定的文件中
- sxstrace.exe 工具的解决办法
- tiny6410 蜂鸣器字符设备驱动<2>
- 跨框架弹层
- Find the median of 2 sort ed array.
- .Java的垃圾回收机制(GC)
- 把heritrix抓取的网页在eclipse里读进,然后写出文件时出现乱码
- update-rc.d使用
- ruby on rails 指导入门 http://ihower.tw/rails3/firststep.html
- 剖析网页从浏览器输入地址到加载完毕的全过程——建立连接
- 练习题(2)
- 并发管理器2——OPP的概念
- weblogic eclipse 运行web应用程序
- 三十分钟掌握STL
- adb client, adb server, adbd原理浅析(附带我的操作过程)