Jsoup 采集回来的信息出现乱码
来源:互联网 发布:道客巴巴软件 编辑:程序博客网 时间:2024/05/16 09:19
一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。
你可以不用jsoup.connect,这个会从html描述中识别。
你可以用Jsoup.parse(InputStream in, String charsetName, String baseUri) 的方式从一个流中读取,charsetName选择合适的编码。
如:
String url = "http://xxxxxxx";
Document document = Jsoup.parse(new URL(url).openStream(), "GBK", url);
//你可以试试GBK或UTF-8p.s.
编码问题: new String(docStr.getBytes("ISO8859-1"), "UTF-8"); 方式绝对不是正确解决之道
0 0
- Jsoup 采集回来的信息出现乱码
- 使用Jsoup采集拉勾网招聘信息
- webView显示请求回来的H5代码出现乱码
- 关于jsoup抓取html空格出现乱码的解决办法
- 采集baidu搜索信息的java源代码实现(使用了htmlunit和Jsoup)
- 解决采集UTF-8出现乱码的问题
- Jsoup 获取网络信息出现UnKnownHostException
- 使用JSoup+CSSPath采集和讯网人物信息
- 出现Java.lang.NoClassDefFoundError:org.jsoup.Jsoup的解决办法
- Jsoup解析HTML中 出现乱码问题解决办法
- Flume采集数据到HDFS时,生成的文件中,开头信息有乱码
- 网页信息抓取进阶 Jsoup的不足之处
- 网页信息抓取进阶 Jsoup的不足之处
- 信息采集的难点是什么?
- 简易的网站信息采集
- 服务器流量信息的采集
- 某票务平台的信息采集
- 采集信息和分析信息的代码
- Tomcat各目录(文件)的作用
- 浮点编码
- 整理音乐
- RecyclerView listview 内嵌Edittext被键盘遮挡
- 【Leetcode】155. Min Stack
- Jsoup 采集回来的信息出现乱码
- 2016年的年终总结
- 用ssh写验证码
- python删除文件夹及文件夹内所有文件
- MySQL添加映射连接到数据库时发生错误“FluentNHibernate.Cfg.FluentConfigurationException”
- 织梦调用
- [BZOJ3105][cqoi2013]新Nim游戏(贪心+高斯消元求线性基)
- 计算机 锁 的cpu硬件级别支持原理
- STM32添加外设的步骤