Jsoup 乱码问题解决

来源:互联网 发布:java rmi漏洞解决 编辑:程序博客网 时间:2024/06/06 00:42

一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。

你可以不用jsoup.connect,这个会从html描述中识别。

你可以用Jsoup.parse(InputStream in, String charsetName, String baseUri)的方式从一个流中读取,charsetName选择合适的编码。

如:

String url = "http://xxxxxxx";
Document document = Jsoup.parse(new URL(url).openStream(), "GBK", url);
//你可以试试GBK或UTF-8