JSoup 获取正文,自动识别页面编码Charset
来源:互联网 发布:家用太阳能系统 知乎 编辑:程序博客网 时间:2024/05/18 03:52
public static String getContent(String url) throws Exception{HttpClient hc = new HttpClient();HttpMethod hm = new GetMethod(url);int statusCode = -1;byte[] result = null; statusCode = hc.executeMethod(hm); if(statusCode != HttpStatus.SC_OK)//判断返回 return ""; if(hm.getResponseBody()!=null){//获取页面数据 result = hm.getResponseBody();//hm.getStatusLine()――http状态和请求结果 } String charset = JsoupUtils.getCharset(url); //通过jsoup获得页面的charsethm.releaseConnection();String data = null;if(result != null) data = new String(result,charset);//字符编码设置return data;}
[代码] 获得字符集
/** * 获得字符集 */public static String getCharset (String siteurl) throws Exception{URL url = new URL(siteurl);Document doc = Jsoup.parse(url, 6*1000);Elements eles = doc.select("meta[http-equiv=Content-Type]");Iterator<Element> itor = eles.iterator();while (itor.hasNext()) return RegularUtils.matchCharset(itor.next().toString());return "gb2312";}
[代码] 使用正则表达式获得页面字符
/** * 获得页面字符 */public static String matchCharset(String content) {String chs = "gb2312";p = Pattern.compile("(?<=charset=)(.+)(?=\")");Matcher m = p.matcher(content);if (m.find())return m.group();return chs;}
- JSoup 获取正文,自动识别页面编码Charset
- 网页正文抽取中的网页编码字符集自动识别最佳方案
- 网页正文抽取中的网页编码字符集自动识别最佳方案 .
- jsoup获取页面内容
- C# HttpWebRequest访问页面时自动识别编码
- 获取指定网页的源码,自动识别编码
- 使用jsoup获取页面元素
- jsoup解析日志正文
- 网页爬虫—访问页面并自动识别页面字符集编码
- PHP 正则表达式 获取网页charset 编码 ,可以获取任意网页charset(代码备份)
- JSoup获取指定页面指定URL
- jsoup获取ajax动态加载的页面
- jsoup获取html页面中的内容
- HttpWebRequest获取网页源代码时自动识别网页编码
- 利用java.nio.charset.CharsetDecoder自动识别字符集
- 利用java.nio.charset.CharsetDecoder自动识别字符集
- 利用java.nio.charset.CharsetDecoder自动识别字符集
- 利用java.nio.charset.CharsetDecoder自动识别字符集
- Tomcat配置MYECLIPSE
- Flex与Java通信 BlazeDS方式 最详尽的解析
- Flex与Java通信 BlazeDS方式 查询
- JDBC连接Oracle数据库详解
- Hibernate多对多
- JSoup 获取正文,自动识别页面编码Charset
- 01-ubuntu镜像下载地址
- 8.7 - The hidden “this” pointer
- 用hibernate实现java的类继承-每个类一个表
- [Leetcode] Search a 2-D matrix
- 03-com/sun/mail/util/LineInputStream
- cmd下执行java class
- Search in Rotated Sorted Array II
- Remove Duplicates from Sorted List I