用Jsoup进行链接提取

来源:互联网 发布:国际数据分析师认证 编辑:程序博客网 时间:2024/04/27 13:53

项目用到对文章内的图片和附件连接进行提取

// 检索WebContent中的图片和附件Document doc = Jsoup.parse(info.getWebc().getWebContent());// 当前页中的图片Elements srcLinks = doc.select("img[src]");String imagesPath = "";for (Element link : srcLinks) {// 剔除标签,只剩链接路径String imagesPaths = link.attr("src");String ht = imagesPaths.substring(0, 4);String htt = imagesPaths.substring(0, 1);if (!ht.equals("http") && htt.equals("/")) {imagesPath = imagesPaths.trim().replaceAll(ContextPath, "");imagesPath = imagesPath.substring(imagesPath.lastIndexOf("/") + 1);} else {imagesPath = "";}//System.out.println("---导入WebContent中的图片---" + imagesPath);if (!imagesPath.equals("")) {importCopy("/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/"+imagesPath, path, strInfoID,"/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/");}}// 提取所有的href连接String filePaths = "";Elements linehrefs = doc.select("a[href]");for (Element link : linehrefs) {filePaths = link.attr("href").trim().replaceAll(ContextPath, "");filePaths = filePaths.substring(filePaths.lastIndexOf("/") + 1);//System.out.println("---导入WebContent中的文件---" + filePaths);if (!filePaths.equals("")) {importCopy("/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/"+filePaths, path, strInfoID,"/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/");}}


0 0
原创粉丝点击