java实现爬虫改变人生!

来源:互联网 发布:开票软件升级 编辑:程序博客网 时间:2024/05/17 21:49

写代码让你怀疑人生,那爬虫定会改变你人生,爬取你需要的torrent,当然高级点的网站都反爬虫。

下面就爬取一下电影的网站

http://www.xunleigang.net/html/aiqing/

1、Elements links=doc.select(".bcr_box dl");2、Elements links21 = link.getElementsByTag("dt");          Elements links31 = link.getElementsByTag("dd");          Elements links21_ = links21.get(0).getElementsByTag("i");          Elements links22_ = links21.get(0).getElementsByTag("a");          Elements links31_ = links31.get(0).getElementsByTag("img");          String links21__ = links21_.toString();        String links22__ = links22_.attr("href");        String links23__ = links22_.text().toString();        String links31__ = links31_.attr("src");        links21__ = links21__.substring(3, links21__.lastIndexOf("<"));        Calendar a = Calendar.getInstance();        links21__ = a.get(Calendar.YEAR) + "-" + links21__;        //      System.out.println(links21__); //电影时间        //      System.out.println(links22__); //电影详情        //      System.out.println(links23__); //电影名称        //      System.out.println(links31__); //电影图片        //      Map<String,String> replaceImgMap=downLoadImags(imgUrlList); // 下载图片        //      String newContent=replaceWebPageImages(content,replaceImgMap); // 替换图片        //String links44__ = downLoadImags(links31__); // 下载图片3、下载图片InputStream inputStream=entity.getContent();                    String imageType=entity.getContentType().getValue();                    String urlB=imageType.split("/")[1];//                  System.out.println(imageType);                    String currentDatePath=DateUtil.getCurrentDatePath(); // 当年年月日路径                    String uuid=UUID.randomUUID().toString(); // uuid                    String newPath="http://localhost:8080/CnBlog/static/blogImages/"+currentDatePath+"/"+uuid+"."+urlB;                    result = newPath;                    FileUtils.copyToFile(inputStream, new File(PropertiesUtil.getValue("imageFilePath")+currentDatePath+"/"+uuid+"."+urlB));

详细下载地址:
链接:http://pan.baidu.com/s/1boOHfFD 密码:mkln

全CSDN的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400

原创粉丝点击