Java实现网络爬虫入门Demo

来源:互联网 发布:淘宝千万不能搜索的 编辑:程序博客网 时间:2024/05/16 19:57

需求:

抓取一个网页(比如www.lianhehuishang.com)中的url地址,并存到F:\spider_url.txt文件中。


程序:

[java] view plain copy
  1. package com.zheng;  
  2.   
  3.   
  4. import java.io.BufferedReader;  
  5. import java.io.FileWriter;  
  6. import java.io.IOException;  
  7. import java.io.InputStreamReader;  
  8. import java.io.PrintWriter;  
  9. import java.net.MalformedURLException;  
  10. import java.net.URL;  
  11. import java.net.URLConnection;  
  12. import java.util.regex.Matcher;  
  13. import java.util.regex.Pattern;  
  14.   
  15. public class WebSpider {  
  16.     public static void main(String[] args) {  
  17.         URL url = null;  
  18.         URLConnection urlconn = null;  
  19.         BufferedReader br = null;  
  20.         PrintWriter pw = null;  
  21.         String regex = "http://[\\w+\\.?/?]+\\.[A-Za-z]+";  
  22.         Pattern p = Pattern.compile(regex);  
  23.         try {  
  24.             url = new URL("http://www.lianhehuishang.com/");  
  25.             urlconn = url.openConnection();  
  26.             pw = new PrintWriter(new FileWriter("f:\\spider_url.txt"), true);  
  27.             br = new BufferedReader(new InputStreamReader(  
  28.                     urlconn.getInputStream()));  
  29.             String buf = null;  
  30.             while ((buf = br.readLine()) != null) {  
  31.                 Matcher buf_m = p.matcher(buf);  
  32.                 while (buf_m.find()) {  
  33.                     pw.println(buf_m.group());  
  34.                 }  
  35.             }  
  36.             System.out.println("获取成功!");  
  37.         } catch (MalformedURLException e) {  
  38.             e.printStackTrace();  
  39.         } catch (IOException e) {  
  40.             e.printStackTrace();  
  41.         } finally {  
  42.             try {  
  43.                 br.close();  
  44.             } catch (IOException e) {  
  45.                 e.printStackTrace();  
  46.             }  
  47.             pw.close();  
  48.         }  
  49.     }  
  50. }  

运行结果:

                                         

打开F:\spider_url.txt


原创粉丝点击