java爬虫
来源:互联网 发布:西昊 ergomax 知乎 编辑:程序博客网 时间:2024/05/02 01:14
思路:
1、获取网页资源
URL url=new URL("http://www.runoob.com/java/java-regular-expressions.html");BufferedReader read=new BufferedReader(new InputStreamReader(url.openStream()));
2、规定匹配模式
String regex = "\\w+ \\w+ void \\w+";Pattern p = Pattern.compile(regex);
3、获取匹配的内容
Matcher m = p.matcher(str);System.out.println(str);while(m.find()){ list.add(m.group()); //添加到list里面}
下面是完整例子:
package regex;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Pachong { public static void main(String[] args) { List<String> list = getMethod(); for(String str : list){ System.out.println(str); } } public static List<String> getMethod(){ List<String> list = new ArrayList<String>(); BufferedReader read=null; try{ //获取资源 URL url=new URL("http://www.runoob.com/java/java-regular-expressions.html"); read=new BufferedReader(new InputStreamReader(url.openStream())); //read=new BufferedReader(new FileReader("F:/myeclips_workplace/ioTest/src/字符流/CharArrayTest.java")); //匹配模式 String regex = "\\w+ \\w+ void \\w+"; Pattern p = Pattern.compile(regex); //获取匹配的内容 String str=null; while((str=read.readLine())!=null){ Matcher m = p.matcher(str); while(m.find()){ list.add(m.group()); //添加到list里面 } } }catch(IOException e){ System.out.println("IO异常了!"); }finally{ if(read!=null){ try { read.close(); } catch (IOException e) { e.printStackTrace(); } } } return list; }}
输出结果为:
public static void mainpublic static void mainpublic static void mainpublic static void mainpublic static void main
0 0
- JS爬虫,Java爬虫
- JAVA爬虫
- Java 爬虫
- Java 爬虫
- Java 爬虫
- java爬虫
- java 爬虫
- Java爬虫
- java爬虫
- Java爬虫
- java 爬虫
- java爬虫
- java爬虫
- java 爬虫
- java爬虫
- java爬虫
- Java爬虫
- java爬虫
- 图解Linux命令之--umask命令
- MySQL 数据类型
- memset
- 关于“u盘打开为空,但是占用空间”的解决方法之一
- 视频处理vout_frame_buffer_ctrl模块的理解
- java爬虫
- Find Leaves of Binary Tree
- 视角的选择和坐标变换
- JAVA核心编成基础篇(1)
- POJ 2891 Strange Way to Express Integers(中国剩余定理)
- 《JavaScipt高级程序设计》总结五
- 一、C Call Lua
- 【NOI OJ】4977 怪盗基德的滑翔翼
- apatch POI excel---->pdf