正则表达式-网页爬虫-从服务器或本地文件获取邮件地址
来源:互联网 发布:java程序调用存储过程 编辑:程序博客网 时间:2024/06/05 10:12
/*网页爬虫-从服务器或本地文件获取邮件地址网页爬虫(蜘蛛)*/import java.io.*;import java.util.regex.*;import java.net.*;class RegexTest2{ public static void main(String[] args) throws IOException { //System.out.println("Hello World!"); getMails(); } public static void getMails_1() throws IOException//从Tomcat服务器 { URL rul = new URL("http://192.168.1.254:8080/myweb/mail.html"); URLConnection con = url.openConnection();//获取连接器.URLConnection,openConnection() // 返回一个 URLConnection 对象,它表示到 URL 所引用的远程对象的连接。 BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));//InputStream getInputStream() // 返回从此打开的连接读取的输入流。 String line = null; String mailreg = "\\w+@\\w+(\\.\\w+)+";//正则过滤器 Pattern p = Pattern.compile(mailreg);//编译封装reg. pattern 正则表达式的编译表示形式。 //指定为字符串的正则表达式必须首先被编译为此类的实例。//然后,可将得到的模式用于创建 Matcher 对象,//依照正则表达式,该对象可以与任意字符序列匹配。//执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。 while ((line=bufIn.readLine())!=null) { //System.out.println(line); Matcher m = p.matcher(line);//返回Matcher,matcher(CharSequence input) //创建匹配给定输入与此模式的匹配器。 while (m.fine())// boolean find() // 尝试查找与该模式匹配的输入序列的下一个子序列。 { System.out.println(m.group());//String group() 打印在控制台上 // 返回由以前匹配操作所匹配的输入子序列。 } } } /* 获取指定文档中的邮件地址. 使用获取功能.Pattern Matcher */ public static void getMails() throws IOException//从本地文件 { BufferedReader bufr = new BufferedReader(new FileReader("mail.txt")); String line = null; String mailreg = "\\w+@\\w+(\\.\\w+)+"; Pattern p = Pattern.compile(mailreg);//编译封装reg. pattern 正则表达式的编译表示形式。 //指定为字符串的正则表达式必须首先被编译为此类的实例。//然后,可将得到的模式用于创建 Matcher 对象,//依照正则表达式,该对象可以与任意字符序列匹配。//执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。 while ((line=bufr.readLine())!=null) { //System.out.println(line); Matcher m = p.matcher(line);//返回Matcher,matcher(CharSequence input) //创建匹配给定输入与此模式的匹配器。 while (m.fine())// boolean find() // 尝试查找与该模式匹配的输入序列的下一个子序列。 { System.out.println(m.group());//String group() // 返回由以前匹配操作所匹配的输入子序列。 } } }}
0 0
- 正则表达式-网页爬虫-从服务器或本地文件获取邮件地址
- 正则表达式的威力5_网页爬虫,爬邮件地址
- (正则表达式)邮件地址爬虫
- Java网页爬虫获取邮件地址
- 使用正则表达式写一个网页爬虫案例获取指定文档中的邮件地址保存到自己指定的文件夹中
- 正则表达式:网页爬虫:从TXT中获取邮箱地址(获取的练习)
- 正则表达式,网页爬虫
- Android邮件地址正则表达式
- 正则表达式-验证邮件地址
- 邮件地址的正则表达式
- 邮件地址 正则表达式详解
- day25正则表达式,匹配,切割,替换。获取。网页爬虫
- 正则表达式,匹配,切割,替换。获取。网页爬虫
- 正则表达式—网页爬虫
- 正则表达式(网页爬虫)
- 正则表达式(网页爬虫)
- 【爬虫】正则表达式解析网页
- 关于邮件地址的正则表达式
- Dialog的2种常用样式
- 【Linux系统编程】进程同步与互斥:POSIX有名信号量
- java之简单工厂设计模式
- ThinkPHP框架中简化URL地址
- 队列的优先级处理的思路
- 正则表达式-网页爬虫-从服务器或本地文件获取邮件地址
- Android实战之驱家新闻app(六)完
- Android4.4后短信机制的变化
- java 异常(Exception)处理机制
- Think Python第一章:程序之道
- quartz配置文件
- Android-判断某个网络是否在网络列表中
- mac下装phpredis,从redis到homebrew再到autoconf再到phpredis-master一条龙安装
- printf补充