java利用正则表达式获取一个网页中的所有邮箱地址
来源:互联网 发布:奥斯维辛集中营 知乎 编辑:程序博客网 时间:2024/06/05 08:53
package cn.gson.demo;
/**
* 抓取网页邮箱地址类
*/
import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.io.Writer;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class WebCrawlersDemo {
public static void main(String[] args) throws Exception {
//在本地创建一个.txt文件
File file = new File("e://file//test.txt");
//链接到需要提取内容的网页
URL url = new URL("http://www.mgmt.uestc.edu.cn/Category/Page?Catid=427");
//打开连接
URLConnection conn = url.openConnection();
//设置连接网络超时时间
conn.setConnectTimeout(1000 * 10);
//读取指定网络地址中的文件 (输入缓冲流)
BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));
//将内容保存到text.txt文件中(输出缓冲流)
Writer wt = new FileWriter(file,true);
//将字符流包装成缓冲流
PrintWriter pw = new PrintWriter(wt,true);
String line = null;
//匹配email的正则
String regex = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";
Pattern p = Pattern.compile(regex);
while((line = bufr.readLine()) != null) {
Matcher m = p.matcher(line);
while(m.find()) {
//写入到文件
pw.write(m.group());
//获得匹配的email
System.out.println(m.group());
}
}
//刷新输出流
pw.flush();
//先关闭输出流
pw.close();
//关闭输入流
bufr.close();
}
}
/**
* 抓取网页邮箱地址类
*/
import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.io.Writer;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class WebCrawlersDemo {
public static void main(String[] args) throws Exception {
//在本地创建一个.txt文件
File file = new File("e://file//test.txt");
//链接到需要提取内容的网页
URL url = new URL("http://www.mgmt.uestc.edu.cn/Category/Page?Catid=427");
//打开连接
URLConnection conn = url.openConnection();
//设置连接网络超时时间
conn.setConnectTimeout(1000 * 10);
//读取指定网络地址中的文件 (输入缓冲流)
BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));
//将内容保存到text.txt文件中(输出缓冲流)
Writer wt = new FileWriter(file,true);
//将字符流包装成缓冲流
PrintWriter pw = new PrintWriter(wt,true);
String line = null;
//匹配email的正则
String regex = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";
Pattern p = Pattern.compile(regex);
while((line = bufr.readLine()) != null) {
Matcher m = p.matcher(line);
while(m.find()) {
//写入到文件
pw.write(m.group());
//获得匹配的email
System.out.println(m.group());
}
}
//刷新输出流
pw.flush();
//先关闭输出流
pw.close();
//关闭输入流
bufr.close();
}
}
0 0
- java利用正则表达式获取一个网页中的所有邮箱地址
- 利用正则表达式统计代码中的(代码行数,注释行数,空白行数)利用正则表达式获取一个网页中所有的邮箱地址
- 正则表达式知识详解之实战 获取网页中的邮箱地址 (java版示例)
- 用正则表达式提取网页中的邮箱地址
- 用正则表达式提取网页中的邮箱地址
- 正则表达式抓取网页中的邮箱地址
- 用正则表达式提取网页中的邮箱地址
- 在C#中如何利用正则表达式来获取网页中的所有链接的链接标题
- 使用java正则表达式提取文本中所有邮箱地址
- PHP通过正则表达式获取网页中的所有图片
- PHP通过正则表达式获取网页中的所有图片
- Java正则表达式获取网页所有网址和链接文字
- Java获取网页所有网址和链接文字(正则表达式)
- 正则表达式:网页爬虫:从TXT中获取邮箱地址(获取的练习)
- java正则表达式获取字符串中的所有英文单词或数字
- 简易JAVA获取网页有效邮箱地址
- 正则表达式入门知识+用它实现在一个网页中获取所有的链接地址
- 获取html 中的所有图片 正则表达式
- 用php搭建个人博客(0)
- nginx+tomcat8+keepalived+centos
- UVALive 5135 Mining Your Own Business(点双连通分量)
- Python中安装xlrd模块
- python入门常用功能小结
- java利用正则表达式获取一个网页中的所有邮箱地址
- structs2 文件下载
- 【我的Android进阶之旅】解决Android Studio启动时报错:Java 1.8 or later is required.
- 【玲珑杯 1051】【构造】My-graph
- 我读YOLO
- 注解
- 最短路径算法正确性和操作性闲杂谈-Dijkstra&Floyd算法
- 刘未鹏 - 为什么你现在就应该开始写博客
- python菜鸟的心得体会1