正则表达式(网页爬虫)
来源:互联网 发布:电子贺卡软件 编辑:程序博客网 时间:2024/05/22 13:13
package com.regex;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/* * 网页爬虫:其实就是一个程序用于在互联网中获取符合指定 规定的数据 * * 功能:爬取邮箱地址 */public class Demo1 {public static void main(String[] args) throws IOException {List<String> list = getMailsByWeb();for (String str : list) {System.out.println(str + " ");}}public static List<String> getMailsByWeb() throws IOException {// 1.读取文件URL url = new URL("http://127.0.0.1:8088/Test/index.html");BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));// 2.对读取的数据进行规则的匹配,从中获取符合规则的数据String mail_regex = "\\w+@\\w+(\\.\\w+)+";List<String> list = new ArrayList<String>();Pattern p = Pattern.compile(mail_regex);String line = null;while ((line = br.readLine()) != null) {Matcher m = p.matcher(line);while (m.find()) {// 3.将符合规则的数据存储到集合中list.add(m.group());}}return list;}public static List<String> getMails() throws IOException {// 1.读取文件BufferedReader br = new BufferedReader(new FileReader("D:\\index.html"));// 2.对读取的数据进行规则的匹配,从中获取符合规则的数据String mail_regex = "\\w+@\\w+(\\.\\w+)+";List<String> list = new ArrayList<String>();Pattern p = Pattern.compile(mail_regex);String line = null;while ((line = br.readLine()) != null) {Matcher m = p.matcher(line);while (m.find()) {// 3.将符合规则的数据存储到集合中list.add(m.group());}}return list;}}
阅读全文
0 0
- 正则表达式(网页爬虫)
- 正则表达式(网页爬虫)
- 正则表达式,网页爬虫
- 黑马程序员-正则表达式(网页爬虫)
- 正则表达式—网页爬虫
- 【爬虫】正则表达式解析网页
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- 正则表达式扩展----网页爬虫(复习io流+网络)
- 黑马程序员_正则表达式(网页爬虫)
- 黑马程序员-正则表达式、网页爬虫
- 黑马程序员-----正则表达式和网页爬虫
- Java正则表达式之网页爬虫
- 黑马程序员_温习 正则表达式 (个人笔记)摘要(正则表达式-----网页爬虫)
- 阿里云短信服务 nodejs版本SDK,非阿里大鱼
- SpringMvc请求报错406问题
- LiDAR-MEMS激光雷达点云实时显示
- hibernate组件映射
- Bootstrap+Jquery笔记
- 正则表达式(网页爬虫)
- 多级分销系统(代理商佣金管理模块)设计概要(要求和数据库设计)
- WUST 1949 家谱树(拓扑排序+dfs)
- As3基础部分4
- Linux基本操作指南
- 语义分割大牛的博客
- 分类 简述
- retrofit下载进度
- 求单链表是否带环,环的长度,环入口点