《黑马程序员》 javaweb网页爬虫技术的实现
来源:互联网 发布:白银交易软件下载 编辑:程序博客网 时间:2024/06/10 05:13
------- android培训、java培训、期待与您交流! ----------
package cn.itcast.p6.regex;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegexDemo6 { /** * @param args */ /** *网页爬虫技术: * 其实就是一个程序在网页中获取符合指定规则的数据 * 爬取邮箱地址 * A本地文件或网络中的m * @throws IOException * */ public static void main(String[] args) throws IOException { List<String> listu=getMails_3(); for(String li:listu){ System.out.println(li); } } public static List<String> getMails_3() throws IOException{ //获取网站中的邮箱: URL url=new URL("http://192.168.123.209:8080/myweb/test.html"); //设定源 BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream())); //将读取到的数据存储在集合中 List<String> list=new ArrayList<String>(); String line=null; //定义规则// String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+";// String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+"; String regex="\\w+@\\w+(\\w+.)+"; Pattern p=Pattern.compile(regex); while((line=br.readLine())!=null){ //把读取到的数据存储在集合中 Matcher m=p.matcher(line); while(m.find()){ list.add( m.group()); } } return list; } public static List<String> getMails_2() throws IOException{ //设定源 BufferedReader br=new BufferedReader(new FileReader("d:\\a.txt")); //将读取到的数据存储在集合中 List<String> list=new ArrayList<String>(); String line=null; //定义规则// String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+";// String regex="[a-zA-Z0-9]+@[a-z0-9]+(\\.[a-zA-Z0-9]{1,3})+"; String regex="\\w+@\\w+(\\w+.)+"; Pattern p=Pattern.compile(regex); while((line=br.readLine())!=null){ //把读取到的数据存储在集合中 Matcher m=p.matcher(line); while(m.find()){ list.add( m.group()); } } /* //对集合进行遍历,取出数据 for(String url:list){ System.out.println(url); }*/ return list; }
0 0
- 《黑马程序员》 javaweb网页爬虫技术的实现
- 黑马程序员--JavaWeb技术
- 黑马程序员_网页爬虫
- 黑马程序员 分享一个牛叉的网页爬虫
- 黑马程序员_正则表达式(网页爬虫)
- 黑马程序员-正则表达式、网页爬虫
- 黑马程序员-正则表达式(网页爬虫)
- 黑马程序员-----正则表达式和网页爬虫
- 黑马程序员——网页爬虫(网页蜘蛛)
- 《黑马程序员》The ninth day (网页爬虫和反射,刺激!)
- 黑马程序员_java 正则表达式基本方法与网页爬虫
- 黑马程序员——正则表达式和网页爬虫
- 用于网页判断的智能代理技术的简单实现------------基于python实现(网络爬虫)
- 支持Ajax的网页爬虫技术
- 黑马程序员-框架技术实现的手段-反射基础
- 网页爬虫技术浅析
- JavaWeb实现动态网页下载的代码
- 爬虫技术(2)--抓取网页java代码实现
- Linux(Ubuntu)常用命令
- nginx rewrite break last
- C# 怎么取1个short型变量的高4位和低4位
- 选择PHP还是ASP.NET?这是个问题
- 从百度知道“央视两会大数据”看民声
- 《黑马程序员》 javaweb网页爬虫技术的实现
- debug版本和release版本的区别
- JAVA游戏入门开发DAY 4 添加主角
- iReport中文字符在PDF预览时的问题解决
- jquery筛选器图
- go语言抓取twitter
- Jenkins入门总结
- Yahoo 收购可视化个人档案制作公司 Vizify
- SVM