Java——正则表达式_初识网络爬虫
来源:互联网 发布:vmware mac win10镜像 编辑:程序博客网 时间:2024/04/29 04:21
目的
获取某网站中所有的链接地址
思路
(1)获取该网站的HTML源码
(2)利用正则表达式,获取其中的链接地址(href=”http://……”)
代码
这里以www.163.com为例
package TestRegex;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.nio.charset.Charset;import java.util.ArrayList;import java.util.regex.Matcher;import java.util.regex.Pattern;/** * 初识网络爬虫 * @author yangzheng * */public class Demo2 { public static String getURLContent(String urlStr, String charset){ StringBuffer res = new StringBuffer(); try { URL url = new URL(urlStr); BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset))); String str = null; while ((str = br.readLine()) != null) { res.append(str); } } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return res.toString(); } public static ArrayList<String> getMatherSubstrs(String destStr, String regexStr){ Pattern pattern = Pattern.compile(regexStr); Matcher mather = pattern.matcher(destStr); ArrayList<String> res = new ArrayList<String>(); while(mather.find()){ //System.out.println(mather.group()); //System.out.println(mather.group(1)); res.add(mather.group(1)); } return res; } public static void main(String[] args) { String destStr = getURLContent("http://www.163.com", "gbk"); //System.out.println(destStr); ArrayList<String> list = getMatherSubstrs(destStr, "href=\"(.+?)\""); for (String temp : list) { System.out.println(temp); } }}
结果
输出destStr:
(其实是很长很长的)
输入list中的链接地址:
(也有很多,图片中只是一下部分)
延伸
可以利用递归,再获取源码中地址对应的网页的源码中的地址。这样可以将整个网站下载到电脑本地中(当然,很多网站是有防护的)。
总结
对爬虫充满了好奇。有时间再学爬虫。
正则表达式就学到这,虽然学完了,但用起来并不熟练。在其它语言中还没有尝试过。
1 0
- Java——正则表达式_初识网络爬虫
- 网络爬虫-正则表达式
- 黑马程序员——JAVA基础之正则表达式,网络爬虫
- Java正则表达式初识
- 初识Java正则表达式
- 初识java正则表达式
- 正则表达式—网页爬虫
- 正则表达式练习,网络爬虫
- Python网络爬虫-正则表达式
- Java正则表达式—小应用—简易爬虫
- Java正则表达式—小应用—简易爬虫
- 黑马程序员_正则表达式(网页爬虫)
- Python爬虫入门——正则表达式
- Java 正则表达式详解_正则表达式
- 正则表达式(2)——应用(匹配、切割、替换、查找)、模拟网络爬虫
- 网络爬虫系列笔记(1)——Re库、正则表达式
- 【笔记】5、初学python3网络爬虫——正则表达式的基本使用
- 正则表达式,模拟网络爬虫小例子
- 实现python调用Matlab的.m文件
- sql server 2008 导出数据库
- hpu 1099: 三国杀 [模拟]
- VS2015环境下查看C语言编译成的汇编语句的方法
- 【JavaEE】S2SH整合使用中的一些问题
- Java——正则表达式_初识网络爬虫
- 程序设计语言的基本成分
- AI
- n个学生按此规定走完后,长廊里电灯有几盏亮着
- openresty 前端开发入门三之JSON篇
- 二叉查找树
- HDU 5691
- 高通平台lk下调屏小结
- Python Cookbook 2——Python技巧