Java——正则表达式_初识网络爬虫

来源:互联网 发布:vmware mac win10镜像 编辑:程序博客网 时间:2024/04/29 04:21

目的

获取某网站中所有的链接地址

思路

(1)获取该网站的HTML源码
(2)利用正则表达式,获取其中的链接地址(href=”http://……”)

代码

这里以www.163.com为例

package TestRegex;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.nio.charset.Charset;import java.util.ArrayList;import java.util.regex.Matcher;import java.util.regex.Pattern;/** * 初识网络爬虫 * @author yangzheng * */public class Demo2 {    public static String getURLContent(String urlStr, String charset){        StringBuffer res = new StringBuffer();        try {            URL url = new URL(urlStr);            BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset)));            String str = null;            while ((str = br.readLine()) != null) {                res.append(str);            }        } catch (MalformedURLException e) {            e.printStackTrace();        } catch (IOException e) {            e.printStackTrace();        }        return res.toString();    }    public static ArrayList<String> getMatherSubstrs(String destStr, String regexStr){        Pattern pattern = Pattern.compile(regexStr);        Matcher mather = pattern.matcher(destStr);        ArrayList<String> res = new ArrayList<String>();        while(mather.find()){            //System.out.println(mather.group());            //System.out.println(mather.group(1));            res.add(mather.group(1));        }        return res;    }    public static void main(String[] args) {        String destStr = getURLContent("http://www.163.com", "gbk");        //System.out.println(destStr);        ArrayList<String> list = getMatherSubstrs(destStr, "href=\"(.+?)\"");        for (String temp : list) {            System.out.println(temp);        }    }}

结果

输出destStr:
destStr
(其实是很长很长的)

输入list中的链接地址:
链接地址
(也有很多,图片中只是一下部分)

延伸

可以利用递归,再获取源码中地址对应的网页的源码中的地址。这样可以将整个网站下载到电脑本地中(当然,很多网站是有防护的)。

总结

对爬虫充满了好奇。有时间再学爬虫。
正则表达式就学到这,虽然学完了,但用起来并不熟练。在其它语言中还没有尝试过。

1 0
原创粉丝点击