htmlpaser打造个性化的爬虫程序 第二天
来源:互联网 发布:马特达蒙电影知乎 编辑:程序博客网 时间:2024/05/18 03:02
任务1:
抽取页面中的所有链接
LinkBean lb = new LinkBean (); lb.setURL ("http://sthaboutme.sinaapp.com/"); URL[] urls = lb.getLinks (); for (int i = 0; i < urls.length; i++) System.out.println (urls[i]);
任务2:
抽取页面中满足既定条件的链接
try {Parser parser = new Parser("http://sthaboutme.sinaapp.com");String matchPattern = "http://sthaboutme.sinaapp.com/?";NodeFilter filter = new LinkRegexFilter(matchPattern);NodeList nlist = parser.extractAllNodesThatMatch(filter);System.out.println(nlist.size());for(int i= 0 ;i < nlist.size();i++){LinkTag link =(LinkTag)nlist.elementAt(i);System.out.println(link.getLink());}} catch (ParserException e) {// TODO Auto-generated catch blocke.printStackTrace();}
任务3:
抽取页面中满足多条件的链接
try {Parser parser = new Parser("http://sthaboutme.sinaapp.com");String StrContain = "http://";String StrNotContain ="#";NodeFilter filter1 = new LinkRegexFilter(StrContain);NodeFilter filter2 = new StringFilter(StrNotContain){ public boolean accept (Node node) { boolean ret = true; if (LinkTag.class.isAssignableFrom (node.getClass ())) { String link = ((LinkTag)node).getLink (); if (link.indexOf (mPattern) > -1) { ret = false; // System.out.print(mPattern); } } return ret; };};AndFilter andFilter = new AndFilter(filter1,filter2);NodeList nlist = parser.extractAllNodesThatMatch(andFilter);System.out.println(nlist.size());for(int i= 0 ;i < nlist.size();i++){LinkTag link =(LinkTag)nlist.elementAt(i);System.out.println(link.getLink());}} catch (ParserException e) {// TODO Auto-generated catch blocke.printStackTrace();}
- htmlpaser打造个性化的爬虫程序 第二天
- htmlpaser打造个性化的爬虫程序 第一天
- htmlpaser打造个性化的爬虫程序 第三天
- 打造自己的个性化邮件服务器
- 打造个性化的Win Vista CMD窗口
- 怎样打造U盘的个性化图标
- android下打造个性化的圆形进度条
- Android之打造个性化的Toast
- htmlPaser的一些用法收集(转载)
- 用Visual C#打造个性化的IE浏览器
- 用Visual C#打造个性化的IE浏览器IE
- 用Visual C#打造个性化的IE浏览器
- 另类玩法 打造个性化的Windows XP声音
- 用WPF窗体打造个性化界面的图片浏览器
- 打造属于自己的个性化GHOST XP系统安装盘
- 乐荐网络-μ+,打造个性化的搜人平台
- 打造属于你的个性化火狐浏览器(不定期更新)
- 应用ruby打造个性化的有道单词本 (一)
- 快速掌握activity的生命周期
- 如何编写优质的需求文档
- ios学习--iphone单例模式(singleton)的实现
- linux下usb转串口设置
- Android中ListView通过ContextMenu删除当前点击的一行数据
- htmlpaser打造个性化的爬虫程序 第二天
- WCF开发实战系列一:创建第一个WCF服务
- JS 判断图片宽高
- PHP中用DOMDocument新建XML文件
- 深入探索C语言之结构体(struct)
- application
- poj 3687 Labeling Balls 拓扑排序
- 从网络获取图片与网页
- Oracle学习笔记——Oracle和SQL基础