java中Url处理
来源:互联网 发布:走遍中国中国古镇 知乎 编辑:程序博客网 时间:2024/06/06 01:35
在开发爬虫的过程中会解析出Url地址,因为不同网站的不同风格,这些Url有些是相对路径,有些是绝对路径,有些是广告链接。
我们需要统一处理这些新的额Url
1.过滤Url
假如我们想只采集一个网站的信息,就需要把和这个网站有关的Url放入queue
一般的方法是Regex
根据网站Url的特点编写,逐一匹配过滤Url。
2.相对地址转绝对地址
有些网站的Url采用相对地址,有些是绝对地址,绝对地址可以直接放入queue,相对地址需要解析出之后转换成绝对地址,还有些网站会两种Url都存在,这需要我们判断转化。
根据上边思路,还可以用正则表达式,这里另一种方法,Java.net
中有两个类,URI\URL
我们可以使用URL去处理网页地址,比直接采用String要方便些,URI中有一个判断绝对路径和相对路径的方法
isAbsolute
public boolean isAbsolute()判断此 URI 是否为绝对的。
当且仅当 URI 具有方案组成部分时,它才是绝对的。返回:
当且仅当此 URI 是绝对的,才返回 true
0 0
- java中Url处理
- java中url加密处理
- java 中URL的处理
- java 及 web中项目url处理
- Struts2中URL处理
- java URL协议处理
- Java URL处理
- Java URL处理
- java针对Url处理
- Java URL处理
- Java URL处理
- Java URL处理
- JAVA 中URL链接中文参数乱码的处理方法
- JAVA 中URL链接中文参数乱码的处理方法
- JAVA 中URL链接中文参数乱码的处理方法
- JAVA 中URL链接中文参数乱码的处理方法
- JAVA 中URL链接中文参数乱码的处理方法
- JAVA 中URL链接中文参数乱码的处理方法
- CheckStyle 使用简介
- Binary Tree Inorder Traversal leetCode11
- Picture 2050
- 输出二叉树中,第m层的第k个节点值
- 序列化工具---对象序列化类库MsgPack介绍
- java中Url处理
- C语言基本数据类型简介"黑马程序员"
- poj 1256 Anagram
- hdu 4183 Pahom on Water 最大流 isap
- 将子控件放到最前面或最后面
- 深入理解java异常处理机制
- 用匈牙利算法求二分图的最大匹配
- Solution to CLRS Chapter 7
- linux 批量编码转换公具