java网络爬虫

来源:互联网 发布:学而时之不亦说乎全文 编辑:程序博客网 时间:2024/05/29 16:50

知识点

1、jsoup 解析html,也能解析xml;用jsonp解析html能像jquery一样方便。

2、dom4j(http://www.cnblogs.com/mouse-coder/p/3451243.html) 、xpath 、Jaxb(http://blog.csdn.net/tina13624/article/details/51785417、http://www.oschina.net/code/snippet_12_5581)解析xml,解析xml功能丰富,强大

3、正则匹配页面元素


爬虫需关注的点

爬虫的URL管理、

线程池之类的、

数据流编码:http://blog.csdn.net/turnhead/article/details/48036017;



爬虫框架

1、开源爬虫框架各有什么优缺点?http://blog.csdn.net/zyj8170/article/details/538838862

2、github上的java爬虫项目

原创粉丝点击