爬虫相关(2)---- 解析HTML源码
来源:互联网 发布:excel数据求和 编辑:程序博客网 时间:2024/06/03 08:12
参考连接:http://m.oschina.net/blog/126725
上一章介绍了如何使用java本地类库获取http资源。下一步就要考虑如何将源码中的有效信息提取出来。有很多相关的类库可以使用,htmlparser,jsoup,heritrix等等。
但是从我自己的经验,还是比较倾向于使用jsoup。
这里先介绍如何使用jsoup完成http connection。
jsoup可以接受本地文件,http连接,甚至html字符串进行解析。比起自己建立连接要方便的多。
示例代码:
String html = "<div><p align=\"center\"><img alt=\"\" width=\"660\" height=\"852\" src=\"/erp/UserFiles/Image/51.jpg\" />这是P元素的内容</p>";Document document = Jsoup.parse(html);
Document document = Jsoup.connect("http://www.baidu.com").get(); //建立连接String title = document.title();String text = document.text();对于document类的操作非常类似于dom4j,简便快捷。现在还在学习选择器,剩下的内容晚上继续补上。
0 0
- 爬虫相关(2)---- 解析HTML源码
- php解析html类库simple_html_dom(爬虫相关)
- php解析html类库simple_html_dom(爬虫相关)
- 爬虫相关(1)--- 如何使用java来获取HTML源码
- 网络爬虫2----JSoup解析HTML
- BeautifulSoup 解析html方法(爬虫)
- HTML解析,网络爬虫
- HTML解析,网络爬虫
- php爬虫教程,教你用php写爬虫源码,批量解析海量html网页
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.2)源码及解析
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.2)源码及解析
- 解析爬虫, Document解析html
- [Python]网络爬虫:糗事百科的网络爬虫(v0.2)源码及解析
- 【解析HTML】HTML解析,网络爬虫
- 创建爬虫----复杂HTML解析
- python爬虫之html解析
- 爬虫之pyquery 解析html
- C# 抓取网页Html源码 (网络爬虫)
- http://www.kaifazhe.com/mobile/363218.html
- Check system info on Solaris
- linux 僵尸进程
- Linux——开篇
- 【剑指offer】替换字符串中的空格_04
- 爬虫相关(2)---- 解析HTML源码
- ASP.NET中如何防范SQL注入式攻击
- 如何通过代理服务器发动DDoS攻击
- [025] 微信公众帐号开发教程第1篇-引言
- 如何将CAJ文件转换为pdf
- Widows2003开机取消按CTRL+ALT+DEL
- 如何破解无线路由器和WEP密码
- VC画图
- xmpp学习使用简单介绍(一)