htmlparser类的相关知识——原载于我的百度空间
来源:互联网 发布:中经云数据存储 编辑:程序博客网 时间:2024/05/15 20:54
1、org.htmlparser.Node类的toHtml()方法和getText()方法、toPlainTextString()方法的区别
toHtml()方法的结果 :
<a title="阳光志愿者俱乐部" href="uploads/200911/1257821385echBDgLr.jpg" target="_blank"><img title="阳光志愿者俱乐部" alt="阳光志愿者俱乐部" src="uploads/200911/1257821385echBDgLr_s.jpg"></a><a href="http://www.ygclub.org/wiki/index.php?doc-view-517.html">http://www.ygclub.org/wiki/index.php?doc-view-517.html</a><a href="http://www.ygclub.org/wiki/index.php?doc-view-741.html">http://www.ygclub.org/wiki/index.php?doc-view-741.html</a><a href="http://www.ygclub.org/bbs/thread-2046-1-1.html">http://www.ygclub.org/bbs/thread-2046-1-1.html</a><a href="http://www.ygclub.org/wiki/index.php?doc-view-50">http://www.ygclub.org/wiki/index.php?doc-view-50</a>
getText()方法的结果:
a title="阳光志愿者俱乐部" href="uploads/200911/1257821385echBDgLr.jpg" target="_blank"a href="http://www.ygclub.org/wiki/index.php?doc-view-517.html"a href="http://www.ygclub.org/wiki/index.php?doc-view-741.html"a href="http://www.ygclub.org/bbs/thread-2046-1-1.html"a href="http://www.ygclub.org/wiki/index.php?doc-view-50"
toPlainTextString()方法:
http://www.ygclub.org/wiki/index.php?doc-view-517.htmlhttp://www.ygclub.org/wiki/index.php?doc-view-741.htmlhttp://www.ygclub.org/bbs/thread-2046-1-1.htmlhttp://www.ygclub.org/wiki/index.php?doc-view-50
解析的html文本都是:
<a title="阳光志愿者俱乐部" href="uploads/200911/1257821385echBDgLr.jpg" target="_blank"><img title="阳光志愿者俱乐部" alt="阳光志愿者俱乐部" src="uploads/200911/1257821385echBDgLr_s.jpg"></a><a href="http://www.ygclub.org/wiki/index.php?doc-view-517.html">http://www.ygclub.org/wiki/index.php?doc-view-517.html</a><a href="http://www.ygclub.org/wiki/index.php?doc-view-741.html">http://www.ygclub.org/wiki/index.php?doc-view-741.html</a><a href="http://www.ygclub.org/bbs/thread-2046-1-1.html">http://www.ygclub.org/bbs/thread-2046-1-1.html</a><a href="http://www.ygclub.org/wiki/index.php?doc-view-50">http://www.ygclub.org/wiki/index.php?doc-view-50</a>
相比较发现getText只是把Tag里面的内容读出了。toPlainTextString()方法是将<a></a>标签中间夹着的用户可是部分读出来了,因为第一个a标签中夹的是img标签,所以不是用户可视的,便不读出来了。
- htmlparser类的相关知识——原载于我的百度空间
- 关于LSA的相关学习---短文本聚类涉及到的知识,一种主题模型(原载于我的百度空间)
- 正则表达式的学习——原载于我的百度空间
- 数据库expecting ''', found '<EOF>'异常——原载于我的百度空间
- 使用注解配置hibernate实体类的注意事项——原载于我的百度空间
- 数据库操作中遇到的问题(日积月累工程)——原载于我的百度空间
- 我的百度空间
- 我的百度空间
- 我的百度空间:
- 我的百度空间!
- 我的百度空间
- 我的百度空间
- 我在百度的空间
- 我不满足于现有的知识水平
- 我的第一篇技术博客,以后专注于Vigentte相关知识包括CMS和Portal
- 我的文章放在百度空间
- 欢迎到我的百度空间作客
- 请到我的百度空间来
- java程序员在写sql的时候常犯的10个错误
- C语言中time()函数
- python手记(25)
- C++ 引用
- dp 转px
- htmlparser类的相关知识——原载于我的百度空间
- UVA 11054 Wine trading in Gergovia(贪心)
- Ubuntu 12.04 Ruby on Rails + MYSQL 配置
- UBOOT 内存映射以及修改问题
- 优秀的项目经理必备的8要素
- JavaScript的那些书
- str link in c
- Linux系统编程学习之《Linux中常见的头文件》
- UITapGestureRecognizer的用法