Jsoup解析本地html,对文本内容提取

来源:互联网 发布:centos mount nfs 编辑:程序博客网 时间:2024/05/01 04:22

前4天我都在对html解析的研究,刚开始了解到的是 htmlparser  这个开源项目,从零开始摸索

了3天,还是一头雾水,我说的是整整的3天哦,被一大堆的方法给弄晕乎,应该是自己没有弄懂api

      到第3天晚上的时候。看到一篇播客写了Joup..引用原文:

《但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

jsoup 的主要功能如下:

1. 从一个 URL,文件或字符串中解析 HTML;

2. 使用 DOM 或 CSS 选择器来查找、取出数据;

3. 可操作 HTML 元素、属性、文本;

jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。》

随便了解一下,到了第4天的时候,我决定开始深入一下Jsoup因为在开源中国中有一个Jsoup专题。看起来很爽,复制其中的代码

运行起来更爽,代码简单清晰,明了。

然后我 又jsoup官网了解了api.虽然英语不是很好,但由于其简单明了,居然让我看懂了,自己尝试了用api编写了自己想要的程序

。运行时刚开始出现了很多乱码,纠结了我一天,最后到了第二天。这一个晚上睡觉真的没有睡好,脑子里一直惦记这着事情。

第二天,我开始继续分析,一行一行的,中间有个编码的格式,我想会不会是这里的问题,然后我找到输入文件,查看了文件编码格式,

顿时,一道灵光从脑袋直冲天灵盖。大彻大悟了-----------------------------------

   改了编码格式,我想要的东西出来了,我兴奋的围着房子走了几圈。

然后我继续研究api,实在是太高兴了,后期我会学习一下chm的制作,争取做一个中文jsoup api的chm查看文档,对自己研究的jsoup

画一个美好的逗号,帮助一下和我一样的初学者



原创粉丝点击