Web页面清洗难在何处？

来源：互联网发布：免费论文查重软件编辑：程序博客网时间：2024/04/28 14:01

http://hi.baidu.com/vanjor/blog/item/c52672222f42975a9922ed25.html

今天在联系上司关于毕设的进展后，需要我所获取的网页数据，也就是在网络爬行到一定规模的文档，她要做下一步语义实验分析吧，我当时就毫不迟疑的问她是否要原始网页文档数据，还是清除html标记的文本档数据。她说，要清除后的文档。我原还以为这个十分容易，但后来发现要对网页文档做良好的清洗，还是需要很大功夫的。

      所谓Web 页面清洗，就是通过各种方法，清洗掉Web页面中的html标识，各种脚本，css段等，提取到网页核心内容，那么笔者研究发现目前的流行清洗方法有基于以下两个个方面的研究：

    1.基于Html的DOM结构清洗
       html文档是一种DOM结构类型，那么可以基于对DOM结构，类似于XML，但远没有XML严谨，分析方法，通过对html文档中一个节点一个节点的来解析，最终可以将html文档中的标示去掉，这种情况对于文档中存在大量的广告链接，内容还未很好解决。目前典型有Htmlparser----一个很好的HTML结构分析的开源项目。但是笔者目前使用HtmlParser时候发现清洗掉还原出文本内容仍然有很大不足，一点就是script的脚本未正常过滤掉。

     2.基于智能模板匹配清洗
      所谓模板匹配清洗也就是利用站点内部文章的一种相同的内容组织方式，通过智能识别，找出页面组织结构，制定出针对性的模板，达到对页面清洗，而且模板匹配良好的话，获得的信息是十分高效，并且信息准确丰富，是一种很诱人的技术，但毫无疑问这种智能识别生成模板是极为有难度的，这也是有现在的网页页面组织混乱，实现标准各有差异也有一定的关系。那么还有一种方法就是利用人工的方法正对目标站点建立智能匹配模板的方法，现在很多新闻采集器，文章采集器有一些就是基于人工模板的方法，笔者目前在研究建立一种半智能化的模板生成，即通过人工给予相应的网站一些相似结构网页，程序能够智能训练出匹配模板。

       那么，数据清洗到底难在何处呢？

       首先，浏览器是越来越智能化了，很多在浏览器中显示正常飘亮的网页，你查看源码会发现极为不规范，很多甚至是有错误的，浏览器的智能化处理本来是帮助网页开发者的，但是另一程度上是很不利于HTML规范发展的，是纵容开发员犯错，因为在各种浏览器上显示都正常。但是这也就给网页清洗带来巨大麻烦，在清洗过程中不仅是针对HTML标准规范，甚至要花更多时间在适应不规范的HTML书写上。而且很多时候，一个小小的错误，很可能导致清洗结果完全失败。

       其次, 随着互联网的发展，现在网页结构越来越复杂，往往文章核心内容只存在页面中某一个板块中，如何能在纷繁中清理出核心内容难度也就可想而至了。

       总之，Web网页清洗，信息智能提取仍然面临着许多难点，相信未来也有更多这方面的突破。