做个类似的蜘蛛抓页，抓回的页如何去除html，js,cssj,剩余网页的内容？

来源：互联网发布：人工智能利维坦编辑：程序博客网时间：2024/05/08 09:54

主　　题：

做个类似的蜘蛛抓页，抓回的页如何去除html，js,cssj,剩余网页的内容？

作　　者：PCIBM (PCIBM) 信誉值：67所属论坛：Web 开发 ASP问题点数：50回复次数：4发表时间：2004-12-03 11:01:38

做个类似的蜘蛛抓页，抓回的页如何去除html，js,cssj,剩余网页的内容？

回复人： butcher2002(发言仅代表个人观点，不保证正确) ( ) 信誉：100 2004-12-03 11:06:00 得分:0

onclick=alert(test.outerHTML)

Top回复人： huangchao(超) ( ) 信誉：100 2004-12-03 11:07:00 得分:0

关注

Top回复人： babyt(阿泰) ( ) 信誉：100 2004-12-03 11:13:00 得分:0

用这个函数过滤下你抓到的内容看看<%Function RemoveHTML(strHTML) Dim objRegExp, Match, Matches    Set objRegExp = New Regexp  objRegExp.IgnoreCase = True objRegExp.Global = True '取闭合的<> objRegExp.Pattern = "<.+?>" '进行匹配 Set Matches = objRegExp.Execute(strHTML)  ' 遍历匹配集合，并替换掉匹配的项目 For Each Match in Matches        strHtml=Replace(strHTML,Match.Value,"") Next RemoveHTML=strHTML Set objRegExp = NothingEnd Function%>

Top回复人： pswdf(小邪) ( ) 信誉：108 2004-12-03 11:30:00 得分:0

用正则替换掉就行。如果是网址，就那一段不要抓。