做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?

来源:互联网 发布:人工智能利维坦 编辑:程序博客网 时间:2024/05/08 09:54
主  题:
做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?
作  者:PCIBM (PCIBM) 信 誉 值:67所属论坛:Web 开发 ASP问题点数:50回复次数:4发表时间:2004-12-03 11:01:38
做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?
回复人: butcher2002(发言仅代表个人观点,不保证正确) ( ) 信誉:100 2004-12-03 11:06:00 得分:0  
onclick=alert(test.outerHTML)
Top回复人: huangchao(超) ( ) 信誉:100 2004-12-03 11:07:00 得分:0  
关注
Top回复人: babyt(阿泰) ( ) 信誉:100 2004-12-03 11:13:00 得分:0  
用这个函数过滤下你抓到的内容看看<%Function RemoveHTML(strHTML) Dim objRegExp, Match, Matches    Set objRegExp = New Regexp  objRegExp.IgnoreCase = True objRegExp.Global = True '取闭合的<> objRegExp.Pattern = "<.+?>" '进行匹配 Set Matches = objRegExp.Execute(strHTML)  ' 遍历匹配集合,并替换掉匹配的项目 For Each Match in Matches        strHtml=Replace(strHTML,Match.Value,"") Next RemoveHTML=strHTML Set objRegExp = NothingEnd Function%>
Top回复人: pswdf(小邪) ( ) 信誉:108 2004-12-03 11:30:00 得分:0  
用正则替换掉就行。如果是网址,就那一段不要抓。
原创粉丝点击