做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?
来源:互联网 发布:人工智能利维坦 编辑:程序博客网 时间:2024/05/08 09:54
主 题:
做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?作 者:PCIBM (PCIBM) 信 誉 值:67所属论坛:Web 开发 ASP问题点数:50回复次数:4发表时间:2004-12-03 11:01:38
做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?回复人: butcher2002(发言仅代表个人观点,不保证正确) ( ) 信誉:100 2004-12-03 11:06:00 得分:0
onclick=alert(test.outerHTML)Top回复人: huangchao(超) ( ) 信誉:100 2004-12-03 11:07:00 得分:0
关注Top回复人: babyt(阿泰) ( ) 信誉:100 2004-12-03 11:13:00 得分:0
用这个函数过滤下你抓到的内容看看<%Function RemoveHTML(strHTML) Dim objRegExp, Match, Matches Set objRegExp = New Regexp objRegExp.IgnoreCase = True objRegExp.Global = True '取闭合的<> objRegExp.Pattern = "<.+?>" '进行匹配 Set Matches = objRegExp.Execute(strHTML) ' 遍历匹配集合,并替换掉匹配的项目 For Each Match in Matches strHtml=Replace(strHTML,Match.Value,"") Next RemoveHTML=strHTML Set objRegExp = NothingEnd Function%>Top回复人: pswdf(小邪) ( ) 信誉:108 2004-12-03 11:30:00 得分:0
用正则替换掉就行。如果是网址,就那一段不要抓。
- 做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?
- 做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容? (转)
- 网络蜘蛛抓去整个站点的内容
- python 简单的抓网页
- 类似wireshark的抓网络包软件
- SEO的必备技能如何抓关键词讲座内容
- 用蜘蛛抓卓越亚马逊碰到的问题
- Python抓网页内容
- 关于“抓网页”的几篇文章
- C#编写一个抓网页的应用程序
- C#编写一个抓网页的应用程序
- C#编写一个抓网页的应用程序
- jsp“抓”网页代码的程序
- 用Python抓网页的注意事项
- 用Python抓网页的注意事项
- 用Python抓网页上的图片
- python爬虫抓网页的总结
- python爬虫抓网页的总结
- YTHT BBS在cygwin安装手册
- 搜索算法基础教程
- sterm批量下载教程
- 美丽心情
- 基于数据挖掘的课程相关 性方法研究与实现
- 做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?
- hey jude
- 童话
- Lucene.Net的语言处理包中Lucene.Net.Analysis.Cn的Bug
- BBS总汇
- 黃綜翰:我的風羽路,改革箭在弦上
- YTHT代码修正-CYGWIN赌场通杀问题
- 近日关注:再议 .NET 纯粹性神话
- 智能信息处理系统内核实现