网友提问---一个稍微用点技巧的内容采集方法
来源:互联网 发布:java 招聘 大街 编辑:程序博客网 时间:2024/04/30 06:43
网友的提问地址:http://bbs.locoy.com/spider-75585-1-1.html
网友问题概述:
该网友要采集内容的源代码如下:
<td valign=top>第1张</td></tr></table></li><li>.......<a href='4586_9.html' ...........<td valign=top>第9张</td></tr></table></li><li><a href='4586_10.html' target='_blank'><img src='../up/allimg/512/041Q2120249/12041Q20249-9-lp.jpg' border='0' width='200' heigth='100'></a><table align=center width=85% border=0 cellspacing=0 cellpadding=0><tr><td valign=top>第10张</td></tr></table></li></ul></div></div></div></div></td></tr>看该源码,可以了解到该网页大概是一个图片的列表。该网友要采集的是图片列表中的最后那张图片的标记文字,在这个例子中是这个数字“10”。
这个内容采集的难点是:
由于“第1张”到“第10张”的html界定代码定义的完全一样,所以,如果想要专门去获取这个10,是无法去确定这个“开始字符串”和“结束字符串”的。
我的思路:
利用标签循环处理功能结合内容过滤功能来实现最终目的。
不过,具体如何实施效果,我在等该网友能否给出原始的测试网址,测试通过后。然后再更新吧。
- 网友提问---一个稍微用点技巧的内容采集方法
- 一个稍微复杂点的hive sql
- 一道网友提问的解法
- 采集获取内容的方法
- oracle 一个稍微大点数据库
- 网上提问的技巧
- 提问的技巧
- 提问的技巧
- 一些提问的技巧
- 提问的技巧
- 一个网友收集的科研资源--内容很多,转载麻烦
- 今天终于调好了一个稍微复杂点的程序,很值!
- 拆分一个稍微有点复杂的字符串,用c#实现
- 最热网友收藏:JavaScript的方法和技巧
- 创业网友提问:
- 对网友“宝宝”所提问题的回复
- 网友盘点囧囧奥运记者的弱智提问
- 答一位网友关于“读S计划”的提问
- 程序员必知8大排序3大查找(三)
- J2EE开发之常用开源项目介绍
- 跳台阶问题
- Vs2010旗舰版卡死问题。。。页面无响应问题。。。
- 一些有用的对话信息,并在自己的工程中得到了验正是可行的
- 网友提问---一个稍微用点技巧的内容采集方法
- 十大职场潜规则送职场新人
- JS通过事件的传递来间接调用定义在函数中的函数
- 乔布斯:去你妹的iTV 老子要iCar!
- 判断点是否在三角形内
- 统计整数二进制表示中1的个数
- Title标题及Description描述字数
- android平台一些网页不能正常打开的问题
- java_基本知识总结二