提问:Heritrix应用问题
来源:互联网 发布:cnc数控车床编程视频 编辑:程序博客网 时间:2024/05/02 12:46
Heritrix应用问题
请教一下大家如何用heritrix抓取以下网站内容,需要定制么?下面是USPTO的专利网页:http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits其中NextList1表示第一个50条信息的页面,NextList2,NextList3,以此类推,在这些页面中点击每条超链接得到的是针对此条专利信息的具体页面,那么现在我如何设置heritrix,可以抓取到每页50条,一共几万条的这些具体专利信息页面到本地呢?另外可否抓取的同时将html格式转换伪txt格式到本地?谢谢高手指点!
欢迎交流:
qq: 173635235
msn: bisal1130@yahoo.com.cn
email: bill1130@gmail.com
请教一下大家如何用heritrix抓取以下网站内容,需要定制么?下面是USPTO的专利网页:http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits其中NextList1表示第一个50条信息的页面,NextList2,NextList3,以此类推,在这些页面中点击每条超链接得到的是针对此条专利信息的具体页面,那么现在我如何设置heritrix,可以抓取到每页50条,一共几万条的这些具体专利信息页面到本地呢?另外可否抓取的同时将html格式转换伪txt格式到本地?谢谢高手指点!
欢迎交流:
qq: 173635235
msn: bisal1130@yahoo.com.cn
email: bill1130@gmail.com
- 提问:Heritrix应用问题
- heritrix的启动问题
- Heritrix安装问题处理
- Heritrix 2.0.2配置问题
- lucene 经典问题提问
- 关于提问的问题
- 如何提问问题
- 学生提问问题-汇总
- Heritrix
- Heritrix
- heritrix
- heritrix
- Heritrix
- heritrix
- heritrix
- Heritrix
- 【Heritrix 01】Heritrix ecplise下配置安装存在的问题
- 如何使用邮件提问问题?
- 使用Struts中的ActionForm类来上传图片
- 图片横向连续滚动js代码
- A2DP
- 很好玩的JS
- VB.NET书籍
- 提问:Heritrix应用问题
- 很多人是“笨”死的
- 相当低级程序
- 运行插入到innerHTML中的script
- 移动OA(MAS)
- Drag with prototpye
- 连载:大学生求职七大昏招(十四)抱怨(5)
- SQL Server压缩日志及数据库文件大小
- [转]让商家只赚100块 笔记本砍价实用技巧