提问:Heritrix应用问题

来源:互联网 发布:cnc数控车床编程视频 编辑:程序博客网 时间:2024/05/02 12:46
Heritrix应用问题

请教一下大家如何用heritrix抓取以下网站内容,需要定制么?下面是USPTO的专利网页:http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits其中NextList1表示第一个50条信息的页面,NextList2,NextList3,以此类推,在这些页面中点击每条超链接得到的是针对此条专利信息的具体页面,那么现在我如何设置heritrix,可以抓取到每页50条,一共几万条的这些具体专利信息页面到本地呢?另外可否抓取的同时将html格式转换伪txt格式到本地?谢谢高手指点!

欢迎交流:
qq:      173635235
msn:    bisal1130@yahoo.com.cn
email:   bill1130@gmail.com
原创粉丝点击