【基础知识】Url参数格式

来源:互联网 发布:unix高级编程视频教程 编辑:程序博客网 时间:2024/06/03 21:58

原文地址:http://board.locoy.com/api.htm


Url参数格式列表如下:

注意:以下示例中省略type,user,pwd这三个参数。
a、所有的请求返回结果格式都可以是Xml或Json的,默认的类型在服务器启动参数里设置,也可以通过type=xml或type=json参数强制指定。
b、在服务器不允许匿名访问的情况下,所有请求Url中必须包含user和pwd这2个参数!

1 操作任务

操作mothed备注样例查看所有任务get http://127.0.0.1:888/api?model=job&action=list启动任务get http://127.0.0.1:888/api?model=job&action=start&jobid=1暂停任务get http://127.0.0.1:888/api?model=job&action=pause&jobid=1停止任务get http://127.0.0.1:888/api?model=job&action=stop&jobid=1下载任务get http://127.0.0.1:888/api?model=job&action=get&jobid=1永久更新任务post上传ljobx格式文件,表单名rulefilehttp://127.0.0.1:888/api?model=job&action=update&jobid=1临时更新任务post上传规则xml文件,表单名jobxmlfilehttp://127.0.0.1:888/api?model=job&action=tempupdate&jobid=1重新加载任务get从数据库中重新加载任务http://127.0.0.1:888/api?model=job&action=refresh&jobid=1删除任务get http://127.0.0.1:888/api?model=job&action=delete&jobid=1创建任务post上传ljobx格式文件,表单名rulefile,站点id为siteidhttp://127.0.0.1:888/api?model=job&action=create更新任务运行状态get必须包含采网址spiderurl、采内容spidercontent、发内容outcontent三个选项中一个,其中1为选中,其它为不选中http://127.0.0.1:888/api?model=job&jobid=304&action=changestatus&spiderurl=1&spidercontent=1&outcontent=1

2 计划任务

操作mothed备注样例查看所有计划任务get http://127.0.0.1:888/api?model=scheduler&action=list查看计划任务get http://127.0.0.1:888/api?model=scheduler&action=view&jobid=1创建计划任务post http://127.0.0.1:888/api?model=scheduler&action=create&jobid=1更新计划任务post计划任务表单名为cronhttp://127.0.0.1:888/api?model=scheduler&action=update&jobid=1删除计划任务get http://127.0.0.1:888/api?model=scheduler&action=delete&jobid=1

3 查看采集数据

操作mothed备注样例查看采集数据get http://127.0.0.1:888/api?model=data&action=view&pn=1&rn=20&jobid=1统计采集数据量getopreator参数:0为全部数量,1为已采数量,2为未采数量,3为已发数量,4为未发数量http://127.0.0.1:888/api?model=data&action=count&opreator=1&jobid=1

4 分组操作

操作mothed备注样例查看所有分组get http://127.0.0.1:888/api?model=site&action=list新建分组getsitename为分组名,parentid为上级分类,根级为0http://127.0.0.1:888/api?model=site&action=create&sitename=testname

5 正文提取

操作mothed备注样例对链接内容进行正文提取getpageurl参数,程序自动获取pageurl链接对应html源码,此参数不可缺少。returntype指定采集模式,pure纯净,raw完全。pagetype指定正文提取模式,bbs论坛问答模式。returntype和pagetype两个参数可缺少,returntype 的默认值为标准模式,pagetype默认值为新闻模式。http://127.0.0.1:888/api?model=text&pageurl=http://news.qq.com/a/20121212/123456.htm&returntype=pure&pagetype=bbs对源码内容进行正文提取gethtml参数提交html源码,此参数不可缺少。returntype指定采集模式,pure纯净,raw完全。pagetype指定正文提取模式,bbs论坛问答模式。returntype和pagetype两个参数可缺少,returntype的默认值为标准模式,pagetype默认值为新闻模式。http://127.0.0.1:888/api?model=text&html=testhtml&returntype=raw&pagetype=bbs

6 分词

操作mothed备注样例对指定内容分词get指定内容用以wordsegtxt开头的参数提交,可提交多个分词内容。splitnum最高频词个数,提取前splitnum个最高频词,此参数可缺少,默认值为5。splitsep分隔符,对前splitnum个最高频词用分隔符splitsep连接。http://127.0.0.1:888/api?model=wordseg&wordsegtxt1=testtxt1&wordsegtxt2=testtxt2&splitnum=6&splitsep=|

7 图片识别

操作mothed备注样例对图片内容进行识别getocrfile为指定一个ocr的配置文件,该文件要放在采集器根目录Configuration/ocr目录下,文件名不带后缀的。 imgurl图片链接地址,此参数若有来源页可用参数refer指定。对于base64编码的图片用参数base64提交图片base64编码即可,用 base64参数时不能使用参数imgurl。http://127.0.0.1:888/api?model=ocr&ocrfile=test&imgurl=http://www.qincai.net/png/tele_1642174.png

8 操作扩展任务

操作mothed备注样例更新单条记录的单个值getappname和jobid两个参数不可缺少,appname为扩展英文名,jobid为任务id。更新单条记录的单个值,参数action=updatedata,content为更新内容,labelname为更新字段(任务标签名),dataid为更新记录id。http://127.0.0.1:888 /api?model=app&appname=locoyspider&jobid=292& action=updatedata&content=test&labelname=内容&dataid=1获取单条链接数据getappname和jobid两个参数不可缺少,appname为扩展英文名,jobid为任务id。采集指定链接内容,pageurl为指定链接。http://127.0.0.1:888/api?model=app&appname=locoyspider&jobid=292&pageurl=http://news.qq.com/a/20121022/000983.htm

9 关于

操作mothed备注样例获取平台信息get http://127.0.0.1:888/api?model=about

原创粉丝点击