前嗅ForeSpider数据采集系统表单字段属性设置方法

来源:互联网 发布:表格公式查找相同数据 编辑:程序博客网 时间:2024/05/21 14:45

关于表单字段属性问题

常见的表单字段分为以下几种不同的类型,包括:网页主键、文字文本、网页地址、图片、采集时间、网页源码等。

网页主键是采集网页地址的MD5值,以标识数据的唯一性。


采集表格数据时,表格每一行都需要主键,不能采用网页主键作为主键值,取值类型应为“空”,字段属性为“自动字段”。


文字文本字段的取值类型一般设为“选区内全部文本”,变量类型为“string”,当从内置浏览器上为字段取值时,大多数情况都选择这一取值类型。采集选区内所有节点的文本内容。字符串长度根据自己选区的文本长度设置,最大255;再长的文本可以把字段属性设置为“变长字段”同时字符串长度设置为0。


网页地址字段的取值类型选择“网页地址”,变量类型为“string”,字符串长度根据网址长度设置。


图片字段取值类型分为两种,当图片在网页的固定位置时,取值类型为“图片”,当图片不在固定的位置时取值类型为“原始数据流”,变量类型都是“stream”,配合扩展主类型和子类型选择。


采集时间字段的取值类型选为“网页获取时间”,其它默认,取到的是ForeSpider下载该网页的时间。


网页源码的取值类型为“选区网页源码(包含当前标签)”,变量类型为“string”,这里可以设置个变长字段,采集到的是整个页面的所有文本包括不可见的文档结构标签等。


以上是几个经常用到的字段,大家要采集的内容类型复杂的话最好不要使用快速建表,手动新建更准确。

原创粉丝点击