前嗅ForeSpider数据采集系统表单字段属性设置方法
来源:互联网 发布:表格公式查找相同数据 编辑:程序博客网 时间:2024/05/21 14:45
关于表单字段属性问题
常见的表单字段分为以下几种不同的类型,包括:网页主键、文字文本、网页地址、图片、采集时间、网页源码等。
网页主键是采集网页地址的MD5值,以标识数据的唯一性。
采集表格数据时,表格每一行都需要主键,不能采用网页主键作为主键值,取值类型应为“空”,字段属性为“自动字段”。
文字文本字段的取值类型一般设为“选区内全部文本”,变量类型为“string”,当从内置浏览器上为字段取值时,大多数情况都选择这一取值类型。采集选区内所有节点的文本内容。字符串长度根据自己选区的文本长度设置,最大255;再长的文本可以把字段属性设置为“变长字段”同时字符串长度设置为0。
网页地址字段的取值类型选择“网页地址”,变量类型为“string”,字符串长度根据网址长度设置。
图片字段取值类型分为两种,当图片在网页的固定位置时,取值类型为“图片”,当图片不在固定的位置时取值类型为“原始数据流”,变量类型都是“stream”,配合扩展主类型和子类型选择。
采集时间字段的取值类型选为“网页获取时间”,其它默认,取到的是ForeSpider下载该网页的时间。
网页源码的取值类型为“选区网页源码(包含当前标签)”,变量类型为“string”,这里可以设置个变长字段,采集到的是整个页面的所有文本包括不可见的文档结构标签等。
以上是几个经常用到的字段,大家要采集的内容类型复杂的话最好不要使用快速建表,手动新建更准确。
阅读全文
1 0
- 前嗅ForeSpider数据采集系统表单字段属性设置方法
- ForeSpider数据采集系统
- ForeSpider数据采集系统关键词配置方法
- 前嗅ForeSpider采集大众点评数据教程
- ForeSpider数据采集系统脚本的几个小方法
- ForeSpider数据采集系统如何采集源码中看不到的数据
- ForeSpider数据采集软件之链接抽取
- 超好用的前嗅ForeSpider爬虫软件教程
- 广告系统数据采集方法介绍
- 物料主数据属性字段设置
- 物料主数据属性字段设置
- form表单数据的自动采集的js方法
- 利用forenose前嗅数据采集器爬取网页数据
- 用JQuery采集表单数据
- hibernate字段映射的位置(放在属性前,还是放在方法前??)
- 网页数据采集系统
- 高速数据采集系统
- 数据采集系统
- Two HDU
- 动态代理总结
- 解析C语言结构体对齐(内存对齐问题)
- 容易理解的python用队列实现广度优先遍历文件
- 2017/09计划
- 前嗅ForeSpider数据采集系统表单字段属性设置方法
- 职场沟通中还分上下左右?
- C语言编程初识json
- vyos
- 【南阳理工】 56 阶乘因式分解(一)
- const 和 #define 的区别
- Unity编辑器拓展之二:ReorderableList可重新排序的列表框(复杂使用)
- R语言自定义函数及基本分支循环结构
- spark2.2.0源码学习过程记录:Day4