胖子哥的大数据之路(16):大数据采集标准-我们到底需要什么样的数据?
来源:互联网 发布:路由器域名重定向设置 编辑:程序博客网 时间:2024/04/30 05:51
一、前言
刚刚有一个好友向我咨询数据相关的问题,朋友目前是IT设备生产厂商的人。从好友的描述中,提到对用户特征获取的需求。包括:人的兴趣爱好、关注焦点等,在用户的描述中其实只是直觉性的列决出了几点,然后基于此作相应的后续产品或服务推荐。朋友要表达的内容,在我理解,其实是想获取用户的完整的画像信息,只是她并不清楚,完整的用户标签体系应该是个什么样子而已,数据标签体系作为下一个系列,我们单独探讨。在此,我们讨论的问题聚焦到,要想实现业务目标,我们到底需要什么采集(此处不区分自有,还是外部采买)什么样的用户数据,才能支撑我们的业务目标,即数据采集标准的问题。
二、所需即所用-没有标准的标准
世界上不会有完全相同的两条河流,同样也不会有两个完全相同的业务实体,即使是同一行业,同一领域,不同的企业,其业务模式也是有差异的,比如今日之华为和小米。业务目标驱动的数据需求采集,有其局限性,但也有其适用性,局限性在于时移世易,业务变了,数据需求也就变了;适用性在于,量出为入,不奢侈,不浪费。此话说起来简单,实施起来确实非常复杂,举例而言,苹果6plus(高档货,没用过,感觉很高档的样子)如果在投入市场之前,需要圈定预售目标群体,针对其推送响应的推广信息(貌似苹果不需要广告,人多钱傻东西贵的年代,苹果赚钱都赚的有点不好意思了)那么需要参考哪些数据指标,不需要参考哪些指标?评判需要和不需要的标准又是什么?用户特征维度示例如下图所示:
其中每一项代表用户的一个标签特征,我没有穷举,而是用...省略号来进行处理,不是因为尚未形成体系,而是搜索引擎业务模型下的用户标签体系未必适合于其他领域。此处涉及一个标准的问题,这些特征标签够吗?判断够与不够的标准是什么(我也是醉了,一说起标准就成了说车轱辘话了)?数据领域有一个非常操蛋的东西,就是没有标准,其实很多问题,同样没有标准。之前和几个数据仓库领域的专家探讨数据仓库数据存储模型设计标准的问题的时候,我总结了几条:
1.用的爽吗?
用的不爽是给别人找麻烦;
2.变的勤吗?
变的勤是给自己找麻烦;业务未变,模型变,是你设计有问题;业务变了,模型变,是合理的场景。
数据采集的标准其实有点和上面的问题类似,也可以总结为几点:
1.数据拿来干什么?
2.数据拿来怎么用?
我想回答了以上两个问题,即明白数据采集的判断标准问题:业务驱动,量出为入,所需即所采。
三、预告
下个专题写用户标签体系,在此预告吧。先放一张图,百度的用户画像示意图,感觉挺好看的。
- 胖子哥的大数据之路(16):大数据采集标准-我们到底需要什么样的数据?
- 胖子哥的大数据之路(一)-数据仓库也需要大数据
- 胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式
- 胖子哥的大数据之路(12)-三张图告诉你大数据安全方案设计
- 胖子哥的大数据之路(五)- 数据资源-垄断的壁垒
- 胖子哥的大数据之路(13)破题,从数据整合开始
- 胖子哥的大数据之路(14):数据价值链模型
- 胖子哥的大数据之路(四)- VisualHBase功能需求框架
- 胖子哥的大数据之路(7)- 传统企业切入核心or外围
- 胖子哥的大数据之路(8)- 数据仓库命名规范
- 胖子哥的大数据之路(15):互联网企业数据战略运营规划之总决式
- 胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做
- 胖子哥的大数据之路(9)- 数据仓库金融行业数据逻辑模型FS-LDM
- 论战大数据----胖子哥的PK之旅(一)
- 大数据的标准
- 中国户外广告行业究竟需要什么样的大数据?
- 大数据之数据采集
- 什么样的大数据才是有意义的?
- openwrt烧写内核系统后 wifi链接登录web(luci)
- 探究CSS3 box-sizing属性,重新定义盒子模型with、height尺寸
- git与github——如何把自己的项目push到github上
- spark+eclipse环境搭建同时使用kmeans聚类
- 转载一篇关于图像处理的文章,很有用,感谢作者
- 胖子哥的大数据之路(16):大数据采集标准-我们到底需要什么样的数据?
- PHP文件处理--打开文件
- 解决listview与scrollview结合使用时出现的问题
- requirejs加载css
- 第六周项目1==分数类的雏形
- 基于halcon工业图像处理——初学
- 二叉树的部分操作
- hdu1432
- 文章标题