大数据标签体系建立

来源:互联网 发布:qq秀照片秀网络繁忙 编辑:程序博客网 时间:2024/05/19 19:55

我们要为大数据平台建立一套标签体系,首先要明确我们要建立什么,在我看来我们需要建立独立的三样东西:类目标签体系、用户画像和应用场景。


类目标签体系是以业务核心为中心建立的,业务核心就是你要做的这个大数据平台里面最重要的那个点。举点例子,电商平台的业务核心就是商品,教育平台的核心业务就是教育。电商平台下的类目标签就以商品的分类为基础构建类目树,树的根节点就是商品,往下分可能包括女装/内衣、男装/运动户外、女鞋/男鞋/箱包等子类,等到分到了叶子节点(注意不是越细越好,再往下分对于业务毫无助益了就可以不分了),就可以分析叶子节点的自有属性并且添加到类目树上面去,那么这时一棵类目树就构建好了。怎么确定一个大数据平台的业务核心是什么,这里我提供一种方法:利用头脑风暴把有关涉及该平台的所有事物罗列出来,然后根据物品与平台的关联性大小为基准,将关联性较小的物品一一删除,最后留下来的那个物品就是该平台的业务核心。

但是一直到这里我们建立的并不是类目标签体系,只能称之为类目属性体系。如何从类目标签体系进化到类目属性体系呢?这个时候我们就需要对标签有更加深入的了解了。如果说标签就是一些描述性的词语或者短语的话,那么这些标签从何而来?我们可以从原始的数据源中获取到标签,通过纯粹的语义分析对自然语言处理来获取,这里我们获取到的是原始数据标签。对原始数据进行一定的统计学分析之后我们也可以获取到一部分标签,这里的标签我们称之为统计数据标签。或者我们也可以对原始数据经过算法模型计算后获取一些高级标签,这里的标签我们称之为算法数据标签。总结来说,标签分为三类:原始数据标签、统计数据标签、算法数据标签。类目属性体系中只包括原始数据标签,而我们需要的类目标签体系中需要囊括这三种类型的标签。

至于用户画像,我们可以先浅显地认为这就是人的维度。精确来说,这里的用户画像是在为这个业务系统中所有涉及到的角色做总结性的画像,用户画像本质上也是一套标签体系,只是有着相同的结构而非相同的内容。在用户画像这套标签体系中,分为静态信息和动态信息两部分。静态信息就是用户的自有属性,相当于类目标签体系中叶子节点的自有属性,同样的在静态信息中包含的标签也应该包括三种类型的标签。动态信息就是一个比较抽象的概念了,它主要就是要记录什么人什么时间什么地点做了一件什么事情(这部分详细内容看另外一篇)。如果拿数据库记录来说,静态信息就相当于记录进去一条信息,然后可以对这个信息做修改,或者再增加新的字段;动态信息就是不停地增加新的字段,但是不可以修改之前添加进去的记录。

最后来说应用场景,当我们把业务核心和用户画像理清楚之后,就可以来分析应用场景了,业务核心之间(多个业务核心的状况下)、业务和用户角色之间、用户角色和用户角色之间,一旦产生交互就可以形成应用场景,但是我们仍然需要记住一切以业务范围为首要考量,对于不在业务范围内的应用场景我们需要剔除出去。可以说,应用场景囊括了所有游离的标签。

在把类目标签体系、用户画像和应用场景都建立好了之后,我们就可以以业务场景为基础写模型了(这里我更喜欢称呼它为小故事),就是完整描述下来一套业务流程,这样就能更加清楚地了解到这三者之间是一种怎样相互协作的关系了。

阅读全文
0 0
原创粉丝点击