基于storm和hadoop的广告系统研究【3】

来源:互联网 发布:js 字符串转jsonarray 编辑:程序博客网 时间:2024/05/18 20:06

二、基于用户分析的计算广告

基于用户分析的计算广告是直接寻找广告与用户的一致性,当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入,其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据,如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓,进行数据范围的界定,否则分析的标准无从谈起了。

1.数据属性的特性和用户特征

(1)IP数据主要用于界定用户所处的地域,不同的地域经济条件有差异,商品在不同的地域销售也存在广泛的差异。可以依据用户所在地域针对性的选择地域广告商增加广告的成功率。然而由于IP目前大部分为动态的,所以根据IP分析用户的地域具有一定的时效性。IP虽然也可以依据地域性的特征来选定用户的不变性,然而由于内网可能存在,以IP作为用户识别的直接特征错误率会比较高。

(2)注册资料可以更详细展现用户的具体信息,如性别、年龄、姓名、联系方式、住址等等,然而这些信息也有更大的概率是虚假信息,如一个男性注册为女,虽然偶尔去浏览女性的香水更有可能是想了解而不是有购买的意愿。这些信息可以作为广告过滤的辅助条件,但是直接效果就不如IP数据那么有效了。当然可以采用大数据挖掘的方式来核对信息,形成一个用户的有效信息,不过这需要积累一定的用户访问记录数据后才可能进行的-------而且还要有正确性比较高的行为模型库。

(3)cookie追踪是一种有效的跟踪用户行为的手段,在一个时间段内的依据cookie的标识Id积累用户的访问记录。这里存在的一个问题就是访问记录数据的获取,作为综合型合作站点众多的广告服务商,所获得的数据对于用户的模型的建立相对更全面和合理。然而作为类型化广告服务商来讲,获得的数据大多来自与同领域的网站,这个时候则要建立关联性的模型,如果仍然以全面型作为模型的目标,则可能存在严重的偏差在类型领域以外的地方。

然而,更具体来讲,通过访问记录追踪可以获得如下的分析结果:

a、用户网络信息关注区域----------这个数据分析需要首先建立一个信息区域划分库(存储关键词的拓朴结构)

b、用户上网的时间段--------不同时间投放的广告点击率有所差异

2.实现方案分析

(1)建立用户兴趣分类库。系统建立初期由于没有数据,用户兴趣分类库需要人工挑选高特征关联词建立,随着系统的使用,访问记录增多,通过对访问记录的主题关键词的拓扑关系进行统计分析,建立起基于数据分析的库。具有用户购买行为的数据能够很好的提高用户兴趣分类库的准确性,但是最为广告服务提供商很少能够获取到此类数据,除非购买,更多的只能依据用户兴趣分类库进行兴趣关联分析。

兴趣分类库需要包括关键词关联表和兴趣关键词表,前者存储词与词之间的拓扑关系,后者存储关键词。以hbase数据库作为存储。

兴趣关键词表,结构如下

序号字段名类型注释1idint关键词id2keywordstring关键词3heightint词频,关键词出现的频率4addtimedatetime关键词添加日期

关键词关联表结构如下

序号字段名类型注释1idint关系主键2primarywordkeyidint主关键词id3subwordkeyidint副关键词id4heightint词关系权重,数值越大关联越高5addtimedatetime关系添加日期

(2)建立访问记录库,依然在hbase中存储。scanhistory表结构如下

序号字段名类型注释1idint访问记录主键2urlstring访问页面网址3ipstring用户的ip4cookieidstring用户客户端的cookieid5addtimedatetime访问记录添加日期(3)建立访问页面内容解析库,依然储存在hbase中。webpagekeyword表结构如下

序号字段名类型注释1idint关系主键2urlidinturl的id3keywordidint关键词id

原创粉丝点击