基于storm和hadoop的广告系统研究【3】

来源：互联网发布：js 字符串转jsonarray 编辑：程序博客网时间：2024/05/18 20:06

二、基于用户分析的计算广告

基于用户分析的计算广告是直接寻找广告与用户的一致性，当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入，其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据，如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓，进行数据范围的界定，否则分析的标准无从谈起了。

1.数据属性的特性和用户特征

（1）IP数据主要用于界定用户所处的地域，不同的地域经济条件有差异，商品在不同的地域销售也存在广泛的差异。可以依据用户所在地域针对性的选择地域广告商增加广告的成功率。然而由于IP目前大部分为动态的，所以根据IP分析用户的地域具有一定的时效性。IP虽然也可以依据地域性的特征来选定用户的不变性，然而由于内网可能存在，以IP作为用户识别的直接特征错误率会比较高。

（2）注册资料可以更详细展现用户的具体信息，如性别、年龄、姓名、联系方式、住址等等，然而这些信息也有更大的概率是虚假信息，如一个男性注册为女，虽然偶尔去浏览女性的香水更有可能是想了解而不是有购买的意愿。这些信息可以作为广告过滤的辅助条件，但是直接效果就不如IP数据那么有效了。当然可以采用大数据挖掘的方式来核对信息，形成一个用户的有效信息，不过这需要积累一定的用户访问记录数据后才可能进行的-------而且还要有正确性比较高的行为模型库。

（3）cookie追踪是一种有效的跟踪用户行为的手段，在一个时间段内的依据cookie的标识Id积累用户的访问记录。这里存在的一个问题就是访问记录数据的获取，作为综合型合作站点众多的广告服务商，所获得的数据对于用户的模型的建立相对更全面和合理。然而作为类型化广告服务商来讲，获得的数据大多来自与同领域的网站，这个时候则要建立关联性的模型，如果仍然以全面型作为模型的目标，则可能存在严重的偏差在类型领域以外的地方。

然而，更具体来讲，通过访问记录追踪可以获得如下的分析结果：

a、用户网络信息关注区域----------这个数据分析需要首先建立一个信息区域划分库（存储关键词的拓朴结构）

b、用户上网的时间段--------不同时间投放的广告点击率有所差异

2.实现方案分析

（1）建立用户兴趣分类库。系统建立初期由于没有数据，用户兴趣分类库需要人工挑选高特征关联词建立，随着系统的使用，访问记录增多，通过对访问记录的主题关键词的拓扑关系进行统计分析，建立起基于数据分析的库。具有用户购买行为的数据能够很好的提高用户兴趣分类库的准确性，但是最为广告服务提供商很少能够获取到此类数据，除非购买，更多的只能依据用户兴趣分类库进行兴趣关联分析。

兴趣分类库需要包括关键词关联表和兴趣关键词表，前者存储词与词之间的拓扑关系，后者存储关键词。以hbase数据库作为存储。

兴趣关键词表，结构如下

序号字段名类型注释1idint关键词id2keywordstring关键词3heightint词频，关键词出现的频率4addtimedatetime关键词添加日期

关键词关联表结构如下

序号字段名类型注释1idint关系主键2primarywordkeyidint主关键词id3subwordkeyidint副关键词id4heightint词关系权重，数值越大关联越高5addtimedatetime关系添加日期

（2）建立访问记录库，依然在hbase中存储。scanhistory表结构如下

序号字段名类型注释1idint访问记录主键2urlstring访问页面网址3ipstring用户的ip4cookieidstring用户客户端的cookieid5addtimedatetime访问记录添加日期（3）建立访问页面内容解析库，依然储存在hbase中。webpagekeyword表结构如下

序号字段名类型注释1idint关系主键2urlidinturl的id3keywordidint关键词id