基于storm和hadoop的广告系统研究【3】
来源:互联网 发布:js 字符串转jsonarray 编辑:程序博客网 时间:2024/05/18 20:06
二、基于用户分析的计算广告
基于用户分析的计算广告是直接寻找广告与用户的一致性,当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入,其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据,如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓,进行数据范围的界定,否则分析的标准无从谈起了。
1.数据属性的特性和用户特征
(1)IP数据主要用于界定用户所处的地域,不同的地域经济条件有差异,商品在不同的地域销售也存在广泛的差异。可以依据用户所在地域针对性的选择地域广告商增加广告的成功率。然而由于IP目前大部分为动态的,所以根据IP分析用户的地域具有一定的时效性。IP虽然也可以依据地域性的特征来选定用户的不变性,然而由于内网可能存在,以IP作为用户识别的直接特征错误率会比较高。
(2)注册资料可以更详细展现用户的具体信息,如性别、年龄、姓名、联系方式、住址等等,然而这些信息也有更大的概率是虚假信息,如一个男性注册为女,虽然偶尔去浏览女性的香水更有可能是想了解而不是有购买的意愿。这些信息可以作为广告过滤的辅助条件,但是直接效果就不如IP数据那么有效了。当然可以采用大数据挖掘的方式来核对信息,形成一个用户的有效信息,不过这需要积累一定的用户访问记录数据后才可能进行的-------而且还要有正确性比较高的行为模型库。
(3)cookie追踪是一种有效的跟踪用户行为的手段,在一个时间段内的依据cookie的标识Id积累用户的访问记录。这里存在的一个问题就是访问记录数据的获取,作为综合型合作站点众多的广告服务商,所获得的数据对于用户的模型的建立相对更全面和合理。然而作为类型化广告服务商来讲,获得的数据大多来自与同领域的网站,这个时候则要建立关联性的模型,如果仍然以全面型作为模型的目标,则可能存在严重的偏差在类型领域以外的地方。
然而,更具体来讲,通过访问记录追踪可以获得如下的分析结果:
a、用户网络信息关注区域----------这个数据分析需要首先建立一个信息区域划分库(存储关键词的拓朴结构)
b、用户上网的时间段--------不同时间投放的广告点击率有所差异
2.实现方案分析
(1)建立用户兴趣分类库。系统建立初期由于没有数据,用户兴趣分类库需要人工挑选高特征关联词建立,随着系统的使用,访问记录增多,通过对访问记录的主题关键词的拓扑关系进行统计分析,建立起基于数据分析的库。具有用户购买行为的数据能够很好的提高用户兴趣分类库的准确性,但是最为广告服务提供商很少能够获取到此类数据,除非购买,更多的只能依据用户兴趣分类库进行兴趣关联分析。
兴趣分类库需要包括关键词关联表和兴趣关键词表,前者存储词与词之间的拓扑关系,后者存储关键词。以hbase数据库作为存储。
兴趣关键词表,结构如下
序号字段名类型注释1idint关键词id2keywordstring关键词3heightint词频,关键词出现的频率4addtimedatetime关键词添加日期
关键词关联表结构如下
序号字段名类型注释1idint关系主键2primarywordkeyidint主关键词id3subwordkeyidint副关键词id4heightint词关系权重,数值越大关联越高5addtimedatetime关系添加日期
(2)建立访问记录库,依然在hbase中存储。scanhistory表结构如下
序号字段名类型注释1idint访问记录主键2urlstring访问页面网址3ipstring用户的ip4cookieidstring用户客户端的cookieid5addtimedatetime访问记录添加日期(3)建立访问页面内容解析库,依然储存在hbase中。webpagekeyword表结构如下序号字段名类型注释1idint关系主键2urlidinturl的id3keywordidint关键词id
- 基于storm和hadoop的广告系统研究【3】
- 基于storm和hadoop的广告系统研究【1】
- 基于storm和hadoop的广告系统研究【2】
- 基于storm和hadoop的广告系统研究【4】
- 基于storm和hadoop的广告系统研究【5】
- 基于storm和hadoop的广告系统研究【6】
- 基于storm和hadoop的广告系统研究【7】
- 实时Hadoop实战篇:基于Storm实时路况分析和实时路径推荐系统
- 实时Hadoop实战篇:基于Storm实时路况分析和实时路径推荐系统
- 《hadoop进阶》基于hadoop和hive的微博热词跟踪系统
- 基于storm引擎的虫洞系统
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- Hadoop、Storm和spark的区别
- Hadoop、storm和Spark的区别、比较
- Hadoop和Storm的4点区别
- Apache 实现Web Server 负载均衡,不考虑Session版
- LeetCode:Combinations
- LPTSTR、LPCSTR、LPCTSTR、LPSTR之间的转换
- Android工程师面试准备知识点
- Mybatis学习(一)
- 基于storm和hadoop的广告系统研究【3】
- Java优化
- 设置ListCtrl列表控件其中某一行的字体和背景颜色
- winform listbox 没有listitem的问题
- java日历类处理
- 数据库为何要建立索引的原因说明(不错)
- 【Nginx】服务器安装于配置
- svm理论与实验之10: SVM多类分类
- RANSAC