Web Usage Mining 的应用

来源:互联网 发布:美工欣赏 温斯顿 编辑:程序博客网 时间:2024/05/21 10:47

Statistical Analysis:

Page Views,Viewing time navigational path的长度作频率,平均值,中值等统计分析。
网络流量分析工具可以提供统计信息,如:
           
最经常访问的网页
           
页面平均访问时间
             
一个站点的平均路径长度
还可以提供简单的错误分析,如:发现非授权的进入点和经常访问的死链接。
尽管缺乏深层次的分析,这种知识可能会提高系统性能,提高系统的安全性,提供市场决策支持


Association Rules:

传统的关联规则主要应用于超市的销售上。如:买牛奶的顾客中有90%买了面包。
Web Usage Mining 中,关联规则是指经常同时访问的网页(有阈值)。这些网页间可能没有超链。
例如:用Apriori 算法可以计算访问电子产品网页的用户和访问体育器材网页的用户之间的关系。
这可以帮助网站设计者重构网站。还可以帮助预先取得文档,减少用户感觉的延迟。

Clustering:
把有相似特征的东西放在一起。
Usage Clustering
:把具有相似浏览行为的用户放在一起。可以用来做电子商务的市场划分。
Page Clustering:
发现具有相关内容的网页。可以用于搜索引擎。


Classification:
Web Usage Mining 中,研究如何把用户分类。
     
分类可以使用有指导的学习方法如:
            Decision tree
            na?ve Bayesian
            k-nearest neighbor
            Support Vector Machines
等。

Sequential Patterns:
发现session之间的pattern,可以用于预测未来的访问模式,以针对特定的用户群做广告。此外还有trend analysis,change point detection 或者similarity analysis


Dependency Modeling:
建立模型来表示web中各个变量之间的依赖关系
使用的方法:
      Hidden Markov Model
        Bayesian Belief Network
对用户行为模式的建模,不仅提供了分析用户行为的理论框架,还可以预测未来Web资源的需求,提高网上产品的销量。

Pattern Analysis:
除去无趣的规则和模式,严格的分析方法取决于网络挖掘的应用。Pattern Analysis最常见的形式包括一个查询机制,如SQL.另一种方法是把行为数据放入一个数据立方体中进行OLAP.
可以使用可视化技术
内容和结构信息


Taxonomy Dimensions:
the data sources used to gather input
the types of input data
the number of users represented in each data set
the number of Web sites represented in each data set
the application area focused on by the project
大多使用single-site,multi-user,server-side usage data


通用的原型系统:
WebSIFT:
SpeedTracer: IBM Watson .
从日志文件中重建user traversal path,然后识别出user session。利用数据挖掘算法发现 most common traversal path   frequently visited page group
WUM:
提供一个挖掘语言,来指定对分析者有用的frequent path的特征。提供树结构的sequence pattern显示方式
WebLogMiner:
web服务器日志放入数据立方体进行数据的roll-updrill-down,发现关联规则,分类,进行时序分析。
Shahabi :Rely on Client Side data collection.


Personalization

根据用户的行为对其动态推荐
WebWatcher:
一开始对每个用户的兴趣有一个简短的描述,每个页面请求都要通过WebWatcher。学习特定用户和同类别用户的浏览行为。
SiteHelper:
把用户经常访问的网页中的关键词反馈给用户,让用户选择。
Letizia:Client Side agent.
找出与用户已浏览网页相似的网页。
Yan et. al.:
使用Web服务器日志发现相似行为的用户群。每个用户放入一个用户群中,然后向用户发送同用户群其他用户访问的网页


System Improvement

Web Usage Mining
可以用来改善Web Caching,network transmission ,load balancing ,data distribution .
Security方面,可以帮助检测intrusion,fraud,attempted break-in
Almeida et.al.:
建立一个模型,帮助Proxy选择pre-fetchingcaching策略。
Schechter et.al:
从服务器日志数据中生成path profile,用于预先生成动态HTML,减少网页生成时的延迟。

Site Modification

Web Usage Mining
提供用户的行为信息,辅助对网站进行重新设计
SCML
算法可以根据服务器日志中的行为数据自动改变站点的结构。


Business Intelligence

Buchner et.al:
Web Data发现重要市场信息。他们定义了网络日志数据的超立方体,把Web Usage Data和电子商务数据和知识整合在一起。
Commercial Products:
      SurfAid,Accrue,NetGenesis,Aria,Hitlist,WebTrends


Usage Characterization

Web characterization researchWeb usage mining中有很大部分的重叠
Catledge et al.:
修改浏览器记录客户行为,收集用户与浏览器交互的信息。对各种行为进行统计,如:后退,前进,保存文件等。
Pitkow et al.:
建立一个模型,预测一个用户访问各个页面的概率分布。对每个页面赋了一个值。模式使用的公式和阈值是从实践经验得出的。