Web数据挖掘综述

来源：互联网发布：卫计委大数据编辑：程序博客网时间：2024/05/17 02:45

1. 基于WEB 数据挖掘的分类

根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类：

² 基于WEB 内容的挖掘（WebContent Mining）

² 基于WEB 结构的挖掘（WebStructure Mining）

² 基于WEB 使用的挖掘（WebUsage Mining）

1) 基于WEB 内容的挖掘

所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB文档文件挖掘以及基于概念索引或Agent技术的资源搜索也应该归于此类。Web 信息资源类型众多，目前WWW 信息资源已经成为网络信息资源的主体，然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外，相当一部分信息是隐藏着的数据（如由用户的提问而动态生成的结果，存在于数据库系统中的数据，或是某些私人数据）无法被索引，从而无法提供对它们有效的检索方式，这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看，WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的，因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。

2) 基于WEB 结构的挖掘

这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程，它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析，即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点，而且对网络资源检索结果的排序有很大意义。

3) 基于WEB 使用的挖掘

基于WEB 使用的挖掘，也称为WEB 日志挖掘（WebLog Mining）。与前两种挖掘方式以网上的原始数据为挖掘对象不同，基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括：网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中，然后对积累起来的日志文件进行挖掘，从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。

2. 基于WEB 数据挖掘的特点

1) 什么是半结构化

所谓半结构化是相对于结构化和非结构化而言的。我们称传统数据库中的数据为完全结构化的数据，而同时还存在着一些诸如一本书、一张图片等完全无结构的非结构化数据。半结构化则是介于两者之间，具有隐含模式、信息结构不规则、无严格类型约束等特点。半结构化数据模式有如下特征:

n 先有数据，后有模式；

n 半结构化数据的模式是用于描述数据的结构信息，而不是对数据结构进行强制性的约束；

n 半结构化数据的模式是非精确的，它只可能描述数据的一部分结构，也可能根据数据处理的不同阶段的视角不同而异；

n 半结构化数据的模式，可能规模很大甚至超过源数据的规模，而且会由于数据的不断更新而处于动态变化过程中。

2) WEB 数据的特点

Web 上的数据最大特点就是半结构化。但是Web 上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据而且按照一定的组织有规律的集中或者分布存放，结构性很强；而Web 上的数据非常复杂，没有特定的模型描述每一站点的数据，都各自独立设计并且数据本身具有自述性和动态可变性，因而Web 上的数据不是强结构性的。但与此同时Web 页面又是有描述层次的，单个网站也是按照各自的结构构架的，从而具有一定的结构性。因此我们认为Web 上存在的数据既不是完全结构化的也不是完全非结构化的，而是介于两者之间，一般称之为半结构化数据。

半结构化是Web 上数据的最大特点，显然面向Web 的数据挖掘比面向单个数据仓库或者其他结构化数据集的数据挖掘要复杂得多。

3. 使用基于WEB 数据挖掘能得到什么

Web Mining 技术已经应用于解决多方面的问题，比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料，而基于使用的数据挖掘之威力，更是在商业运作上发挥的淋漓尽致，具体表现在：

1) 对网站的修改能有目的有依据稳步的提高用户满意度

发现系统性能瓶颈，找到安全漏洞，查看网站流量模式，找到网站最重要的部分，发现用户的需要和兴趣，对需求强烈的地方提供优化，根据用户访问模式修改网页之间的连接，把用户想要的东西以更快且有效的方式提供给用户，在正确的地方正确的时间把正确的信息提供给正确的人。

2) 测定投资回报率

测定广告和促销计划的成功度

找到最有价值的ISP 和搜索引擎

测定合作和结盟网站对自身的价值

3) 提供个性化网站

对大多数WEB 应用来说，让用户感到真个网站是完全为他自己定制的个性化网站，是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好（数据挖掘算法得到的用户访问模式）向用户动态的提供要浏览的建议自动提供个性化的网站。

4. 基于WEB 使用挖掘中的技术问题

1) WebUsage Mining 中非技术问题

在基于使用的挖掘中，出于商业目的考量网站的拥有者或者管理者经常会对网站的某些方面提出一些分析，比如：流量分析（点击量）、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。

就这些方面作进一步的智能分析，我们可以从中真正与数据挖掘相关的问题：

a) 网页相关性分析

哪些网页具有密切的关系，如果很多人具有a.html-〉b.html-〉c.html 这样的访问模式，则我们可以认定a.html和c.html 之间有一定的关系，从而考虑是否在a.html上直接加上c.html的链接。

b) 用户访问模式分析

有哪一些网页用户只要访问了其中的一页，则可以断定他也要访问其他的网页即按不同的用户访问模式，把网页分组得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似（具有类似的兴趣）即根据用户行为的相似性，把用户按行为模式分类。

c) 用户归类

通过用户填写的信息如何把用户归入某一特定的类别，然后可对同一类别中的用户提供相似的服务。

2) Web Usage Mining 中的技术问题

a) 数据处理

如何得到分析和数据挖掘所用的数据，主要采用两种方法，一是直接使用WebServer的Log 文件，二是用网络监听的办法，在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内，供统计分析和数据挖掘使用。

b) 统计分析

在数据库的基础上，针对不同的数据运行各种统计函数。

c) 数据挖掘

数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识，提供给用户作决策支持，或利用这些知识动态生成网页，为用户提供访问建议。

d) 关联规则Association Rules

从服务器会话中发现请求网页的相关性，可用于优化网站组织，实现网络代理中的预取功能等。

e) 聚集Clustering

使用分组（UsageClusters ）把具有相似浏览模式的用户分成组，可用于电子商务应用中市场分片（marketsegmentation）和为用户提供个性化服务，而网页分组（pageclusters ）按内容的相似性把网页分类，可用于搜索引擎和Web 浏览助手（Webassistance providers ）为用户提供推荐链接。

f) 归类Classification

根据用户的个人资料，将其归入某一特定的类，可使用决策树、naiveBayesian classifiers、 k-最近邻居等算法。

g) 序列模式Sequential Patterns

发现一个session内部的网页间的时间相关性，可用于预测用户的访问趋向而提供建议。