《商务智能 管理视角》——(六)文本挖掘和Web挖掘

来源:互联网 发布:宁波现货网络销售招聘 编辑:程序博客网 时间:2024/05/12 18:21

文本挖掘

文本挖掘(也叫文本数据挖掘或文本型数据库中的知识发现)是指半自动化地从大量的非结构化数据资源中提取模式(即有用的信息或知识)的过程。文本挖掘和数据挖掘一样,他们具有相同的目的并利用相同的处理过程。但对于文本挖掘,处理的过程是输入非结构化或少量结构化的数据文件,这些数据文件包括word 文献、PDF文件、文本摘要、XML文件等。实际上,文本挖掘可以看做是这样的一个处理过程(包括两个主要步骤),首先是将这些基于文本的数据资源进行结构化处理,然后利用数据挖掘技术和工具从这些结构化文本数据中提取相关的信息和知识。

 

 

字袋模型 早期的文本挖掘应用表现为一个叫做字袋模型的简单形式,字袋模型是一个基于文本文件的集合,它将这些文字分为两种或更多预先测定的种类,或者将它们进行自然分类。如果邮件过滤中,其中一个字袋是组成垃圾邮件的名词,另一个是组成合法邮件的名词,将一个电子邮件的“字袋模型”和这两个字袋之间进行对比,叙述语决定这个垫子邮件是属于垃圾邮件还是合法邮件。

 

 

自然语言处理(NaturalLanguage ProcessingNLP是文本挖掘中一个重要组成部分,也是人工智能和机器语言领域的一部分。它将人类语言描述(如文本型文件)转变为更容易被计算机程序所能操作的形式(数据或符号格式的数据),从而“理解”人类自然语言。NLP的目的是将语法驱动文本操作的处理(通常叫做“文字统计”)变为真正的自然语言理解和处理,这种自然语言具有语法、语义和上下文约束。

       NLP并不能像人类一样准确地理解自然语言。下面是一些与实现NLP有关的一些挑战性问题:

·部分词性标注(名词、动词、副词等不仅与专业术语有关,还与上下文环境有关)

·文本分割(中文、英文、日文等语言在文字间界定边界很难)

       ·词语歧义(许多词不仅一种意思,还与上下文语境相关,才能判断那种意思更有意义)

       ·语法含糊不清(自然语言的含糊不清也造成识别的含糊不清)

       ·有缺陷或不规则输入(说外语或方言、发音问题及印刷或语法上的文本错误难处理)

       ·说话方式(句子通常代表说话人的行动,单独句子结构不能含足够信息确定人的行动)

 

 

文本挖掘过程

一个标准的处理模型是跨行业数据挖掘过程标准CRISP-DM,也就是数据挖掘的行业标准。

下图为一个典型的文本挖掘过程的顶层语境图:


基本结构包括:输入(左),输出(右),控制(上),机制(下)

文本挖掘的主要目的是对非结构化数据进行处理,挖掘出更有意义的有用的内容,从而有利于决策的制定。

 

       在跟高级别中,文本数据挖掘处理可以划分为3个连续的任务,每一项任务都要求特定的输入并产生固定的输出。如由于某种原因,其中一项不是用户所希望的,就要返回到上一步骤执行中。

任务一:确定素材

       收集所需的各种材料,如文本文件、XML文件、电子邮件、网页、摘要等,转换成文数据。将这些文本数据转化并重新组织为相同的格式,便于计算机出来。

任务二:创建文献术语矩阵

       利用数据化的组织好的文献形成文献矩阵(Term-DocumentMatrix ,TDM)。在TDM中,行代表文献,列代表术语,文件和术语间有标志和被标志的关系。

 

       处理大的矩阵需要耗费大量的时间,更重要的是可能得不得正确的模式。因此必须考虑以下两个问题:(1)找出最具代表性的指数;(2)怎样将矩阵的大小减少到合适的规模。

       代表性指数,指数标准化方法:

1.      对数频率法

2.      二进制频率法

3.      逆文献频率法

4.      减小矩阵规模

5.      奇异值分解

任务三:提取知识

       用数据挖掘方法:分类、聚类、关联、趋势分析

 

 

Web挖掘

Web挖掘(或Web数据挖掘)是指从Web数据中挖掘出本质关系(如用户感兴趣和有用的信息)的过程,这些Web数据通常表现为文本信息、链接信息和使用信息。Web挖掘一次首次由Etzioni(1996)提出。Web挖掘通常应用于技术和商业领域。

 

Web 挖掘涉及3个主要的领域:

Web内容挖掘

       Web内容挖掘是指从网页上提取有用的信息,包括文本信息、连接信息等。

Web结构挖掘

       Web结构挖掘指从网络文件中的关联关系中挖掘有用信息的过程。

Web使用挖掘

       Web使用挖掘是指从网页访问和交易中产生的数据中提取出有用信息的过程。

网络访问产生的数据至少有以下3中类型:

1.      存储在服务器上的访问日志、引用日志、代理日志和客户端文字信息。

2.      用户特征。

3.      元数据,如网页属性、内容属性和使用数据。

 

分析Web服务器上的信息可以帮助我们更好地理解用户的行为特征,这种分析叫做点击流分析

Nasraoui(2006)指出了Web挖掘的应用:

1.      决定客户终身价值

2.      制定产品市场战略

3.      评估促销宣传

4.      根据用户的访问类型制定电子广告和优惠券

5.      基于之前的学习规则和用户特征预测用户的行为

6.      基于用户的兴趣的特征,向用户提供动态信息

 

 

原创粉丝点击