文本信息挖掘的应用及方法

来源：互联网发布：广东11选5遗漏数据查询编辑：程序博客网时间：2024/06/05 19:17

引言
人类自从进入信息时代以来,随着信息量呈几何数的增长,特别是国际互联网络的日益普
及,信息朝着更加集中、更加分布的两个极端快速发展,即集团或组织会凭借巨额资本和丰富
资源,聚起大量的信息甚至包含知识,从提供信息服务中赚取巨额利润。另一方面,先进的通
信行为模式,使每个人都有可能既是信息接受者又是信息发布者,当每个人都成为信息的发布
者时,信息的总量将变成一片汪洋。人类在社会渐进过程中,就像一叶扁舟漂浮于信息的海洋
。水,可载舟,也可覆舟。善于驾驭则达、恶则亡。
信息挖掘是一种工具,它能够使人们免陷于信息之洋。它可以从大量的冗余信息中迅速
发现对您有用的信息,是信息科学的一个重要分支。
本文着重讨论文本信息挖掘技术的基本构成及其应用。

两种挖掘
从应用角度划分,挖掘的研究可分成两个方向:
一个是数据挖掘(Data Mining)。它主要的需求领域包括:大型超市、股市、银行等。比
较典型的问题,如:可口可乐与薯片放在同一架子上比分别放置能否提高销售数量。可以想见
,一个大型超市拥有成千上万种商品,而相似的问题也有很多,因此所设定的数学模型也不可
能是单一的,它会依据不同的应用和问题而变化。通常,它处理数值型数据,其原型构架在关
系型数据库上,故有时该领域的研究也被看作是关系型数据库的一个智能拓展。
另一个方向是文本挖掘(Text Mining)。与前者不同,它主要处理字符型数据。其早期研
究的分支是信息检索(Information Retrival)。它的应用领域较前者更为广泛,比较典型的
有:媒体工业、图书馆、情报机关和政府。比较典型的问题求解是发现两个主体(可能是人或
事)之间是否关联,是什么样的关联。特别地,在信息网络化时代,单个的人利用传统的手段几
乎不可能处理或阅读整个信息库。同时鉴于信息库中存在着大量无用和冗余的信息,往往使
用户所寻找的信息量与信息总量相比非常小,因此如何"去粗取精、由表及里"并迅速、准确
以及适量地提供用户所需信息,同时在一定程度上揭示信息与信息之间的关联是文本挖掘的
主要任务。
本文主要论述文本信息挖掘。

概念及基本构成

一、与检索的区别
挖掘和传统的信息检索(包括基于关键字检索和全文检索)有哪些重要的区别和联系呢

1.传统的信息检索较适合于数据类型同构的信息库。但是对于异构数据组成的信息库,
例如多媒体等则不擅长。

2.传统的信息检索需要用户将要寻找的事件以关键字的形式较准确地描述出来,作为查
询提交给系统。但往往这与人们通常的思维行为模式背道而驰,再有用户经常并不真地知道
要找什么信息。

3.由于字义本身与其概念的延伸不在同一级上,造成利用传统信息检索所寻找的信息可
能仅仅是字面本身的信息,但往往人们想要的是这个信息的概念及相关的成分,而不仅仅是字
面所表达的信息。

4.数据的再现(Information Representation)是信息挖掘的一个重要组成部分。系统应
有能力动态和实时在线地(On the fly)表现信息的相关属性。使用户通过这样一个机制,发
现信息的变化和异常。

5.传统信息检索可以被当作挖掘的底层工具,换言之,传统信息检索关注"字"的处理而信
息挖掘则关心"字"的本原(Ontology)。

6.传统信息检索尽管引入布尔运算,作为逻辑算子使用户能够较准确地表达查询。但其
结果往往导致或丢失一些信息或产生大量冗余信息。

7.传统信息检索通常是用户从信息库中去找他想要的。而信息挖掘是看信息库中到底存
在些什么。

二、对信息的认识及信息挖掘的几个基本功能
信息的分类:信息的分类是信息处理中重要的组成部分之一。其实,它是人们对信息最自
然而然的处理。事实上,信息的本原由信息的多重属性所构成。一个系统对信息的属性认识
越全面,越有可能揭示信息较为本质的东西。分类与属性有着一定的关系。一般来说,分类是
人们主观创造的产物,是对属性有序聚类的一种认识,这种认识的多寡决定了分类的优劣。
信息通常所具有的时间属性:尽管有时信息表面上并无时间属性,但在文本前后,甚至在
物理距离较远的地方,它可能与某个时间信息有着或紧或松的耦合关系。当你试图观察信息
与信息之间的关联时,你可能发现时间属性可能成为信息与信息之间关联的纽带。
同样,信息库中的概念与地理属性可能存在松或紧的某种关联。通过对信息地理属性的
抽取,用户可以从地理信息的角度看信息与信息之间的关联。例如:在信息库中查询"经济发
达"这个概念时,发现提及"西北地区"文章的频度要大于我们所预设的期望值,从而得知国家
经济发展战略的地区性转移。
信息的聚类:它的思想与分类有点类似。从应用的角度讲,信息聚类包含两种功效。首先
是源于客观世界中某些信息不容易分类。在某些情况下,聚类用于动态产生分类。其次,聚类
大约算成一种"不自然"的分类,这一特性使之成为数据导航技术中重要功能之一。它可以将
不同分类包含不同层次子分类的数据集合,根据用户的需要快速聚集起来。常用于"粗放"型
过滤冗余信息。
信息的导航:如果我们把用户从信息库中取得信息的过程看成是一个不断的动态流,那么
信息导航则应是动态流的有效轨迹。随着通讯环境不断的改善,人们所收受的信息迅速膨胀
,结果是在人与信息之间产生一堵盲障。人们越来越难于找到自己所需的信息。这种变化类
似于过去你买一件衬衫只能从两种里选,但现在却要你从600种中作出抉择。而信息与衬衫不
同之处在于,衬衫不合适仍可凑合着穿;而信息的不合适则可能是这个信息根本就不是你的需
要甚至可能造成误导。
信息导航的原则是提供给用户简明、多视角的方法。
信息的表现:这不仅仅是信息的可视化。由于信息挖掘关心信息的"方方面面",信息表现
要求配合信息挖掘从多角度表现信息的本质和特点。数据的可视化则为数据挖掘的结果提供
表现功能。
文本信息库中的题目,通常是非常重要的。在Internet领域中,若干厂商提供目录及查询
服务,像:Yahoo!、Ly-cos、Web Crawler、Big Yellow等。用户可以通过分类的目录表结合
全文查询工具找到相关的一系列站点。在挖掘中,题目也是非常重要的元数据(Metadata)。

几个语言相关的处理:
从文本信息库中,自动提取人名信息、组织名或公司名信息、产品或某种物质的名称信
息以及某些成形的概念信息。
信息挖掘从文本信息库中抽取地理相关信息,并透过一个管理器连接一个可视化地图和
一个地理信息库。
信息挖掘从文本信息库中抽取某些特殊的和异化的信息。
信息挖掘判断一种名称的多种表示。例如:"中华人民共和国电子工业部"和"电子部"是
指一个单位。

三、信息挖掘的体系结构
@@07183000.GIF;图1@@
上图是一个信息挖掘的整体结构。

应用
文本信息挖掘的试验原型实现在RS-6000工作站上,样本数据来源于《计算机世界》,支
持Motif/X-Windows图形显示。该程序曾在第63届国际图书馆联合大会上展示。原型程序在
提供文本信息挖掘的同时,也提供了高性能信息检索程序。让用户能有多种手段访问信息库
。在国际上,IBM文本挖掘技术和解决方案赢得了许多工业领域大客户的青睐,包括银行电子
邮件自动分拣、专业信息顾问咨询、报业集团、国际电视传播以及电子图书馆等。
应当说,信息挖掘的研究和开发以及应用还刚刚起步,目前的用户大多数还使用传统的信
息检索,信息挖掘的应用与技术需要迅速成熟起来,以支持一个快速的、新兴的Internet信息
服务市场。
信息挖掘还涉及对多媒体数据的处理。例如,当你要检索某个人时,却忘记了它的姓名等
,你可以通过输入此人的相貌特征等去查询。这种技术称为基于图像内容查询(QBIC)。
中文信息挖掘的应用还不多,但对它的需求是存在的,这是因为现代的中国越来越重视信
息基础设施的建设。一旦信息在那儿,人与信息之间"通道"的问题将显现出来。另外,由于带
宽和其它非技术因素,像与Internet相关的立法等方面的问题,为企业服务的内部网(Intran
et)会先于Internet而到来。从前大企业所建立的客户/服务器网络的信息管理和服务系统,
将面临一定程度的改造。其优点是整个企业的信息管理与服务的开销下降、资源外包变得较
为容易(客户/服务器时代,资源外包的成功率并没有人们想象的那么高),更重要的是由于应
用需求所带来的高度复杂的多技术集成会"更"隐向幕后,客户/服务器时代的复杂、多风格、
完全面向不同应用的客户程序将被代之为"又笨又傻又简陋"且单一风格的客户程序。这种变
化将一定程度消除人与计算机之间的隔阂。它将成为人与网上信息之间的工具,就像BP。随
之,服务端所能提供的功能就变得十分重要。信息挖掘将作为一个重要的服务功能,为大组织
、大企业的用户和决策者提供一种崭新的信息查询手段。企业计算环境仍是信息挖掘技术应
用的最佳试验场。

今后工作
无疑,今后这方面的研究与开发工作将在Internet环境下进行。Internet所带来的影响
是,它改变了人们基本的信息通讯行为模式,这包含两层涵义:一是传媒工业将改造目前的体
系结构,加速"数据化"的进程,以适应新的信息通讯行为模式,"一切的一切都是数字化的,一
切的一切都是连在网上的";二是信息的组织与管理要求适应新的环境,信息的基本构架也由
客户/服务器方式转移到客户/网络方式,信息挖掘在Internet中应该是什么样?
在信息库中概念关键字之间的关系及关系传递的规律值得深入研究。这将涉及信息汇聚
(Information Gathering)和信息理解(Information Understanding)的研究。
文本信息文摘,包括:题目和有代表性关键字的抽取、计算和表达,及通过选择重要的句
子自动产生文本信息摘要。
根据用户需求提供两个不同信息集的比较。
抽取概念之间的关系。这个技术有一部分与语言无关。
通过关键字的权重来为文本评级。
信息过滤。根据用户需要可用于滤进、滤出相应信息。
容许以用户自有的信息检索,查询信息库。
支持自然语言查询。
基于内容搜索。
信息智能代理,主要为分布式异构信息网络环境中的信息查询服务。例如当用户查询"森
林"时,在信息库中的"森林"可能是文章中文字、一段关于森林的录像、一幅照片或是一首"
森林之歌"。信息智能代理使用户可以不必知道所要检索的信息是什么样介质的信息。