基于数据挖掘的搜索引擎技术（1）

来源：互联网发布：精通javascript开发编辑：程序博客网时间：2024/04/28 01:05

robot：机器人是Robot英文直译，在搜索引擎优化SEO中，我们经常翻译为:探测器。有时，你会碰到crawlew（爬行器），spider（蜘蛛），都是探测器之一，只是叫法不同。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。User-agent:描述搜索引擎robot的名字。

文本的自动分类：文本的自动分类就是要利用数据挖掘技术发现其中隐含的规则, 以便实现搜索引擎的智能化。最常用的文
本数据挖掘方法是基于文本特征向量空间模型(Characteristic Vector SpaceM odel, CVSM）。

自动归类的一般做法是,预先确定好文本类别,并且对每个文本类别提供一批预先分好类的文本(称为训练文本集),分类系统先通过训练文本集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文本确定一个或多个文档类别。自动聚类是指文本聚类,即对给定的待分类文本集利用聚类方法(主要有凝聚法和分解法)将其划分为多个类别。自动聚类系统不需要训练文本,划分出的文档类也是不确定的。本文研究的文本自动分类是指在给定类别体系下的文本自动归类。
2.2 自动分类过程
文档的自动分类可以描述为如下过程:抽取文档特征,将文档表示为统一的标准方式;使用分类器判断文档所属类别,分类器是分类系统的核心,可以通过学习不断改进和完善,包括:增加、更新类别和知识(训练分类器)即: C 是类别集合; T 是所有文档集合; D是训练文档集合;
2.3 文档分类模型
文本分类由训练模块和分类模块构成。在训练模块,首先将训练文本集向量化,得到的特征的集合;特征子集抽取算法从特征的全集中抽取一个最优的特征子集;这里的“最优”子集是由评价算法来判定的,它根据分类器对由特征子集所表示的训练文本进行分类,并对分类性能进行性能评价。在分类模块中,遵循先将测试文本用最优特征子集表示,再经分类器分类。文本分类模型如图1所示。

应用Bayes算法实现文本分类：

简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假
定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级降低了贝叶斯网络构建的复杂性,而且在许多领
域,在违背这种假定的条件下,简单贝叶斯也表现出相当的健壮性和高效性,贝叶斯定理告诉我们如何通过给定的训练样本集预测未
知样本的类别,它的预测依据是取后验概率最大的类别。Bayes算法的基本思路是,计算网页属于类别的概率,网页属于
类别的几率等于网页中每个词属于类别的几率的综合表达式。

0 0