SEO学习（二）——搜索引擎简介及工作原理

来源：互联网发布：淘宝旺旺在线代码编辑：程序博客网时间：2024/05/16 19:42

SEO是和搜索引擎分不开的，只有先了解了搜索引擎的工作原理才能更好的学习和了解SEO。

一、区分真正的搜索引擎和网站目录：

搜索引擎是指由蜘蛛程序沿着链接爬行和抓取网上的大量页面，来存进数据库，经过预处理后，用户在搜索框输入关键词后，搜索引擎排序程序从数据库中挑选出符合搜索关键词要求的页面。

网站目录是一套人工编辑的分类目录，有编辑人员人工创建多个层次的分类，站长可以在不同分类里提交网站，目录编辑在后台审核所提交的网站，将网站放置于相应的分类页面。

1、搜索引擎收录的页面数远高于目录；2、搜索引擎对网站内容和关键词提前的精确度不如目录；3、搜索引擎数据更新比目录快。

二、搜索引擎的挑战：

1、网页更新速度快，页面抓取需要快而全面；2、海量数据存储；3、要求索引处理快速有效，且具可扩展性；4、查询处理需要快速准确；5、需判断用户意图及人工智能。

三、搜索结果显示格式

搜索结果页面组成：广告（PPC，有广告商针对关键词进行竞价来显示）、自然搜索结果（SEO研究部分）、结果总数（是用于研究竞争程度的依据之一）、垂直搜素链接、相关搜素（根据用户的搜索数据选择）

单个搜索结果格式：1、页面标题（HTML中TITLE Tag的内容）2、页面说明（HTML中Description Tag或页面可见文字的内容）3、网址（来源网站）、百度数据库中页面最后更新的日期、百度快照（存储于百度数据库中的页面）

提高点击率的方式：

1、缩进列表：指当搜索结果页面中出现了两个来自同一网站的页面时，会将这两个页面相连显示，并将第二个页面向后缩进，从而可以提高点击率。

2、全站链接：对于权重比较高的网站，除了显示正常结果外还会显示其他内页链接，从而增加访问量。

3、迷你全站链接：取前4个内页链接。

4、One-box：在结果页中显示One-box信息。

5、富摘要（论坛帖子等RDFa或Microdata格式标签的页面）

6、面包屑导航：用户可以直接从搜索列表的面包屑导航中点击分类链接访问分类页面。

7、说明文字中的链接：对使用页面内锚链接的页面，可在说明文字中显示链接。

四、搜索引擎工作原理

搜索引擎工作过程可分为三个阶段：

1、爬行和抓取

搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入原始页面数据库。搜索引擎蜘蛛有标明自己身份的代理名称，可用于站长在日志文件中辨识。蜘蛛在访问任何一个网站时都会从网站根目录下的robots.txt文件开始通过跟踪页面上的链接按照深度优先或广度优先的方式访问其他页面。

由于蜘蛛不可能爬行到网站的所有网页，因此SEO要做的就是吸引蜘蛛，让其尽量抓取重要的页面，页面的重要度包括：1、网站和页面的权重（质量高、资历老的网站权重较高）2、页面更新度3、导入链接（蜘蛛通过导入链接才能进入页面）4、与首页点击距离

为避免重复爬行和抓取网址，搜索引擎会建立一个地址库，用来记录已经被发现但还未抓取的页面和已被抓取的页面。地址库中的URL有几个来源：1、人工录入的种子网站；2、蜘蛛抓取页面后，从HTML中解析出新的链接URL；3、站长通过搜索引擎网页提交表格提交进来的网址（用处不大）。

蜘蛛当遇到权重很低的网站上大量转载或抄袭的内容时很可能将不再继续爬行。

2、预处理

索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。

文字提取：提取HTML页面中的可见文字、Meta标签中的文字、图片替代文字、Flash文件的代替文字、链接锚文字等。

中文分词：分为基与词典匹配和基于统计两种方法。中文分词的准确性会影响到搜索引擎排名的相关性，但SEO能做的却很少。，主要与词库的规模、准确性和分词算法的好坏有关。

去停止词：在索引页面之前会去掉助词、感叹词之类的停止词。

消除噪声：根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，去掉大量重复出现的区块（噪声）。

去重：从页面主题内容中选取最有代表性的一部分关键词（出现频率最高的关键词），然后计算这些关键词的数字指纹，将来自不同网站的相同文章去除。（简单的增加“的”、“啊”等词或者调换段落顺序不能使抄袭变为原创）

正向索引：将页面转换为一个关键词组成的集合，同时记录下每个关键词在页面上的出现频率、出现次数、格式、位置，搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。

倒序索引：搜索引擎还会将正向索引数据库重新构造为倒序索引，将文件对应到关键词的映射转换为关键词到文件的映射。在倒排索引中关键词是主键，每个关键词对应着一系列文件。

链接关系计算：在搜索引擎抓取页面内容后，必须计算出：页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些链接指向形成了网站和页面的链接权重。

特殊文件处理：搜索引擎除了HTML文件外还能抓取和索引以文字为基础的多种文件类型。

3、排名

用户输入关键词后、排名程序调用索引数据库、计算相关性，然后按一定格式生成搜索结果页面。

搜索词处理：对搜索词进行处理后，才能进入排名程序，包括：中文分词、去停止词、指令处理、拼写错误矫正、整合搜索触发，从而得到以词为基础的关键词集合。

文件匹配：找到含有所有关键词的文件。

初始子集的选择：利用页面权重等非相关性的页面特征来选出一个初始子集，并不会对所有页面进行相关性计算。

相关性计算（SEO关注）：相关性的影响因素：关键词常用程度（越不常用的词越能关系到相关性）、词频和密度、关键词位置和形式、关键词距离、链接分析和页面权重

排名过滤及调整：对已经确定的排名进行轻微的调整，并对有作弊嫌疑的页面施加惩罚。

排名显示：所有排名确定后，排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。

搜索缓存：用户搜索的关键词有很大一部分是重复的，搜索引擎会把最常见的搜索词存入缓存，用户搜索时直接从缓存中调用。

查询及点击日志：搜索用户的IP地址、搜索的关键词、搜索时间、以及点击了哪些结果页面，搜索引擎都会记录成日志文件。这些日志文件会对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等有重要意义。