制作Sitemap 用于GOOGLE抓取

来源:互联网 发布:库里2016赛季数据统计 编辑:程序博客网 时间:2024/04/29 17:53

今天在做Sitemap:所以学习了些相关的资料

什么是 Sitemap  Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

  网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap 协议 并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。

  Sitemap 0.90 是依据创意公用授权-相同方式共享 (Attribution-ShareAlike Creative Commons License) 的条款提供的,并被广泛采用,受 Google、Yahoo! 和 Microsoft 在内的众多厂商的支持。

 

Sitemap协议讲解  Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。

 

sitemap 的书写规则如下(例)

 

现在详细分析下:

<?xml version="1.0" encoding="utf-8"?>
<urlset
xmlns="http://www.google.com/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.9
http://www.google.com/schemas/sitemap/0.9/sitemap.xsd">

 

这些地方定义了xml文件的命名空间

<url>是起始入口

<loc></loc>之间输入的是你想让抓取的网址

<lastmod></lastmod>之间是用来指定该链接的最后更新时间,这个很重要。

google会和上次索引记录的最后更新时间进行比较,时间一样的话跳过不再索引。输入的格式必须为ISO 8601

在今天下午上传给google时候google Sitemap 警告日期无效:原因是

我是2010-5-12。应该是2010-05-12。自己把自己做的sitemap里修改一下月份少于10和日期少于10就自己在前面加个零。

问题解决.

<changefreq></changefreq>之间写更新的频率,方便google抓取,这样能提高收录机会

 

编写好后一定要改成UTF8格式

把XML放到自己网站的根目录下

然后上GOOGle的网站管理工具在sitemap上添加自己网站的sitemap路径上传给google后,等待google检测情况

 

 

 

 

 

 

原创粉丝点击