GOOGLE sitemap

来源:互联网 发布:网络信息时代如何赚钱 编辑:程序博客网 时间:2024/04/27 16:03

点击下载:sitemap官方生成器

简单介绍下使用方法:(详细的你到GOOGLE官方站看吧)

下载此存档后,将其解压缩到一个本地目录。找到以下文件:

README —包含关于此工具的最新信息
sitemap_gen.py —生成 Sitemaps 的 Python 脚本。
example_config.xml —模板配置文件,将用其指定网站的配置。
example_urllist.txt —如果想根据自己指定的一组网址创建 Sitemaps,则可以使用此模板网址列表。

。创建配置文件
为自己的网站创建一个配置文件,您需要了解以下信息:

网站的基准网址(如 http://www.example.com/)。只有以此基准网址开头的网址才能包括在 Sitemaps 中。请确保包括了协议(如 http://)。例如,http://www.google.com 是有效的基准网址,而 www.google.com 就不是。
指向要保存 Sitemaps 的位置的 Web 服务器路径。通常,由于 Sitemaps 不能包含较高级别目录(来自 Sitemaps 的位置)中的网址,这是指向基本网址的路径。当您运行 Google Sitemaps 生成器时,它会创建 Sitemaps 并将其放在您指定的位置。
您希望的 Sitemaps 生成器用来创建 Sitemaps 的方法。您可以任意组合各种方法。可以使用以下方法:
URL —在配置文件的这一部分列出单个网址,并提供关于所有网址的信息。通常,您要使用此方法与另一方法结合,手动提供其他方法无法提供的附加网址。
网址列表 —将配置文件指向包含网址列表的文本文件。如果文本文件已经存在或您使用脚本生成网址列表,则可以使用此方法。
目录路径 —为网站指定目录路径及这些路径的相应网址。Sitemaps 生成器将以这些目录的内容为基础创建网址的列表。如果网站由静态 HTML 文件构成,您可能需要使用此方法。
访问日志 —指向日志文件的路径。Sitemaps 生成器将以包含在日志中的网址为基础创建网址的列表。如果网站由动态页面构成,则可能需要使用此方法。

根据下列操作创建配置文件

在文本编辑器中打开 example_config.xml 文件。将其另存为新文件(如 config.xml 或 mysite_config.xml)。
找到网站定义部分:
base_url="http://www.example.com/"
store_into="/var/www/docroot/sitemap.xml.gz"
verbose="1">
更改贵网站上网址的 base_url 值。
在您希望保存 Sitemaps 的 Web 服务器上,更改路径的 store_into 值。通常,这是指向基本网址的路径,因为 Google 可以接受的网址只能位于包含 Sitemaps 的目录的同一级目录或子目录中。您可以从此目录指定一个相关路径,此处,您可以从 Web 服务器的根目录上传脚本或一个完整路径。如果您将脚本上传到自己的基本网址目录,则可以只指定文件名。
找到以 ** MODIFY or DELETE ** 开头的生成方法部分。每一部分对应一种生成 Sitemaps 的方法。
删除您不想使用的方法对应的部分。
对于您要使用的方法,请按照以下说明操作。
URL

找到以下部分:
href="http://www.example.com/stats?q=age" _fcksavedurl=""http://www.example.com/stats?q=age""
lastmod="2004-11-14T01:00:00-07:00"
changefreq="yearly"
priority="0.3"
/>
此部分举出两个示例:第一个示例仅包括必要属性,而第二个示例则包括必要属性和可选属性。

请对每个要包含的网址都使用此格式。changefreq 属性将使 Google 大致了解网址的更新频率。这有助于 Google 了解为获取新内容而访问网页的频率。priority 属性使 Google 了解有关此页面相较网站上其他页面的相对重要性的信息。此属性不会对 Google 怎样比较您的页面与其他网站的页面产生影响,仅有助于 Google 了解网站的哪个页面您认为最重要。

网址列表

找到以下部分:
使用此格式指向包含您的网址列表的文本文件的路径和名称。您可以使用提供的 example_urllist.txt 文件作为此文本文件的模板。您需要在 Web 服务器上指定完整路径。如果您创建了非 UTF-8 编码的文本文件,则可以使用 encoding 属性指定这一编码。若有多个 .txt 文件,则可以使用通配符。例如:


对于每个包含在文本文件中的网址,可以指定最后修改日期、更改频率和优先级。请参阅 “URLlist 文本文件参考”部分以获取有关此文件结构的完整信息。

目录路径

找到以下部分:
这一部分列举了两个示例。如果您的所有网页都包含在某个路径的子目录中,您只需提供一个条目。不过,如果有多个路径指向贵网站的网页,请针对每个提供一个条目。

请记住,所有网址都要以您在第三步中指定的基本网址开头。例如, example_config.xml 文件中的两个示例都包含以 http://www.example.com/ 开头的网址。所以,两个网址都有效。

将示例项替换为您的网站的项。许多网站仅有一个指向基准网址的项。请确保 path 值为 Web 服务器上目录的完整路径。请确保 url 值是完整网址,如果需要还请包括协议(例如 http)并以斜线跟随。

可以使用 default_file 参数指定服务器将其用作目录默认页面的文件名。上例中,/var/www/docroot 将解析为 http://www.example.com/index.html。而无须指定。但如果指定,则 Sitemaps 生成器将包括对每个子目录只映射一次(而不是同时列出目录网址和文件名网址)的页面,并将使用文件(而不是目录)的最后修改日期提取该页的 lastmod 属性。

访问日志

找到以下部分:
这一部分列举了三个示例。您应该替换这些条目,并为每个日志文件提供一个条目。请确保路径值是 Web 服务器上的完整路径和文件名。如果日志文件不是采用 US-ASCII 或 UTF-8 编码,使用可选的 encoding 属性指定此编码。无需列出所有日志文件,您可以使用通配符。例如,在上例中,您可以提供以下条目(包括全部三种日志文件):


Sitemaps 生成器根据每个网址的访问频率,为从日志中找到的网址分配优先级。例如,被访问过 100 次的网址将得到一个比被访问过两次的网址更高的优先级。实际的优先级分配是相对的,取决于每个网址与网站中其他网址比较的结果。

找到过滤器定义部分:
您可以使用过滤将特定网址排除在生成的 Sitemaps 之外。您可以通过以下操作创建一个更简洁的列表,以减少重复列表的数量,或防止特定网址进入索引。请注意,如果使用 robots.txt 文件防止网址进入索引,则即使将网址包含在 Sitemaps 中,Google 也不会搜索它们并为它们编制索引。

可以使用任意或所有的过滤方法。如果需要,可以删除不需要的项并创建其他项。下面是用法示例。


此过滤器将排除以 .jpg 结尾的网址。如果所有的网站图片都嵌入在 HTML 页面中,且不应作为独立网址访问,则您可能需要使用类似的过滤器。

此过滤器会接受所有 .htm* 文件,但排除任何其他文件。


对网站进行完更改后,保存此文件。
配置文件语法参考

以下是配置文件语法的完整说明。所有标记都以一个代码示例开头,后面跟着一个属性说明。

site
配置文件开头处所需的标记。

base_url="http://www.example.com/"
store_into="/var/www/html/sitemap.xml.gz"
verbose="1"
supress_search_engine_notify="1"
default_encoding="UTF-8">

base_url
必填 网站的基准 HTTP 路径 - 只有以此基准开头的网址才能包括到 Sitemaps 中。
store_into
必填 所需输出文件的 Web 服务器路径。脚本将创建此文件 - 运行脚本前无需创建此文件。
verbose
可选 输入一个 0-3 之间数字,较高的数字对应较高的调试信息
suppress_search_engine_notify
可选 为进行测试,通过输入“1”停用搜索引擎通知
default_encoding
可选 指定应用于文件系统路径和网址的字符编码。

url
可选标记,您可以使用此标记列出贵网站的所有网址。


href="http://www.example.com/stats?q=age" _fcksavedurl=""http://www.example.com/stats?q=age""
lastmod="2004-11-14T01:00:00-07:00"
changefreq="yearly"
priority="0.3"
/>

href
必填 网站的基准 HTTP 路径 - 只有以此基准开头的网址才能包括到 Sitemaps 中。
lastmod
可选 网址最后修改时间采用 ISO 8601 格式 (YYYY-MM-DDThh:mm:ss+00:00)。您可以忽略时间部分。例如:
  "2005-02-21T18:00:15+00:00"
  "2005-02-21"
changefreq
可选 网址可能发生更改的频率。这被视为提示而非命令。值应该是“always”、“hourly”、“daily”、“weekly”、“monthly”、“yearly”或“never”的其中之一。
priority
可选 此网页相对于同一网站的其他网页的优先级。优先级值在 0.0 和 1.0 之间,0.0 是最低优先级,1.0 是最高优先级。优先级可以影响搜索引擎查找贵网站上的网址的顺序。由于优先级是相对的,只用于在您自己网页间的选择,您网页的优先级不会与其他网站的网页的优先级相比较。

urllist
可选标记,可以使用此标记指向包含贵网站内一个网址列表的文本文件。


path
必填 网站的基准 HTTP 路径 - 只有以此基准开头的网址才能包括到 Sitemaps 中。
encoding
可选 所需输出文件的 Web 服务器路径。脚本将创建此文件 - 运行脚本前无需创建此文件。

urllist.txt 是文本文件,它包含要映射的网址的列表。还可以包括每个网址的可选属性。属性在网址的同一行输入,并以单个空格分隔。例如:

http://www.example.com/abc/something
http://www.example.com/abc/xyy.pdf lastmod=2001-12-31T14:05:06+00:00
http://www.example.com/abc/def?x=12&y=23 changefreq=weekly priority=0.3
lastmod
可选 网址最后修改时间采用 ISO 8601 格式 (YYYY-MM-DDThh:mm:ss+00:00)。您可以忽略时间部分。例如:

  "2005-02-21T18:00:15+00:00"
  "2005-02-21"

changefreq
可选 网址可能发生更改的频率。这被视为提示而不是命令。值应该是“always”、“hourly”、“daily"”、“weekly”、“monthly”、“yearly”或“never”中的一个。
priority
可选 此网页相对于同一网站的其他网页的优先级。优先级值在 0.0 和 1.0 之间,0.0 是最低优先级,1.0 是最高优先级。优先级可以影响搜索引擎查找贵网站上的网址的顺序。由于优先级是相对的,只用于在您自己网页间的选择,您网页的优先级不会与其他网站的网页的优先级相比较。


directory
可选标记,您可以使用此标记在贵网站中指定目录,这样 Sitemaps 生成器就可以为这些目录中的文件的网址创建一个网址列表。

-->

path
必填 指定初始路径。Sitemap 生成器会遍历此目录和所有子目录。.
url
必填 创建对应路径值的网址。
default_file
可选 指定服务器上目录的默认文件。

accesslog
可选标记,您可以使用此标记指定 IIS 和 Apache 样式访问日志的路径和文件名,这样 Sitemaps 生成器就可以自动从中挑选网址。


path
必填 指定此文件的路径。
encoding
可选 如果不是 UTF-8 编码,指定文件的编码。

filter
可用于生成包含或排除特定文件的规则的可选标签。过滤器将按照其在 config.xml 文件中出现的顺序起作用。不管过滤器项和输入项(如 url、urllist、directory 或者 accesslog)怎样混杂在一起也不会有其他影响 - 因为 Sitemaps 生成器添加到 Sitemaps 的全部网址都会先与每个过滤器(规则)进行比较。如果所有过滤器与某个网址都不匹配,则默认情况下会将该网址包含在 Sitemaps 中。


action
可选 过滤器应采取的操作。有效值为:

drop - 排除匹配的网址。这是默认操作,所以如果未指定操作,生成器将认定 "drop"。
pass - 包括匹配的网址。


type
可选 过滤类型。有效值为:

wildcard - 标准路径通配符(?和 *)用于比较网址。这是默认类型,所以如果未指定类型,生成器将采用“wildcard”。
regexp - 已使用正则表达式。

pattern
必填 指定匹配依据的格式。

±àÂë

配置文件引用的文件(无论网址列表还是 Web 服务器日志)都可以使用默认的 UTF-8 以外的编码。可以在影响 Sitemaps 生成器如何读取文件的 config.xml 中指定替代编码。某些常用编码为:

encoding="utf-8" 是设想的默认值
encoding="ascii”是 UTF-8 的一个子集,所以无需指定它
encoding="iso-8859-1" 常用于许多西欧国家语言