现在的位置: 首页 > 搜索技术 > 正文

如何在Sitemaps中表示网址?创建Sitemaps后会发生什么

2020年05月21日 搜索技术 ⁄ 共 1845字 ⁄ 字号 评论关闭

  大家可能知道通过Google网站管理员工具后台向Google提交Sitemaps。Google网站管理员工具,虽然谈不上十分十分的强大,但是却是十分十分的实用。下面学步园小编来讲解下如何在Sitemaps中表示网址?创建Sitemaps后会发生什么?

  如何在Sitemaps中表示网址

  对于所有XML文件,任何数据数值(包括网址)都应使用以下字符实体转义码:&符号(&)、单引号(')、双引号(")、小于(<)和大于(>)。还应确保所有网址遵循RFC-3986URI标准、RFC-3987IRI标准以及XML标准。如果您要使用脚本来生成网址,通常可以使用网址转义的方式将其转义为该脚本的一部分。并且您仍然需要对它们进行实体转义。例如,以下Python脚本实体转义http://www.example.com/view?widget=3&count>2

  以下是引用片段:

  $python

  Python2.2.2(#1,Feb242003,19:13:11)

  >>>importxml.sax.saxutils

  >>>xml.sax.saxutils.escape(http://www.example.com/view?widget=3&count>2)

  以上示例所得网址为:http://www.example.com/view?widget=3&count>2问题:使用哪种字符编码方法生成Sitemaps文件有关系吗?是的。您的Sitemaps文件应该使用UTF-8编码。

  如何指定时间?

  对此协议中的lastmod时间戳以及所有其他日期和时间,请使用W3CDatetime编码。例如,2004-09-22T14:12:14+00:00。

  此编码允许您省去ISO8601格式的时间部分,例如:2004-09-22也是有效的。然而,如果您的网站频繁更改,则鼓励您使用时间部分,以便抓取工具可获取关于您网站的更全面的信息。

  如何计算lastmod日期

  对于静态文件,这是实际的文件更新日期。可以使用UNIX日期命令获取此日期:

  以下是引用片段:

  $date--iso-8601=seconds-u-r/home/foo/www/bar.html

  >>2004-10-26T08:56:39+00:00

  对于许多动态网址,您可以根据基本数据的更改时间或使用一些基于定期更新(如果可行的话)的近似值轻松地计算lastmod日期。使用一个近似日期或时间戳就可以帮助抓取工具避免抓取还未更改的网址。这将降低Web服务器的带宽和CPU要求。

  我将Sitemaps放在哪里

  强烈建议将Sitemaps放置在HTML服务器的根目录中,即,将其放置在http://example.com/sitemap.xml.gz。

  在某些情况下,您或许会希望在网站上针对不同的路径创建对应的Sitemaps—例如,如果在您的组织中,安全许可对应不同目录划分上传权限。

  我们认为如果您有上传http://example.com/path/sitemap.xml.gz的许可,那么您也可以通过http://example.com/path/报告元数据。

  我的Sitemaps可以有多大

  Sitemaps在压缩时不应超过10MB(10,485,760字节),且最多可以包含50,000个网址。也就是说,如果您的网站包含的网址超过50,000个或Sitemaps大于10MB,您需要创建多个Sitemaps文件,并使用Sitemaps索引文件。即使您的网站较小,但计划的网址数量超出50,000个或文件大小超过10MB,也应使用Sitemaps索引文件。

  我的网站拥有数千万个网址;我可以采用某种方式只提交最近更改过的网址吗?

  您可以在少数频繁更改的Sitemaps中列出已更新的网址,然后使用Sitemaps索引文件中的lastmod标记验证这些Sitemaps文件。随后,搜索引擎即可逐步抓取(只抓取)这些已更改的Sitemaps。

  创建Sitemaps后会发生什么

  在创建Sitemaps后,您需要通知搜索引擎Sitemaps的位置。得到通知的搜索引擎就可以检索您的Sitemaps并使网址可以由抓取工具抓取。

  以上就是关于“如何在Sitemaps中表示网址?创建Sitemaps后会发生什么”的内容,希望对大家有用。更多资讯请关注学步园。学步园,您学习IT技术的优质平台!

抱歉!评论已关闭.