现在的位置: 首页 > 综合 > 正文

Sitemap制作攻略&Sitemap生成器的评测

2013年10月09日 ⁄ 综合 ⁄ 共 3544字 ⁄ 字号 评论关闭

下面入正题,说说sitemap文件如何制作。

sitemap文件的目的就是告诉搜索引擎一个信息:本网站有哪些网页需要被爬取?为了能让搜索引擎识别这个信息,这个消息的记录必须遵循一定的规范,通常来说,这个文件有几种形式:RSS,TXT,XML和HTML。其中HTML形式google不支持。本文主要讲述XML的制作方法。

制作方法无外乎两种途径,手工制作和程序生成。

如果网站的网页少,可以考虑用手工编写的方法。因为实际是文本编辑,所以相当简单。XML文件的语法也很规范,简单明了,没什么难度。因为用的情况比较少,这里就不赘述了,感兴趣的站长们可以看看这个链接:http://www.google.com/support/webmasters/bin/answer.py?answer=34657

目前存在很多sitemap生成器,可以为我们免去手工编辑之苦。生成sitemap文件的方式主要有两种:基于本地目录结构和基于爬虫。如果您的网站的网页全是静态的(即都能在你的server的web目录下找到对应的静态html文件),那您可以使用基于本地目录结构的**。如果您网站采用了动态技术(jsp,asp,php等,大多数网站都是这种情况),那就应该使用基于爬虫的解决方案,**会模拟googlebot的形式将您的网站全都爬取下来并生成sitemap,需要注意的是这种方法会占用您的带宽和server的运算,建议在夜深人静的时候使用。
以下列出几款主流的**的优缺点比较,各位站长可以根据自己的需要来选择

Google Sitemap Generator -- 地址: https://www.google.com/webmasters/tools/docs/en/sitemap-generator.html

说明:是一段python代码,运行条件是服务器上装有python2.2或更高版本。原理:基于本地目录结构。优点:轻量级,不占带宽。缺点:不能为动态网页生成sitemap,很多站长无权限在服务器上安装python。

Google Sitemap Generator 更新版-- 地址:http://googlesitemapgenerator.googlecode.com/svn/trunk/doc/gsg-installation.html

说明:这是google的第二代产品,采用了一种全新的方法,部署在服务器端后,能检测用户的请求,智能判断哪些网页重要,自动生成sitemap文件并自动提交给google。优点:全智能化,一经安装,一劳永逸。缺点:因为根据用户请求来判断哪些url存在,所以有可能收录不完整你的所有url,并且只能安装在Unix下的apache下,或者Windows的IIS下,也不支持tomcat,有一定的限制。

XML-Sitemaps -- 地址:http://www.xml-sitemaps.com/

说明:第三方网站上的应用,不需要下载。有两个版本:简易版和独立版。简易版在首页即能使用,但有限制,只能生成500个url;独立版无此限制,但须缴纳19.99美刀,即可创立自己的账户,编辑自己的配置文件,对自己网站进行爬取。原理:基于爬虫。优点:完全在第三方服务器端的解决方案,不需要下载安装,省去很多麻烦,且独立版的功能很强大。缺点:简易版太简陋,有个数限制,且不能设过滤器等(但对于小网站来说很完美);独立版需要钱。

老虎Sitemap生成器 -- 地址:http://www.skycn.com/soft/37952.html

说明:中国人自己编写的。需下载安装。原理:基于爬虫。优点:简单易用,功能也比较丰富,可以设置收录和爬行的过滤器。缺点:算法设计不好,当已爬取的网页数目很庞大的时候,性能明显下降。我用的时候,当处理的网页超过6w的时候,基本上只能两秒钟处理一个url了,如果您的网站有超过5w的网页,建议您别用这个软件。

A1 Sitemap Generator -- 地址:http://3ddown.com/soft/30367.htm

说明:国外一款优秀的**,功能很强大,需下载安装。原理:基于爬虫。优点:功能很强大,可以设置复杂的过滤器,支持正则表达式,并能对爬取的网页进行分析,生成直观的树形结构,能同时生成sitemap文件和robots文件,更重要的是,性能稳定。缺点:功能复杂,上手比较慢,全英文,无汉语支持,且需要破解(能找到破解版)。

生成了sitemap的xml文件,还应注意以下几点:
1. 一般搜索引擎只支持UTF-8编码的sitemap,因此在保存文件的时候要保存成UTF-8的编码(如果是用记事本编辑,在保存的时候选择编码为UTF-8即可)。

2. 每个xml文件不能包含超过50000个url,单个文件大小不能超过10M,如果超过了,就应分割成多个xml文件。

3. 在你的robots.txt文件中声明sitemap的位置,以方便每个搜索引擎能找到。虽然我们会主动提交sitemap,但是这样做也是保证万无一失,说不定百度明天就支持sitemap协议了呢。在robots.txt中这样写即可:
Sitemap: http://www.baibaog.com/${sitemap_file}
将${sitemap_file}替换成自己的文件名

 

http://www.qq.com/robots.txt

Sitemap: http://www.qq.com/news_news_g_sitemap.xml
Sitemap: http://www.qq.com/finance_news_g_sitemap.xml
Sitemap: http://www.qq.com/sports_news_g_sitemap.xml
Sitemap: http://www.qq.com/ent_news_g_sitemap.xml
Sitemap: http://www.qq.com/gamezone_news_g_sitemap.xml
Sitemap: http://www.qq.com/tech_news_g_sitemap.xml
Sitemap: http://www.qq.com/lady_news_g_sitemap.xml
Sitemap: http://www.qq.com/astro_news_g_sitemap.xml
Sitemap: http://www.qq.com/comic_news_g_sitemap.xml
Sitemap: http://www.qq.com/edu_news_g_sitemap.xml
Sitemap: http://www.qq.com/cd_news_g_sitemap.xml
Sitemap: http://www.qq.com/kid_news_g_sitemap.xml
Sitemap: http://www.qq.com/bb_news_g_sitemap.xml
Sitemap: http://www.qq.com/digi_news_g_sitemap.xml
Sitemap: http://www.qq.com/weather_news_g_sitemap.xml
Sitemap: http://www.qq.com/flash_news_g_sitemap.xml
Sitemap: http://www.qq.com/gter_news_g_sitemap.xml
Sitemap: http://www.qq.com/luxury_news_g_sitemap.xml
Sitemap: http://www.qq.com/xian_news_g_sitemap.xml
Sitemap: http://www.qq.com/baby_news_g_sitemap.xml
Sitemap: http://www.qq.com/zhengzhou_news_g_sitemap.xml
Sitemap: http://www.qq.com/cq_news_g_sitemap.xml
Sitemap: http://www.qq.com/hb_news_g_sitemap.xml
Sitemap: http://www.qq.com/joke_news_g_sitemap.xml
Sitemap: http://www.qq.com/auto_news_g_sitemap.xml
Sitemap: http://www.qq.com/discovery_news_g_sitemap.xml
Sitemap: http://www.qq.com/view_news_g_sitemap.xml

 

 

抱歉!评论已关闭.