百度sitemap,是福是祸?
准确的说,叫它baidu sitemap不太准确,而且会有朋友问,百度有类似于google的xml格式sitemap吗?答案是有,但是它又不完全等同于sitemap。根据百度官方的描述,我们应该管它叫做《互联网新闻开放协议》。但是我还是喜欢叫它baidu sitemap,我觉得这个名称对站长来说更亲切一些:)
其实这个开放协议在06年4月初(或者更早几天)的时候,百度就已经公布了,我们看一下百度官方对这个开放协议所作的描述:
《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引,将网站发布的新闻信息主动、及时地告知百度搜索引擎。
从官方的描述来看,这个开放协议针对的是新闻,似乎对我们没有什么价值,那么我们再假设一下,假如我们的网站通过互联网开放协议的审查,这样百度就会来抓取这个xml文档里的信息,那么即使我们的网站除了新闻之外还有很多别的内容,百度也会连这些内容一并抓取了。这样对百度及时更新索引网站最新内容是有很大的帮助的。
但是我发现众多的SEO们对百度的这个xml开放协议关注的人不多,甚至可以说几乎没有。可能还有不少SEO并不知道这个东西的存在,我就经常看见有朋友谈google sitemap,或者咨询相关问题。就是没有人讨论或者问这个“baidu sitemap”,可能的原因我猜是知者甚少。
当然,这个“baidu sitemap”对网站的要求更严格一些,如果你的网站是垃圾站,那么我建议不要去试了。因为这个xml的提交是需要百度进行审核的,所以还会有可能被K掉。这样对垃圾站来说似乎就得不偿失了。当然,如果你的网站足够好,并非垃圾站,那么可以去试一试。
不过,我在研究baidu sitemap的时候,发现一个比较严重的问题。其实这样的问题如果在国外是可以忽略的,但是在国内绝对有问题。众所周知,在中国,网站相互采集抄袭的情况空前严重,很多网站的内容都是抄来抄去。为什么baidu sitemap的使用会产生严重问题呢?我们来看一下baidu sitemap的xml格式代码。
XML标签说明: 其中带星号标记的为必选项,未带星号标记为可选项。
再放一张百度官方的截图:

发现没有?这个xml文件里最大的一个问题就是我们需要把文章的全文放置在“<text>”中。有人会问,放全文有什么问题?结合这个xml格式,难道你没发现网页的全部关键内容都按照标准的格式展现出来了。产生的后果当然是:我要采集你的网站就跟玩似的,简直太容易了。
所以这篇文章我之所以取这么一个恐怖的名字是有原因的。是福是祸?福:当然是你的网站会得到百度的眷顾,不仅可能被列为新闻源,还会及时索引网站的最新网页。祸:当然就是一旦这个xml文件被发现,就面临被人轻松采集的危险。当然,垃圾站还有可能被百度K掉哦~~
是否应该使用baidu sitemap,相信大家心里应该有数,每个网站都有自己的算盘。
几个支持baidu sitemap功能的CMS,仅供参考:
动易CMS2006 SP4及以上
Supesite
9 Comments, Comment or Ping
leerbox
我是通过RSS订阅来阅读的,下次还是一并写出来吧,不然我会忘记读这篇的。^_^
Nov 16th, 2007
seocenter
挖个坑吧,,,怎么心情不好。。。?
Nov 16th, 2007
ok6
百度的新闻协议已经有好几个月不收录了.
Nov 22nd, 2007
星箭
哈哈,楼上的,不收录你的站了??
Nov 22nd, 2007
Charles
终于等上更新了。
Nov 22nd, 2007
soz
有道理,目前版权还是国内的大难题!采集多少都没事,郁闷啊
Nov 22nd, 2007
星箭
哈哈,本来没兴致了,忍着写完了~
Nov 22nd, 2007
tes
互联网新闻协议,百度自己玩。。牛。。
Nov 24th, 2007
郭子
听说百度有这个协议,只是没有研究过
Jan 6th, 2008
Reply to “百度sitemap,是福是祸?”