北京SEO-星箭

北京SEO星箭的SEO博客,致力于搜索引擎营销的潜心研究。介绍SEO优化技术,包括论坛SEO优化技巧,CMS SEO优化,大型网站SEO策略等.

强悍的百度蜘蛛(Baiduspider)

先来看一张图:
baiduspider

从图中来看,很明显,百度蜘蛛抓取了用户使用我的在线代理访问的大量网页。问题是,我没有添加任何的链接来促成百度蜘蛛来抓取这些页面,所以,这些页面从何而来?为什么会出现在百度的索引结果中?

申明:我没有使用任何作弊的手段来利用代理造成百度抓取大量页面。

老乐聊天,说是有可能是百度搜霸的原因。仔细想了想,唯一能够解释的通的也就只有通过工具条来获得用户访问痕迹,得到数据后进行抓取。

百度能够获得什么工具条的数据呢?自然是百度搜霸了。值得庆幸的是,我没有装这个东西。我不知道google是不是也在利用google工具条来获得大量的用户数据,不过我相信应该是彼此彼此。

看来SEO再怎么想方设法做好链接架构,也比不上装个百度搜霸来得实在一些。

新方法:要想网站尽快被收录,装个百度搜霸天天浏览吧(不保证100%有效,因为我也不确定):)。

友情提示:使用我的在线代理的朋友,可千万不要一边装着百度搜霸一边上不良网站哦:)

百度真的不识别带汉字的utf8编码URL?

可喜可贺,百度日本今日终于正式上线了,能不能战胜盘踞在日本搜索市场前两位的yahoo和google我不关心,只是抱着搜索引擎的兴趣,试用了一下日语版的百度。当然,想要看到百度日本的庐山真面目,没有穿墙的本领是不行的,我这里正好有一个穿墙的工具,在这里自卖自夸一下:星箭牌在线代理。这个东西用途大大的,可能会有兄弟用这个访问18禁的网站,如有未成年少男或少女被荼毒者,后果自负,谢谢!

SEO应该知道,带有汉字的UTF8编码URL会被解析成UTF8的字符串(似乎是这么叫的吧),比如“百度”会被解析成“%E7%99%BE%E5%BA%A6”,这样网页url的链接就变成了htp://www.xxxx.com/%E7%99%BE%E5%BA%A6。

在google的搜索结果中这样的url能够被正确的解析识别出来,而在百度中能不能够正确解析就不得而知了,至少在搜索结果里url显示的是乱码。可以看一下下图做的对比。可以看到,“百度”被百度显示为“鐧惧害”,而在google中能够正常显示。
“百度”被百度显示为“鐧惧害”

“百度”在google中显示正确

而我在试图用“sina”作为关键词做一下测试的时候,意外发现了一个奇怪的现象。先看一下截图:

百度日本搜索sina结果

看到了什么?我用红线框起来的部分,豁然是维基百科的词条。我们知道维基百科是使用utf8编码的,所以在百度索引中URL显示为乱码,而百度日本的维基百科搜索结果竟然能够被正确解析显示。

日文和中文都是双字节语言,百度之所以进入日本搜索市场,跟中文与日文的相似性有很大的关系,百度在面对媒体更是公开这样宣称。这么说的话,百度日本应该照搬了不少中文搜索技术过去,在中日版本的搜索结果呈现这个小小的差异,相信并不是百度技术办不到。

这个有趣的现象越来越印证我之前的猜测:并不是百度不识别中文UTF8字符串的URL,而应该是百度刻意为之。

百度为什么要这么做呢?我想应该是从用户体验上的考虑。如果一旦百度对中文UTF8编码的URL给予识别和权重,可能会引起大量的SEO们为了流量而做出牺牲用户体验的事情。为什么说是牺牲用户体验呢?如果你是作为一个用户,你在浏览网页的时候希望看到一长串的乱七八糟不懂什么意思又难记的URL吗?我想不会的。

作者: 星箭
原载: 星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明

我也说说百度在干什么?

从大概一个月以前开始,讨论百度在做什么一下子成为一个热门的话题。因为百度最近的行为实在有点反常,从前百度一直是不遗余力的清除垃圾站和作弊的网站,而前一段时间开始,似乎突然变成了垃圾站的天堂,正规站的地狱。一般高枕无忧的正规站突然变得心惊胆颤,反观大量突然被放出来的垃圾站,真是一个天堂一个地狱。

这件事情在SEO人群中相信没有几个不知道的,我就遇到不少朋友向我抱怨,自己的正规站突然被百度清除索引了,当然在论坛里,大批的做垃圾站的站长们发出一个又一个被放出来的消息。话又说回来了,抱怨的人群中当然也有我自己。因为我也有一个正规的不能再正规的网站在1月16号被百度干掉,为什么我敢说它是正规站?100%的原创,几乎没有SEO痕迹,够正规了吧?

百度最近究竟在做什么?我想即使是百度自己人,如果不是搜索算法部门的人,也未必知道百度在做什么。

乐思蜀在前几天写文章说,百度在进行技术更新,今天临晨又写文章说,百度在改进数据存储技术。百度是不是在进行算法更新我不知道,不过到年末了,老乐的这个假设应该能够成立,google就是如此。我更愿意相信的,一个是百度在改进数据存储技术,另一个是百度的数据回档。

百度改进数据存储技术这一点,在点石论坛已经有据说是内部消息的人说,百度最近在某地安置了一大批服务器,我想这应该符合老乐印证的这一点。详细的分析我就不说了,老乐那篇文章分析的很详细。

为什么说百度的数据回档呢?这个现象我也不能准确的表述出来。按我的理解,应该是百度有两个或者两个以上的数据中心,在一个数据中心向另一个数据中心传递和综合数据的时候,应该极有可能出现回档的现象。回档现象不是第一次了,如果我没记错时间的话,07年3月左右的时候就出现过一次,当时正在进行中文SEO大赛,众多的SEO见证了这种现象。回档现象的具体表现就是网页索引数量在百度突然急剧减少或者干脆消失,伴随着索引减少的还有百度快照回到更前一段时间。

这一次的数据回档,跟07年那一次很相似,不过我没料到会有大量的垃圾站被百度放出来。如果没错的话,再过一段时间,随着这次回档发生的会有算法大调整,使搜索结果更加准确,细心的同志会发现,从半个月前开始,百度并不是按照以前的每周四进行更新,而是有时候每隔两天更新一次,或者突然隔个三四天又更新一次,没有了规律可循。我猜等回档和调整结束,一批垃圾站和作弊站应该会重新从索引中消失,而一些正规站则可能被放出索引。不过这次垃圾站和正规站怎么去定义,还得看百度的了,毕竟我们说的垃圾站和正规站,只是我们一厢情愿的说法。

作者:星箭
原载:星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处并保留本声明。

百度sitemap,是福是祸?

准确的说,叫它baidu sitemap不太准确,而且会有朋友问,百度有类似于google的xml格式sitemap吗?答案是有,但是它又不完全等同于sitemap。根据百度官方的描述,我们应该管它叫做《互联网新闻开放协议》。但是我还是喜欢叫它baidu sitemap,我觉得这个名称对站长来说更亲切一些:)

其实这个开放协议在06年4月初(或者更早几天)的时候,百度就已经公布了,我们看一下百度官方对这个开放协议所作的描述:

《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引,将网站发布的新闻信息主动、及时地告知百度搜索引擎。

从官方的描述来看,这个开放协议针对的是新闻,似乎对我们没有什么价值,那么我们再假设一下,假如我们的网站通过互联网开放协议的审查,这样百度就会来抓取这个xml文档里的信息,那么即使我们的网站除了新闻之外还有很多别的内容,百度也会连这些内容一并抓取了。这样对百度及时更新索引网站最新内容是有很大的帮助的。

但是我发现众多的SEO们对百度的这个xml开放协议关注的人不多,甚至可以说几乎没有。可能还有不少SEO并不知道这个东西的存在,我就经常看见有朋友谈google sitemap,或者咨询相关问题。就是没有人讨论或者问这个“baidu sitemap”,可能的原因我猜是知者甚少。

当然,这个“baidu sitemap”对网站的要求更严格一些,如果你的网站是垃圾站,那么我建议不要去试了。因为这个xml的提交是需要百度进行审核的,所以还会有可能被K掉。这样对垃圾站来说似乎就得不偿失了。当然,如果你的网站足够好,并非垃圾站,那么可以去试一试。

不过,我在研究baidu sitemap的时候,发现一个比较严重的问题。其实这样的问题如果在国外是可以忽略的,但是在国内绝对有问题。众所周知,在中国,网站相互采集抄袭的情况空前严重,很多网站的内容都是抄来抄去。为什么baidu sitemap的使用会产生严重问题呢?我们来看一下baidu sitemap的xml格式代码。

XML标签说明: 其中带星号标记的为必选项,未带星号标记为可选项。

  • *< document>——标记整个XML文件内容的开始和结束。
  • *< website>——站点地址。
  • *< webmaster>——负责人员的Email。当有必要时,我们通过这个地址与您联系。
  • *< updateperi>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。
  • *< item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。
  • *< title>——新闻标题。
  • *< link>——新闻url地址,与单篇新闻一一对应;若分页的新闻存在多个URL,相当于多篇新闻。
  • < description>——新闻内容简介。
  • *< text>——完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。
  • *< image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。
  • < headlineimg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。
  • < keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不完全依赖于此标签中的内容。
  • < category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。
  • < author>——新闻作者,可以为机构或个人 。
  • < source>——新闻来源,即原创媒体或其它机构 。
  • *< pubdate>——新闻发布时间,与该篇新闻HTML页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。
    再放一张百度官方的截图:
    baidu sitemap

    发现没有?这个xml文件里最大的一个问题就是我们需要把文章的全文放置在“<text>”中。有人会问,放全文有什么问题?结合这个xml格式,难道你没发现网页的全部关键内容都按照标准的格式展现出来了。产生的后果当然是:我要采集你的网站就跟玩似的,简直太容易了。

    所以这篇文章我之所以取这么一个恐怖的名字是有原因的。是福是祸?福:当然是你的网站会得到百度的眷顾,不仅可能被列为新闻源,还会及时索引网站的最新网页。祸:当然就是一旦这个xml文件被发现,就面临被人轻松采集的危险。当然,垃圾站还有可能被百度K掉哦~~

    是否应该使用baidu sitemap,相信大家心里应该有数,每个网站都有自己的算盘。

    几个支持baidu sitemap功能的CMS,仅供参考:
    动易CMS2006 SP4及以上
    Supesite

    作者: 星箭
    原载: 星箭SEO博客
    版权所有,转载时必须以链接形式注明作者和原始出处并保留本声明。

  • 翻页