在http://www.webdesignerdepot.com/上找到一篇关于数据的文章,有几张图觉得挺有意思,特贴出来分享:
Spider-Traps

这张图很形象的说明了搜索引擎的Spider在抓取网页时,一些不友好的元素会对其形成较坏的影响(说明:本人离开英文环境已半年,如有解释错误,勿怪):

  1. Orphan Pages;Spider是根据链接抓取网页,没有链接的网页,自然使spider抓取困难。
  2. Unfriendly SEO-CMS System;CMS对SEO不友好的话,会对spider形成一定的干扰,比如js、ajax、链接分布、frame结构等等。
  3. Bad server Configuration;如阻止搜索引擎spider访问、302重定向、访问权限等等,以及服务器的稳定性,都有可能对spider造成致命的打击。
  4. Cloaking;比如隐藏文字、没有任何内外链的网页,都会使spider出现问题。
  5. Session Based Coding;URL根据访问者的cookie随机变换、html代码中大量的字符,这些session闯下的祸,对于一个不依赖SEO的网站来说可能没什么,但是对于一个基于SEO的网页来说可是致命的。
  6. 没有处理错误页面;如404跳转等

JavaScript在SEO中是一个很头疼的问题,一方面我们在网页制作中需要使用JavaScript来实现绚丽的特效,而一方面JavaScript又会对搜索引擎的抓取分析造成不好的影响。Google的官方文档中很清楚的说明,如果在html中过多的使用 JavaScript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。

Use a text browser such as Lynx to examine your site, because most search engine spiders see your site much as Lynx would. If fancy features such as JavaScript, cookies, session IDs, frames, DHTML, or Flash keep you from seeing all of your site in a text browser, then search engine spiders may have trouble crawling your site.
http://www.google.com/support/webmasters/bin/answer.py?answer=35769


Google Site Search isn't able to index content contained in JavaScript. The general rule for making sure that a web page can be indexed by Google is to ensure that all of the text that needs to be indexed is visible in a text-based browser, or a browser with JavaScript turned off.
http://www.google.com/support/customsearch/bin/answer.py?answer=72366

不仅是Google,yahoo在官方文档中也有类似的强调:
尽量使用搜索引擎能够识别的文本信息,避免过多的JavaScript、Cookie、框架、DHTML 或 Flash 等复杂技术。
http://help.cn.yahoo.com/answerpage_2911.html

百度虽然没有明确的说明,但是经过大量的实践,百度也是无法对JavaScript进行识别的。

这样就造成了一个问题,网页中过多的JavaScript代码无疑是对搜索引擎分析网页内容增加难度,如果网页中的链接也是有不少JavaScript组成的话,那么搜索引擎甚至无法顺着链接去抓取网页。这样的话,过多的使用JavaScript就造成了以下的影响:

1、对搜索引擎分析网页内容造成了干扰。2、影响关键词密度。3、严重妨碍搜索引擎抓取网页。4、影响由链接产生的网页权重分布,这一点在PageRank上通常会有体现。

对抓取和链接权重所造成的影响,还可以用外链来弥补,但是第一第二点却是不容易挽救的。

如何在不影响网页效果而又对搜索引擎友好的前提下使用JavaScript,从而不影响SEO效果呢?

1、绝对避免导航及其他链接使用JavaScript。导航和链接是搜索引擎抓取网页的赖以生存之本,如果搜索引擎无法抓取网页,则代表了网页不会出现在索引结果中,也就无从谈起排名了。

2、尽量避免对内容使用JavaScript。尤其是与关键词相关部分的内容,应该尽量避免使用JavaScript来展现,否则毫无疑问是要降低关键词密度的。

3、实在需要使用JavaScript的部分,将这部分JavaScript脚本放在一个或几个.js文件中,这样能够避免干扰到搜索引擎的抓取和分析。

4、实在不能放在.js文件中的部分JavaScript脚本,将它们放在html代码的底端,< /body>之前,这样使搜索引擎分析网页时最后才会发现它,降低对搜索引擎的干扰。

以上的一些方法是消除JavaScript对搜索引擎的不利影响。其实反过来说,一个事物通常有利也有弊。JavaScript的使用也是这样,不一定使用JavaScript就一定是不好的,在一定程度上去利用JavaScript,反而对SEO有很好的作用,也就是正面的作用。

我们有说到搜索引擎无法对JavaScript进行识别(虽然Google目前做到了对少量简单的JavaScript代码做出辨别,但那也应该只是Document write之类的简单代码)。那么换一个角度来说,我们完全可以利用JavaScript来过滤一些垃圾信息。

何谓垃圾信息?从SEO的角度来说就是不仅对搜索引擎抓取分析没用,还会对关键词密度造成干扰等不利的信息。通常这些“垃圾”信息包括:广告、版权申明、大量导出链接、与内容不相关的信息等等。我们可以将这些垃圾信息通通扔进一个或数个.js文件中,从而降低对页面实质内容的干扰,提高关键词密度,向搜索引擎展示页面内容的核心。

如果大家有兴趣,下回我可以分享一下全Flash网站的SEO方法。

作者:星箭
出处:星箭SEO博客
版权所有,转载注明出处并保留作者链接,谢谢

6月底的时候我有参加阿里妈妈站长全国群英会武汉站,并有幸做了一次演讲分享。站长对SEO感兴趣的太多太多,本来大会我不是主角的,结果会后反倒变成我是最后一个脱身的。多余的话就不说了,从武汉回来后,我有些过一篇博客专门说武汉的事,这次呢,主要是把上次演讲的PPT补上:)

最近忙得比较晕,会议多事情也多,如果不是今天跟林振宇聊了一会,我还想不起来我去过武汉,更想不起来还有东西没拿出来。不过我记得老乐这个家伙好久以前就没经我的允许把我和他的PPT放出来了。不过老乐参加的是西安站,他可是西安的地头蛇嘿嘿。

演讲稿PPT下载:
杨兴建-中小网站搜索引擎优化策略

作者:星箭
出处:星箭
版权所有,禁止转载,谢谢

我之前写过一篇博客,腾讯搜搜脱离google技术整装待发? 。意在说明,腾讯已经按耐不住寂寞,百度HI的发布刺激了腾讯的神经,腾讯有可能比原计划提前要大举进入搜索引擎市场了。

今天打开订阅,更是看到一条让我大跌眼镜的新闻,祥见“腾讯参照韩国模式招三千人肉搜索军团”。我觉得腾讯的搜索引擎将来很有可能对搜索市场格局造成一定的影响,所以关于腾讯的人肉搜索,还是有点话要说说的。

今天的新闻更是应证了我之前的猜测,而让我万万没想到的是腾讯居然如此大张旗鼓的招聘“人肉搜索”编辑,估计不少朋友还会怀疑这是不是腾讯学google那样开了一个迟来的愚人节玩笑。新闻中马化腾公开承认了招聘人肉搜索编辑的信息,再说有新浪网易这些媒体,我想这应该不是放出来的假消息。

当然,腾讯这次大规模招聘的人肉搜索团队并非跟猫扑天涯的“人肉搜索”一个概念。这里的人肉搜索,指的是利用人工编辑对腾讯即将推出的搜索业务或者现在的“Google牌”搜索技术进行整理改进,达到优化搜索结果的目的。同时人肉搜索的另一项工作,我想应该是整合除了网页搜索结果之外的信息,比如新闻、天气、图片、商业信息、美食、旅游等。这一点倒是与Google和雅虎所说的整合搜索有点类似。只不过这个人肉搜索比前两者的整合搜索信息更多,分类更明晰。

马化腾多次向媒体公开承认自己对韩国一些互联网公司的欣赏,腾讯的产品线中也有着些许韩风的痕迹。而这一次,如此大规模的招聘人肉搜索编辑,想必是要向韩国搜索市场的老大naver学个彻底了。当然,也不能肯定,说不定腾讯是在向韩国搜索市场的老二Daum学习呢? :-)

不少SEO朋友应该知道,在韩国市场,naver的地位就像中国的百度,并且更甚于百度,因为根据统计,naver在韩国搜索市场的占有率达到了惊人的77%。第二位的是Daum,占有率也达到了12%,想一想Google与雅虎的份额加起来只有多少?从naver与Daum两者的搜索结果来看,应该很容易想到Google与雅虎在韩国为什么不是很成功了。

尽管搜索引擎技术发展到现在已经有了很多的改进,越来越符合用户的搜索需求,但由于机器算法的局限性,很难对搜索结果的好坏进行像人工那么细致的识别。在这种情况下,我倒是觉得采用人工编辑作为辅助手段对搜索结果进行编辑排序其实并不是坏事。当然人肉编辑也有很大的缺陷,由于人工编辑的素质、喜好千差万别,这样会使得搜索结果的质量有所差异,在部分搜索结果中,某一定的程度甚至还会不如自然索引结果。

说起人工编辑就不能不联想到SEO,假如腾讯在对SEO有误解而单单把SEO归结为作弊的话,人家可是放了话了,要光明正大的人工排序改善搜索结果,这样就可以堂而皇之的将有SEO痕迹的网页剔除。当然这是我做的最坏的想法,在正常的情况下,我想,使网页对搜索引擎友好,为用户提供真正有价值的信息,改善改善搜索引擎和用户浏览的体验,这样搜索引擎和用户都应该是欢迎的,您说对吧?

好了,我们来猜猜有人肉搜索编辑参与的腾讯版搜索引擎的搜索结果是什么样的。三张截图:
第一张:Naver式
用Naver搜索china

第二张:Daum式
用Daum搜索china

第三张:自有式
用soso搜索NBA

先来看一张图:
baiduspider

从图中来看,很明显,百度蜘蛛抓取了用户使用我的在线代理访问的大量网页。问题是,我没有添加任何的链接来促成百度蜘蛛来抓取这些页面,所以,这些页面从何而来?为什么会出现在百度的索引结果中?

申明:我没有使用任何作弊的手段来利用代理造成百度抓取大量页面。

老乐聊天,说是有可能是百度搜霸的原因。仔细想了想,唯一能够解释的通的也就只有通过工具条来获得用户访问痕迹,得到数据后进行抓取。

百度能够获得什么工具条的数据呢?自然是百度搜霸了。值得庆幸的是,我没有装这个东西。我不知道google是不是也在利用google工具条来获得大量的用户数据,不过我相信应该是彼此彼此。

看来SEO再怎么想方设法做好链接架构,也比不上装个百度搜霸来得实在一些。

新方法:要想网站尽快被收录,装个百度搜霸天天浏览吧(不保证100%有效,因为我也不确定):)。

友情提示:使用我的在线代理的朋友,可千万不要一边装着百度搜霸一边上不良网站哦:)

最近一段时间似乎一直是百度大抢风头,又是百度日文正式版,又是进军C2C,现在还打起了IM软件的主意。但是互联网另一巨头腾讯却一直悄无声息,除了珊瑚虫那个官司让人还记得腾讯的存在之外,不知道腾讯在不声不响的做什么事情。不过也正好符合了老马的性格,低调稳重。

前面的是一堆屁话,接下来才是正题。不知道SEO同仁有没有发现一个现象。我最近观察weblog,发现了一个新的spider异常活跃,叫做Sosospider,从它的命名规则上来看,立即想到应该是腾讯soso的spider。日志上是这样写的:

124.115.0.19 - - [15/Mar/2008:00:31:14 -0700] "GET /seo-tech/baidu-utf8-url.html HTTP/1.1" 200 7379 "http://www.starow.net/seo-tech/baidu-utf8-url.html" "Sosospider+(+http://help.soso.com/webspider.htm)"

124.115.0.19 - - [15/Mar/2008:00:31:20 -0700] "GET /wp-content/plugins/coolcode/coolcode.js HTTP/1.1" 200 586 "http://www.starow.net/wp-content/plugins/coolcode/coolcode.js" "Sosospider+(+http://help.soso.com/webspider.htm)"

124.115.0.27 - - [15/Mar/2008:00:31:21 -0700] "GET /wp-content/themes/grid_focus_public/style.css HTTP/1.1" 200 7920 "http://www.starow.net/wp-content/themes/grid_focus_public/style.css" "Sosospider+(+http://help.soso.com/webspider.htm)"

这是三段最有意思的日志,从这上面看Sosospider不仅是爬网页,而且连js、css也顺便都爬了。观察3月15号的log,做了一下几个搜索引擎来爬的次数对比:
Baiduspider:5692次。Googlebot:118次。yahoo:685次。YodaoBot:301次。Sogou web spider:49次。Sosospider:2772次。

从爬网页的次数上来说,Sosospider仅仅次于百度,排在第二位。而我的博客页面总数也就不超过300页。可见Sosospider不可谓不疯狂。

目前腾讯的搜搜使用的google的技术,所以一直没见腾讯有特别大的动作去推广,但是搜搜目前的市场占有率可是跟雅虎差不多级别的。如果我没记错的话,腾讯搜搜与google之间的合作似乎是今年结束。相信腾讯早已投入了大量的人力物力去做自己的搜索技术研发,从Sosospider的疯狂抓取频率上来说,soso已经开始在大规模的往数据中心里充实内容了。我们再来看去年还没有的soso相关帮助页,一个是关于sosospider介绍的:http://help.soso.com/webspider.shtml或者http://help.soso.com/webspider.htm。还有一个值得关注的是,soso的站长指南已经比较详细了,充实了一些关于sosospider以及抓取相关的解答信息:
http://service.qq.com/cate/soso

看来腾讯搜搜抛弃google自己自立门户的时间应该不远了,百度推出IM软件进入即时通信,腾讯绝对会向搜索市场强力出击,今后的互联网格局又多了一个看点和变数,想必两位互联网巨头一定会带来精彩刺激的对攻战。期待早日见到腾讯搜搜自己搜索技术的庐山真面目:)

可喜可贺,百度日本今日终于正式上线了,能不能战胜盘踞在日本搜索市场前两位的yahoo和google我不关心,只是抱着搜索引擎的兴趣,试用了一下日语版的百度。当然,想要看到百度日本的庐山真面目,没有穿墙的本领是不行的,我这里正好有一个穿墙的工具,在这里自卖自夸一下:星箭牌在线代理。这个东西用途大大的,可能会有兄弟用这个访问18禁的网站,如有未成年少男或少女被荼毒者,后果自负,谢谢!

SEO应该知道,带有汉字的UTF8编码URL会被解析成UTF8的字符串(似乎是这么叫的吧),比如“百度”会被解析成“%E7%99%BE%E5%BA%A6”,这样网页url的链接就变成了htp://www.xxxx.com/%E7%99%BE%E5%BA%A6。

在google的搜索结果中这样的url能够被正确的解析识别出来,而在百度中能不能够正确解析就不得而知了,至少在搜索结果里url显示的是乱码。可以看一下下图做的对比。可以看到,“百度”被百度显示为“鐧惧害”,而在google中能够正常显示。
“百度”被百度显示为“鐧惧害”

“百度”在google中显示正确

而我在试图用“sina”作为关键词做一下测试的时候,意外发现了一个奇怪的现象。先看一下截图:

百度日本搜索sina结果

看到了什么?我用红线框起来的部分,豁然是维基百科的词条。我们知道维基百科是使用utf8编码的,所以在百度索引中URL显示为乱码,而百度日本的维基百科搜索结果竟然能够被正确解析显示。

日文和中文都是双字节语言,百度之所以进入日本搜索市场,跟中文与日文的相似性有很大的关系,百度在面对媒体更是公开这样宣称。这么说的话,百度日本应该照搬了不少中文搜索技术过去,在中日版本的搜索结果呈现这个小小的差异,相信并不是百度技术办不到。

这个有趣的现象越来越印证我之前的猜测:并不是百度不识别中文UTF8字符串的URL,而应该是百度刻意为之。

百度为什么要这么做呢?我想应该是从用户体验上的考虑。如果一旦百度对中文UTF8编码的URL给予识别和权重,可能会引起大量的SEO们为了流量而做出牺牲用户体验的事情。为什么说是牺牲用户体验呢?如果你是作为一个用户,你在浏览网页的时候希望看到一长串的乱七八糟不懂什么意思又难记的URL吗?我想不会的。

作者: 星箭
原载: 星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明

从大概一个月以前开始,讨论百度在做什么一下子成为一个热门的话题。因为百度最近的行为实在有点反常,从前百度一直是不遗余力的清除垃圾站和作弊的网站,而前一段时间开始,似乎突然变成了垃圾站的天堂,正规站的地狱。一般高枕无忧的正规站突然变得心惊胆颤,反观大量突然被放出来的垃圾站,真是一个天堂一个地狱。

这件事情在SEO人群中相信没有几个不知道的,我就遇到不少朋友向我抱怨,自己的正规站突然被百度清除索引了,当然在论坛里,大批的做垃圾站的站长们发出一个又一个被放出来的消息。话又说回来了,抱怨的人群中当然也有我自己。因为我也有一个正规的不能再正规的网站在1月16号被百度干掉,为什么我敢说它是正规站?100%的原创,几乎没有SEO痕迹,够正规了吧?

百度最近究竟在做什么?我想即使是百度自己人,如果不是搜索算法部门的人,也未必知道百度在做什么。

乐思蜀在前几天写文章说,百度在进行技术更新,今天临晨又写文章说,百度在改进数据存储技术。百度是不是在进行算法更新我不知道,不过到年末了,老乐的这个假设应该能够成立,google就是如此。我更愿意相信的,一个是百度在改进数据存储技术,另一个是百度的数据回档。

百度改进数据存储技术这一点,在点石论坛已经有据说是内部消息的人说,百度最近在某地安置了一大批服务器,我想这应该符合老乐印证的这一点。详细的分析我就不说了,老乐那篇文章分析的很详细。

为什么说百度的数据回档呢?这个现象我也不能准确的表述出来。按我的理解,应该是百度有两个或者两个以上的数据中心,在一个数据中心向另一个数据中心传递和综合数据的时候,应该极有可能出现回档的现象。回档现象不是第一次了,如果我没记错时间的话,07年3月左右的时候就出现过一次,当时正在进行中文SEO大赛,众多的SEO见证了这种现象。回档现象的具体表现就是网页索引数量在百度突然急剧减少或者干脆消失,伴随着索引减少的还有百度快照回到更前一段时间。

这一次的数据回档,跟07年那一次很相似,不过我没料到会有大量的垃圾站被百度放出来。如果没错的话,再过一段时间,随着这次回档发生的会有算法大调整,使搜索结果更加准确,细心的同志会发现,从半个月前开始,百度并不是按照以前的每周四进行更新,而是有时候每隔两天更新一次,或者突然隔个三四天又更新一次,没有了规律可循。我猜等回档和调整结束,一批垃圾站和作弊站应该会重新从索引中消失,而一些正规站则可能被放出索引。不过这次垃圾站和正规站怎么去定义,还得看百度的了,毕竟我们说的垃圾站和正规站,只是我们一厢情愿的说法。

作者:星箭
原载:星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处并保留本声明。

最近父母来北京住,好久不冒泡写东西了。今天在点石看到有会员发帖说PR更新了。赶紧查了一下几个站,结果得到的是失望,没有丝毫变化。不死心的我又查了一下外链情况,外链倒是都更新了,而且是数量暴增。在MSN和QQ上询问了几个朋友,得到的结果也是部分更新,部分没更新。如果PR真的开始更新,看来更新刚刚开始,等待一段时间会有更准确的数据。

通常PR更新之前,在google中最明显的就是外链数的变化,所以我通常把外链数的急剧变化当成是预测PR更新的依据。当然,PR更新是有规律的,通常google PR更新是三个月左右一次,但是上一次10月底的PR更新距离前一次的更新足足耗了半年时间。这一回呢,则是只有两个月多一点。如果PR更新是实,那么看来google是不打算按常理出牌了。对于SEO来说,这似乎不是一个好消息。

不知道各位SEOer的网站PR更新了没?

小技巧:最近有SEO说,百度提交网站的url被百度删除了,于是恨得牙痒痒。我倒是觉得百度应该不至于这么绝情,可能是正在进行调整,相信过段时间还会放出来的。想要被百度收录的网站可以通过两种方式获得百度的收录。一是通过外链使百度抓取你的网站,这是最好的办法;而是通过访问百度提交网站url的百度或者google快照来进行提交,快照地址:百度快照google快照

新年新气象,恭喜发财。

相信不少老SEO和个人站长们还对两年前那一次搜索引擎大震荡历历在目。当时搜索引擎对meta堆积关键词、滥发链接等作弊行为进行了很严厉的惩罚。大量的网站从搜索引擎的索引数据里消失,无数的站长一夜之间成了没有收入的人群。其实当时大多数的站长们并不知道这是作弊,因为他们甚至不知道做链接、堆积关键词是SEO,更别提知道是黑帽SEO的做法(边悦在今年的点石SEM大会上如是说)

经过了那一次惨痛的经历之后,搜索引擎除了封杀这些作弊网站,还大大降低了Meta keywords和meta description的权重。不少SEO甚至认为这已经对搜索引擎不起任何作用。那么是不是不需要meta keywords了呢?虽然Meta keywords对排名的影响已经微乎其微,但是保持Meta keywords与网页关键词的相关性还是对搜索引擎排名有一定的作用的,至少星箭认为,如果meta信息写的不好,是会有负作用的。

Meta keywords的具体源码表现形式为

怎样写meta keywords?撰写meta keywords要把握以下原则:

  • Meta keywords要围绕页面核心关键词撰写。
  • Meta keywords在单个网页中的数量不能太多,一般保持在1---4个之间,尽量避免超过5个。
  • 最终页Meta keywords的撰写应该尽量避开热门关键词,而是关键词的组合构成长尾关键词。例如“液晶显示器的维护及清洗”,其Meta keywords可以写为“液晶显示器 维护,液晶显示器 清洗”,而不是写为“液晶显示器”
  • 不同的页面Meta keywords也要尽量保持不同。
  • 避免堆积关键词,例如“液晶显示器的维护及清洗”,其Meta keywords堆积为“液晶显示器,液晶,显示器,维护,清洗,笔记本显示器,17寸液晶显示器,19寸液晶显示器”。这种做法是错误的。

如果您认为:切,撰写meta keywords这么简单的事情还要你写一篇文章来专门说,未免太小题大作了,是不是想不到什么好话题了?
那么,就当我放了一个臭屁,但愿没熏到您老。

作者: 星箭
原载: 星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处并保留本声明。

翻页 Next page