很久没有更新博客了,有不少朋友问我这近半年消失到哪里去了。消失的原因很简单,星箭与几个志同道合的朋友在做一个创业项目,因为是创业,所以每天除了睡觉六七个小时之外,其他的时间全泡在公司,在这里表达一下对我太太深深的愧疚,我与兄弟们在公司呆在一起的时间远远超过与陪老婆的时间,每天深夜两三点回家,第二天早上醒来直接起床公司,每天跟太太只有二三十分钟的时间一块交流,我一直觉得我太太是全世界最好最体谅最贤惠的老婆。

星箭与兄弟们的创业项目是跟外贸电子商务相关的,当然跟普通的做外贸卖仿品有着本质的区别。如果有朋友感兴趣,非常期待加入我们的创业团队,当然,因为是创业阶段,所以肯定给不了很高的待遇,一来就期望拿到超高待遇的朋友,很抱歉了,不过,我们有的是发展空间。对于新手,我敢保证你来这里能学到很多有用的知识和技能。

其他职位暂时饱满,有以下人才缺口,欢迎加入我们:

SEO人员:3--5名

社区、口碑营销人员(要求英语过硬):2--3名

英文编辑:1--2名

营销实习生(英语4级或以上):若干

Robin Club 由其策划组织的线下交流活动驱动。每年,我们都会在中国的一些大中型城市举行我们的会员聚会活动,交流话题涉及搜索营销(SEO&PPC)、电子 邮件营销、网站数据挖掘与分析以及用户体验优化等。

最新通告:截止 2010.4.8 PM 16:12 已有40人报名参加,点击这里查看 名单。

北京聚会概况

活动时间:2010-05-29 活动规模:150人以内 聚会地点:北京 待定

分享嘉宾:宋 星、谢 晶、李 征、宫 鑫、柳焕斌、杨兴建 主持人:倪英伟

参加费用:200元/人(优惠说明:2010年5月1日前缴 费,100元/人;5月15日前缴费,150元/人。)

如何缴费:仅接受支付宝缴费,支付宝账号 344588039@qq.com,备注中请署名。

活动议程介绍

时 间安排
上午议程 内容
08:30 - 09:00
参会人员入场,交换名片,自由交流
09:00 - 09:05
活动正式开始,主持人开场白
09:05 - 09:35
主 持人互动访谈,所有分享嘉宾参与
09:35 - 10:20
主题分享:网站链接之道(分享嘉宾:柳焕斌 - Robin)
10:20 - 10:35
15分钟互动问答
10:35 - 10:40
间歇时段
10:40 - 11:25
主题分享:Google Adwords 海外投放经验分享(分享嘉宾:宫鑫 - Allen)
11:25 - 11:40
15分钟互动问答
时 间安排
下午议程 内容
13:30 - 14:15
主题分享:电子邮件营销,赢在细节(分享嘉宾:谢晶 - Jay)
14:15 - 14:30
15分钟互动问答
14:30 - 14:35
间 歇时段
14:35 - 15:20
主题分享:大型网站的搜索引擎优化策略(分享嘉宾: 杨兴建 - Evan)
15:20 - 15:35
15分钟互动问答
15:35 - 15:40
间歇时段
15:40 - 16:25
主题分享:通过细分进行网站分析(分享嘉宾:宋星 - Sidney)
16:25 - 16:40
15分钟互动问答
16:40 - 16:45
间歇时段
16:45 - 17:30
主题分享:演讲主题待定(分享嘉宾:李征 - Jimmy)
17:30 - 17:45
15分钟互动问答
17:45 - 18:00
主持人总结,活动结束

如何报名参加?(报名请尽快缴费,以获得正式参会资格)

我们仅接受邮件报名。邮件标题格式为:某某报名参加Robin Club北京活动。邮件正文提交的信息如下:

  • 真实姓名 * 该项必填
  • 公司名称(网址) 担任职务 * 自由职业者可免填,或者只需填写网址。
  • 手机号码 * 手机号码可接受唯一认证码,入场审核需用该码。当然,也会用于紧急会务通知。
  • 参会目的 * 此项选填。我们可以根据您的意愿来对活动进行相关调整。

请将您的报名邮件发送至 。另 外,请将邮件标题中的某某更换成自己的真实姓名。

分享嘉宾列表

宋  星(Sidney Song)
谢 晶(Jay Xie)
宫 鑫(Allen Gong)
宋 星(Sidney Song)
谢 晶(Jay  Xie)
宫 鑫(Allen  Gong)
李 征(Jimmy Lee)
杨兴建(Evan Yang)
柳焕斌(Robin Liu)
李 征(Jimmy  Lee)
杨兴建(Evan  Yang)
柳焕斌(Robin Liu)

赞助与合作

Robin Club 接受符合自身发展的赞助计划与合作形式,有意者请发送邮件至

推荐阅读:你应该了解的参会礼仪

会议是商务活动中最常见的仪式,参加会议有一定的礼仪礼节需要遵守,下面就介绍参会礼仪的一些要求:

  • 会议参加者应衣着整洁,仪表大方,按会议通知要求,在会议开始前5分钟进场,依会议安排落座。
  • 事先阅读会议材料或做好准备,针对会议议题汇报工作或发表自己的意见。
  • 开会期间把手机设置为振动或静音状态,保持会场肃静,如有需要请到会议室外通话。
  • 不从事与会议无关的活动。不要私下小声说话或交头接耳,发言人发言结束时,应鼓掌致意,中途离场应轻手轻脚,不影响他人。
  • 做好会议记录,保存会议资料。



在http://www.webdesignerdepot.com/上找到一篇关于数据的文章,有几张图觉得挺有意思,特贴出来分享:
Spider-Traps

这张图很形象的说明了搜索引擎的Spider在抓取网页时,一些不友好的元素会对其形成较坏的影响(说明:本人离开英文环境已半年,如有解释错误,勿怪):

  1. Orphan Pages;Spider是根据链接抓取网页,没有链接的网页,自然使spider抓取困难。
  2. Unfriendly SEO-CMS System;CMS对SEO不友好的话,会对spider形成一定的干扰,比如js、ajax、链接分布、frame结构等等。
  3. Bad server Configuration;如阻止搜索引擎spider访问、302重定向、访问权限等等,以及服务器的稳定性,都有可能对spider造成致命的打击。
  4. Cloaking;比如隐藏文字、没有任何内外链的网页,都会使spider出现问题。
  5. Session Based Coding;URL根据访问者的cookie随机变换、html代码中大量的字符,这些session闯下的祸,对于一个不依赖SEO的网站来说可能没什么,但是对于一个基于SEO的网页来说可是致命的。
  6. 没有处理错误页面;如404跳转等

JavaScript在SEO中是一个很头疼的问题,一方面我们在网页制作中需要使用JavaScript来实现绚丽的特效,而一方面JavaScript又会对搜索引擎的抓取分析造成不好的影响。Google的官方文档中很清楚的说明,如果在html中过多的使用 JavaScript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。

Use a text browser such as Lynx to examine your site, because most search engine spiders see your site much as Lynx would. If fancy features such as JavaScript, cookies, session IDs, frames, DHTML, or Flash keep you from seeing all of your site in a text browser, then search engine spiders may have trouble crawling your site.
http://www.google.com/support/webmasters/bin/answer.py?answer=35769


Google Site Search isn't able to index content contained in JavaScript. The general rule for making sure that a web page can be indexed by Google is to ensure that all of the text that needs to be indexed is visible in a text-based browser, or a browser with JavaScript turned off.
http://www.google.com/support/customsearch/bin/answer.py?answer=72366

不仅是Google,yahoo在官方文档中也有类似的强调:
尽量使用搜索引擎能够识别的文本信息,避免过多的JavaScript、Cookie、框架、DHTML 或 Flash 等复杂技术。
http://help.cn.yahoo.com/answerpage_2911.html

百度虽然没有明确的说明,但是经过大量的实践,百度也是无法对JavaScript进行识别的。

这样就造成了一个问题,网页中过多的JavaScript代码无疑是对搜索引擎分析网页内容增加难度,如果网页中的链接也是有不少JavaScript组成的话,那么搜索引擎甚至无法顺着链接去抓取网页。这样的话,过多的使用JavaScript就造成了以下的影响:

1、对搜索引擎分析网页内容造成了干扰。2、影响关键词密度。3、严重妨碍搜索引擎抓取网页。4、影响由链接产生的网页权重分布,这一点在PageRank上通常会有体现。

对抓取和链接权重所造成的影响,还可以用外链来弥补,但是第一第二点却是不容易挽救的。

如何在不影响网页效果而又对搜索引擎友好的前提下使用JavaScript,从而不影响SEO效果呢?

1、绝对避免导航及其他链接使用JavaScript。导航和链接是搜索引擎抓取网页的赖以生存之本,如果搜索引擎无法抓取网页,则代表了网页不会出现在索引结果中,也就无从谈起排名了。

2、尽量避免对内容使用JavaScript。尤其是与关键词相关部分的内容,应该尽量避免使用JavaScript来展现,否则毫无疑问是要降低关键词密度的。

3、实在需要使用JavaScript的部分,将这部分JavaScript脚本放在一个或几个.js文件中,这样能够避免干扰到搜索引擎的抓取和分析。

4、实在不能放在.js文件中的部分JavaScript脚本,将它们放在html代码的底端,< /body>之前,这样使搜索引擎分析网页时最后才会发现它,降低对搜索引擎的干扰。

以上的一些方法是消除JavaScript对搜索引擎的不利影响。其实反过来说,一个事物通常有利也有弊。JavaScript的使用也是这样,不一定使用JavaScript就一定是不好的,在一定程度上去利用JavaScript,反而对SEO有很好的作用,也就是正面的作用。

我们有说到搜索引擎无法对JavaScript进行识别(虽然Google目前做到了对少量简单的JavaScript代码做出辨别,但那也应该只是Document write之类的简单代码)。那么换一个角度来说,我们完全可以利用JavaScript来过滤一些垃圾信息。

何谓垃圾信息?从SEO的角度来说就是不仅对搜索引擎抓取分析没用,还会对关键词密度造成干扰等不利的信息。通常这些“垃圾”信息包括:广告、版权申明、大量导出链接、与内容不相关的信息等等。我们可以将这些垃圾信息通通扔进一个或数个.js文件中,从而降低对页面实质内容的干扰,提高关键词密度,向搜索引擎展示页面内容的核心。

如果大家有兴趣,下回我可以分享一下全Flash网站的SEO方法。

作者:星箭
出处:星箭SEO博客
版权所有,转载注明出处并保留作者链接,谢谢

6月底的时候我有参加阿里妈妈站长全国群英会武汉站,并有幸做了一次演讲分享。站长对SEO感兴趣的太多太多,本来大会我不是主角的,结果会后反倒变成我是最后一个脱身的。多余的话就不说了,从武汉回来后,我有些过一篇博客专门说武汉的事,这次呢,主要是把上次演讲的PPT补上:)

最近忙得比较晕,会议多事情也多,如果不是今天跟林振宇聊了一会,我还想不起来我去过武汉,更想不起来还有东西没拿出来。不过我记得老乐这个家伙好久以前就没经我的允许把我和他的PPT放出来了。不过老乐参加的是西安站,他可是西安的地头蛇嘿嘿。

演讲稿PPT下载:
杨兴建-中小网站搜索引擎优化策略

作者:星箭
出处:星箭
版权所有,禁止转载,谢谢

我之前写过一篇博客,腾讯搜搜脱离google技术整装待发? 。意在说明,腾讯已经按耐不住寂寞,百度HI的发布刺激了腾讯的神经,腾讯有可能比原计划提前要大举进入搜索引擎市场了。

今天打开订阅,更是看到一条让我大跌眼镜的新闻,祥见“腾讯参照韩国模式招三千人肉搜索军团”。我觉得腾讯的搜索引擎将来很有可能对搜索市场格局造成一定的影响,所以关于腾讯的人肉搜索,还是有点话要说说的。

今天的新闻更是应证了我之前的猜测,而让我万万没想到的是腾讯居然如此大张旗鼓的招聘“人肉搜索”编辑,估计不少朋友还会怀疑这是不是腾讯学google那样开了一个迟来的愚人节玩笑。新闻中马化腾公开承认了招聘人肉搜索编辑的信息,再说有新浪网易这些媒体,我想这应该不是放出来的假消息。

当然,腾讯这次大规模招聘的人肉搜索团队并非跟猫扑天涯的“人肉搜索”一个概念。这里的人肉搜索,指的是利用人工编辑对腾讯即将推出的搜索业务或者现在的“Google牌”搜索技术进行整理改进,达到优化搜索结果的目的。同时人肉搜索的另一项工作,我想应该是整合除了网页搜索结果之外的信息,比如新闻、天气、图片、商业信息、美食、旅游等。这一点倒是与Google和雅虎所说的整合搜索有点类似。只不过这个人肉搜索比前两者的整合搜索信息更多,分类更明晰。

马化腾多次向媒体公开承认自己对韩国一些互联网公司的欣赏,腾讯的产品线中也有着些许韩风的痕迹。而这一次,如此大规模的招聘人肉搜索编辑,想必是要向韩国搜索市场的老大naver学个彻底了。当然,也不能肯定,说不定腾讯是在向韩国搜索市场的老二Daum学习呢? :-)

不少SEO朋友应该知道,在韩国市场,naver的地位就像中国的百度,并且更甚于百度,因为根据统计,naver在韩国搜索市场的占有率达到了惊人的77%。第二位的是Daum,占有率也达到了12%,想一想Google与雅虎的份额加起来只有多少?从naver与Daum两者的搜索结果来看,应该很容易想到Google与雅虎在韩国为什么不是很成功了。

尽管搜索引擎技术发展到现在已经有了很多的改进,越来越符合用户的搜索需求,但由于机器算法的局限性,很难对搜索结果的好坏进行像人工那么细致的识别。在这种情况下,我倒是觉得采用人工编辑作为辅助手段对搜索结果进行编辑排序其实并不是坏事。当然人肉编辑也有很大的缺陷,由于人工编辑的素质、喜好千差万别,这样会使得搜索结果的质量有所差异,在部分搜索结果中,某一定的程度甚至还会不如自然索引结果。

说起人工编辑就不能不联想到SEO,假如腾讯在对SEO有误解而单单把SEO归结为作弊的话,人家可是放了话了,要光明正大的人工排序改善搜索结果,这样就可以堂而皇之的将有SEO痕迹的网页剔除。当然这是我做的最坏的想法,在正常的情况下,我想,使网页对搜索引擎友好,为用户提供真正有价值的信息,改善改善搜索引擎和用户浏览的体验,这样搜索引擎和用户都应该是欢迎的,您说对吧?

好了,我们来猜猜有人肉搜索编辑参与的腾讯版搜索引擎的搜索结果是什么样的。三张截图:
第一张:Naver式
用Naver搜索china

第二张:Daum式
用Daum搜索china

第三张:自有式
用soso搜索NBA

先来看一张图:
baiduspider

从图中来看,很明显,百度蜘蛛抓取了用户使用我的在线代理访问的大量网页。问题是,我没有添加任何的链接来促成百度蜘蛛来抓取这些页面,所以,这些页面从何而来?为什么会出现在百度的索引结果中?

申明:我没有使用任何作弊的手段来利用代理造成百度抓取大量页面。

老乐聊天,说是有可能是百度搜霸的原因。仔细想了想,唯一能够解释的通的也就只有通过工具条来获得用户访问痕迹,得到数据后进行抓取。

百度能够获得什么工具条的数据呢?自然是百度搜霸了。值得庆幸的是,我没有装这个东西。我不知道google是不是也在利用google工具条来获得大量的用户数据,不过我相信应该是彼此彼此。

看来SEO再怎么想方设法做好链接架构,也比不上装个百度搜霸来得实在一些。

新方法:要想网站尽快被收录,装个百度搜霸天天浏览吧(不保证100%有效,因为我也不确定):)。

友情提示:使用我的在线代理的朋友,可千万不要一边装着百度搜霸一边上不良网站哦:)

最近一段时间似乎一直是百度大抢风头,又是百度日文正式版,又是进军C2C,现在还打起了IM软件的主意。但是互联网另一巨头腾讯却一直悄无声息,除了珊瑚虫那个官司让人还记得腾讯的存在之外,不知道腾讯在不声不响的做什么事情。不过也正好符合了老马的性格,低调稳重。

前面的是一堆屁话,接下来才是正题。不知道SEO同仁有没有发现一个现象。我最近观察weblog,发现了一个新的spider异常活跃,叫做Sosospider,从它的命名规则上来看,立即想到应该是腾讯soso的spider。日志上是这样写的:

124.115.0.19 - - [15/Mar/2008:00:31:14 -0700] "GET /seo-tech/baidu-utf8-url.html HTTP/1.1" 200 7379 "http://www.starow.net/seo-tech/baidu-utf8-url.html" "Sosospider+(+http://help.soso.com/webspider.htm)"

124.115.0.19 - - [15/Mar/2008:00:31:20 -0700] "GET /wp-content/plugins/coolcode/coolcode.js HTTP/1.1" 200 586 "http://www.starow.net/wp-content/plugins/coolcode/coolcode.js" "Sosospider+(+http://help.soso.com/webspider.htm)"

124.115.0.27 - - [15/Mar/2008:00:31:21 -0700] "GET /wp-content/themes/grid_focus_public/style.css HTTP/1.1" 200 7920 "http://www.starow.net/wp-content/themes/grid_focus_public/style.css" "Sosospider+(+http://help.soso.com/webspider.htm)"

这是三段最有意思的日志,从这上面看Sosospider不仅是爬网页,而且连js、css也顺便都爬了。观察3月15号的log,做了一下几个搜索引擎来爬的次数对比:
Baiduspider:5692次。Googlebot:118次。yahoo:685次。YodaoBot:301次。Sogou web spider:49次。Sosospider:2772次。

从爬网页的次数上来说,Sosospider仅仅次于百度,排在第二位。而我的博客页面总数也就不超过300页。可见Sosospider不可谓不疯狂。

目前腾讯的搜搜使用的google的技术,所以一直没见腾讯有特别大的动作去推广,但是搜搜目前的市场占有率可是跟雅虎差不多级别的。如果我没记错的话,腾讯搜搜与google之间的合作似乎是今年结束。相信腾讯早已投入了大量的人力物力去做自己的搜索技术研发,从Sosospider的疯狂抓取频率上来说,soso已经开始在大规模的往数据中心里充实内容了。我们再来看去年还没有的soso相关帮助页,一个是关于sosospider介绍的:http://help.soso.com/webspider.shtml或者http://help.soso.com/webspider.htm。还有一个值得关注的是,soso的站长指南已经比较详细了,充实了一些关于sosospider以及抓取相关的解答信息:
http://service.qq.com/cate/soso

看来腾讯搜搜抛弃google自己自立门户的时间应该不远了,百度推出IM软件进入即时通信,腾讯绝对会向搜索市场强力出击,今后的互联网格局又多了一个看点和变数,想必两位互联网巨头一定会带来精彩刺激的对攻战。期待早日见到腾讯搜搜自己搜索技术的庐山真面目:)

可喜可贺,百度日本今日终于正式上线了,能不能战胜盘踞在日本搜索市场前两位的yahoo和google我不关心,只是抱着搜索引擎的兴趣,试用了一下日语版的百度。当然,想要看到百度日本的庐山真面目,没有穿墙的本领是不行的,我这里正好有一个穿墙的工具,在这里自卖自夸一下:星箭牌在线代理。这个东西用途大大的,可能会有兄弟用这个访问18禁的网站,如有未成年少男或少女被荼毒者,后果自负,谢谢!

SEO应该知道,带有汉字的UTF8编码URL会被解析成UTF8的字符串(似乎是这么叫的吧),比如“百度”会被解析成“%E7%99%BE%E5%BA%A6”,这样网页url的链接就变成了htp://www.xxxx.com/%E7%99%BE%E5%BA%A6。

在google的搜索结果中这样的url能够被正确的解析识别出来,而在百度中能不能够正确解析就不得而知了,至少在搜索结果里url显示的是乱码。可以看一下下图做的对比。可以看到,“百度”被百度显示为“鐧惧害”,而在google中能够正常显示。
“百度”被百度显示为“鐧惧害”

“百度”在google中显示正确

而我在试图用“sina”作为关键词做一下测试的时候,意外发现了一个奇怪的现象。先看一下截图:

百度日本搜索sina结果

看到了什么?我用红线框起来的部分,豁然是维基百科的词条。我们知道维基百科是使用utf8编码的,所以在百度索引中URL显示为乱码,而百度日本的维基百科搜索结果竟然能够被正确解析显示。

日文和中文都是双字节语言,百度之所以进入日本搜索市场,跟中文与日文的相似性有很大的关系,百度在面对媒体更是公开这样宣称。这么说的话,百度日本应该照搬了不少中文搜索技术过去,在中日版本的搜索结果呈现这个小小的差异,相信并不是百度技术办不到。

这个有趣的现象越来越印证我之前的猜测:并不是百度不识别中文UTF8字符串的URL,而应该是百度刻意为之。

百度为什么要这么做呢?我想应该是从用户体验上的考虑。如果一旦百度对中文UTF8编码的URL给予识别和权重,可能会引起大量的SEO们为了流量而做出牺牲用户体验的事情。为什么说是牺牲用户体验呢?如果你是作为一个用户,你在浏览网页的时候希望看到一长串的乱七八糟不懂什么意思又难记的URL吗?我想不会的。

作者: 星箭
原载: 星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明

从大概一个月以前开始,讨论百度在做什么一下子成为一个热门的话题。因为百度最近的行为实在有点反常,从前百度一直是不遗余力的清除垃圾站和作弊的网站,而前一段时间开始,似乎突然变成了垃圾站的天堂,正规站的地狱。一般高枕无忧的正规站突然变得心惊胆颤,反观大量突然被放出来的垃圾站,真是一个天堂一个地狱。

这件事情在SEO人群中相信没有几个不知道的,我就遇到不少朋友向我抱怨,自己的正规站突然被百度清除索引了,当然在论坛里,大批的做垃圾站的站长们发出一个又一个被放出来的消息。话又说回来了,抱怨的人群中当然也有我自己。因为我也有一个正规的不能再正规的网站在1月16号被百度干掉,为什么我敢说它是正规站?100%的原创,几乎没有SEO痕迹,够正规了吧?

百度最近究竟在做什么?我想即使是百度自己人,如果不是搜索算法部门的人,也未必知道百度在做什么。

乐思蜀在前几天写文章说,百度在进行技术更新,今天临晨又写文章说,百度在改进数据存储技术。百度是不是在进行算法更新我不知道,不过到年末了,老乐的这个假设应该能够成立,google就是如此。我更愿意相信的,一个是百度在改进数据存储技术,另一个是百度的数据回档。

百度改进数据存储技术这一点,在点石论坛已经有据说是内部消息的人说,百度最近在某地安置了一大批服务器,我想这应该符合老乐印证的这一点。详细的分析我就不说了,老乐那篇文章分析的很详细。

为什么说百度的数据回档呢?这个现象我也不能准确的表述出来。按我的理解,应该是百度有两个或者两个以上的数据中心,在一个数据中心向另一个数据中心传递和综合数据的时候,应该极有可能出现回档的现象。回档现象不是第一次了,如果我没记错时间的话,07年3月左右的时候就出现过一次,当时正在进行中文SEO大赛,众多的SEO见证了这种现象。回档现象的具体表现就是网页索引数量在百度突然急剧减少或者干脆消失,伴随着索引减少的还有百度快照回到更前一段时间。

这一次的数据回档,跟07年那一次很相似,不过我没料到会有大量的垃圾站被百度放出来。如果没错的话,再过一段时间,随着这次回档发生的会有算法大调整,使搜索结果更加准确,细心的同志会发现,从半个月前开始,百度并不是按照以前的每周四进行更新,而是有时候每隔两天更新一次,或者突然隔个三四天又更新一次,没有了规律可循。我猜等回档和调整结束,一批垃圾站和作弊站应该会重新从索引中消失,而一些正规站则可能被放出索引。不过这次垃圾站和正规站怎么去定义,还得看百度的了,毕竟我们说的垃圾站和正规站,只是我们一厢情愿的说法。

作者:星箭
原载:星箭SEO博客
版权所有,转载时必须以链接形式注明作者和原始出处并保留本声明。

翻页 Next page