可喜可贺,百度日本今日终于正式上线了,能不能战胜盘踞在日本搜索市场前两位的yahoo和google我不关心,只是抱着搜索引擎的兴趣,试用了一下日语版的百度。当然,想要看到百度日本的庐山真面目,没有穿墙的本领是不行的,我这里正好有一个穿墙的工具,在这里自卖自夸一下:星箭牌在线代理。这个东西用途大大的,可能会有兄弟用这个访问18禁的网站,如有未成年少男或少女被荼毒者,后果自负,谢谢!
SEO应该知道,带有汉字的UTF8编码URL会被解析成UTF8的字符串(似乎是这么叫的吧),比如“百度”会被解析成“%E7%99%BE%E5%BA%A6”,这样网页url的链接就变成了htp://www.xxxx.com/%E7%99%BE%E5%BA%A6。
在google的搜索结果中这样的url能够被正确的解析识别出来,而在百度中能不能够正确解析就不得而知了,至少在搜索结果里url显示的是乱码。可以看一下下图做的对比。可以看到,“百度”被百度显示为“鐧惧害”,而在google中能够正常显示。


而我在试图用“sina”作为关键词做一下测试的时候,意外发现了一个奇怪的现象。先看一下截图:

看到了什么?我用红线框起来的部分,豁然是维基百科的词条。我们知道维基百科是使用utf8编码的,所以在百度索引中URL显示为乱码,而百度日本的维基百科搜索结果竟然能够被正确解析显示。
日文和中文都是双字节语言,百度之所以进入日本搜索市场,跟中文与日文的相似性有很大的关系,百度在面对媒体更是公开这样宣称。这么说的话,百度日本应该照搬了不少中文搜索技术过去,在中日版本的搜索结果呈现这个小小的差异,相信并不是百度技术办不到。
这个有趣的现象越来越印证我之前的猜测:并不是百度不识别中文UTF8字符串的URL,而应该是百度刻意为之。
百度为什么要这么做呢?我想应该是从用户体验上的考虑。如果一旦百度对中文UTF8编码的URL给予识别和权重,可能会引起大量的SEO们为了流量而做出牺牲用户体验的事情。为什么说是牺牲用户体验呢?如果你是作为一个用户,你在浏览网页的时候希望看到一长串的乱七八糟不懂什么意思又难记的URL吗?我想不会的。

18 Comments, Comment or Ping
Cloudream
1.能不能识别——这不是个问题,百度水平再不济,也不会搞不定这个
2.显示问题和排名无关,百度显示不显示ANSI-GB2312编码的中文?
3.我觉得是编码转换的问题,需要UTF-8转换到GB2312,这一步需要查表,百度偷懒没做“保存”转换URL结果这一步。
一 25th, 2008
星箭
回楼上:百度显示ANSI-GB2312编码的中文
呵呵,你觉得百度至于偷懒不做这一步转换吗?如果不是有意为之,我觉得是百度认为没有转换的必要。
一 25th, 2008
游客
个人觉得这是百度为了限制竞争做的,YAHOO和GG对中文的解析编码一样,而百度就搞特殊不一样。所以针对该文楼主查的时候出现乱码就不奇怪了。
一 25th, 2008
雀巢
我觉得百度能识别中文字编码,而且也已经给予了权重,只是没有显示出中文地址而已
一 25th, 2008
布衣
百度对识别中文UTF8编码的技术是肯定没有问题,只是是否引起了它们的重视;而且识别也不一定意味着就会添加权重,
一 25th, 2008
士心
那个金牌代理不错。
一 25th, 2008
百度
http://www.baidu.com
一 27th, 2008
bmt
百度为什么要这么做呢?我想应该是从用户体验上的考虑。如果一旦百度对中文UTF8编码的URL给予识别和权重,可能会引起大量的SEO们为了流量而做出牺牲用户体验的事情。
-------------------------
这个不太懂,只要有中文URL不都一样吗?和编码没啥关系啊
关于baidu日本,因为本身就是用的utf8编码,所以对于显示utf-8编码的URL,只要urldecode就行了。不过在日本百度里查site:ja.wikipedia.org,近两天的url没有解码,直接是RFC 1738编码后的格式。
百度中国对urf8网页转码为gb2312没问题,没理由url就转错,不理解,是不是bug它们不知道啊
一 30th, 2008
还田
我觉得是百度害怕大家都取中文的名字
二 13th, 2008
woyao2
一大发现 百度害怕大家都取中文的名字
二 20th, 2008
网络营销
百度中国对urf8网页转码为gb2312没问题,没理由url就转错,不理解,是不是bug它们不知道啊
我也觉得是.
三 5th, 2008
seo大学
百度不是把用户体验摆在第一位吗?
八 19th, 2008
老石
看了你的博客后特意查了下百度, inurl:百度
看到百度已经可以正确抓取中文URL了
三 27th, 2009
kevin
不是有意而为之,是因为www.baidu.com的编码是GB2312的,如果需要再页面上显示的话需要转码。而google.com恰好是反的。
估计引擎内部是识别的,否则没法解析了。
十 27th, 2009
Kevin Yang
UTF8编码和用户体验有什么关系??难道gb2312看起来就舒服一些??
反倒我觉得百度没能识别utf-8是一个不尊重用户体验的事情,因为这样搜索结果中就会包含大量乱码信息。
至于seo,你识别出来,然后不给权重不就和以前一样吗?对排名一点影响都没有。
一 3rd, 2010
婴儿床
那么,中文url对百度的SEO有没有什么负面影响呢?
三 30th, 2010
韩国SZ
UTF-8编码的URL?怎么弄啊? 我只知道代码中有utf-8编码的
六 4th, 2010
男性自慰器
很细节的问题
八 3rd, 2010
Reply to “百度真的不识别带汉字的utf8编码URL?”