北京SEO-星箭

北京SEO星箭的SEO博客,致力于搜索引擎营销的潜心研究。介绍SEO优化技术,包括论坛SEO优化技巧,CMS SEO优化,大型网站SEO策略等.

搜索引擎无法抓取网页的解决办法

经常会有SEO同行以及广大站长们询问:搜索引擎已经有好久没更新我的网站,这是为什么呢?我觉得造成这个情况的原因真的有很多。
1,你的网站内容是否存在大量复制页面,内容大多都是抄袭,没有原创性和质量可言?
2,你的网站是否存在死链接过多,搜索引擎难以抓取?
3,你的网站是否结构太纵深,比如超过SEO们所认同的三层结构原则,造成搜索引擎无法抓取?
4,你的网站是否已经很久很久没更新,搜索引擎也懒得去更新免得无功而返?
5,你的网站自身有没有作弊,搜索引擎虽然没有删除你的网站,但是对你不再感兴趣?
6,你的网站所在的服务器是否访问速度异常缓慢,使搜索引擎爬虫们爬行你的网站没耐心?
7,你的网站所在的服务器IP是否因为作弊网站过多,被搜索引擎列入黑名单?
8,你的网站所在的服务器是不是被部分黑心的主机商设置为禁止搜索引擎抓取?

建议的解决之道:
1,对于第一点,没什么技术性可言。你应该多增加网站的原创内容,多增加有质量的页面,因为大多数的搜索引擎喜欢质量高的原创性内容。如果你实在写不出什么原创性的内容的话,那么建议你把复制的内容进行修改。首先是修改标题,使标题与原有标题不一致。然后是根据自己的语言组织一段几十字或者上百字的文字,放在页面的第一段,我想这一点应该不是什么难事。其次是将重要的段落标题加上< h1>< h2>< h3>标签,或者加粗。

2,对于第二点死链过多。我想这就应该问你自己了,一个网站应该尽量避免死链接过多的现象。因为死链不仅影响用户体验,也影响搜索引擎的抓取。死链跟搜索引擎对你的站点进行质量评估也有很大的关系。如果你的网站死链过多,凭什么要搜索引擎认为你的网站是高质量的网站?建议去google的webmastertools注册,提交你的网站域名。提交成功后你就可以看到你的网站是否在google抓取过程中死链过多,然后针对上述的死链进行改进,如果网站不存在这个页面,去刻意制造一个页面,url的取名跟无法索引的url一样。

3,对于第三点。很多SEO的文章都提到了,一个网站应该尽量让结构保持在三层。如果是大型网站,可以适当放宽,但是尽量不要超过4层。搜索引擎虽然是机器人,但是让搜索引擎去爬行一个只有3层结构的网站和一个有5层结构的网站是有很大区别的,前者当然爬行的效率要高很多。这一点对用户体验也是个考验,难道你让用户浏览你的网站时要这样:点首页-->一级栏目页-->二级栏目页-->三级栏目页-->四级栏目页-->内容?用户肯定已经烦死了。除非你的内容是独一无二的,不然很难保证回访率。

4,关于第四点。一个网站如果不保持经常更新,搜索引擎也会不断降低抓取网站的频率,搜索引擎到了你的站点之后想发现一些新的内容,可是每次都是旧的网页摆在那里,自然对你的网站丧失了兴趣。所以你要想让搜索引擎经常去光顾你的网站,那么你应该保持网站的更新频率,如果你做不到一天更新几十几百几千个页面,没关系,那你就一天更新一个页面。

5,对于第五点。如果你的网站作弊,搜索引擎没有把你的网站删除已经是恩赐,你还指望它去每天更新你的网站?没有把你的网站彻底删除可能是因为你的站作弊倾向还不是很严重,但是依然要给你个小小的惩罚,或者把你的关键词排名降低,把你的网站降权;或者,让爬虫抛弃你,不再去索引你的网站。

6,对于第六点。如果你的网站所在服务器访问速度缓慢,会给搜索引擎爬行你的网站造成很大的困难,对搜索引擎爬虫的耐心是个很大考验,同样对用户也一样。如果你的服务器自身带宽严重不足,或者主机商分配给你的网站带宽不足那无话可讲,你要做的是想办法提高带宽,出钱或者转移空间都可以。如果你的服务器带宽足够,但是搜索引擎爬行却异常缓慢,你可以先去google的webmastertools里查看googlebot抓取你的网站时的速度,我觉得这个工具对SEO很有用处。分析过去90天google抓取网站的速度,如果很缓慢,那么检查访问缓慢的原因。原因有两个,或者是你的网站结构复杂,垃圾代码过于冗余,table多层嵌套等;或者你的IP数据包在层层交换的过程中不断的丢失,也就是网络连通性问题,可以使用tracert命令来检查到达的目标 IP 地址的路径并记录结果
(1),第一个的解决办法我建议使用div+css布局,这样能有效的减少垃圾代码,提高搜索引擎的抓取速度。
(2),第二个问题的解决办法,在命令提示符使用tracert命令检查路由。举个例子吧:
[code]pathping www.xxxxxxxxx.com -n

Tracing route to www.xxxxxxxxx.com [220.248.206.6]
over a maximum of 30 hops:
0 202.205.65.4
1 202.205.65.1
2 172.16.1.2
3 172.29.18.10
4 172.29.18.9
5 172.17.20.13
6 202.106.200.1
7 202.106.37.17
8 61.148.3.105
9 202.96.12.21
10 219.158.4.74
11 219.158.9.62
12 58.17.1.34
13 220.248.192.22
14 220.248.194.10
15 220.248.206.2
16 220.248.206.6

Computing statistics for 400 seconds...
        Source to Here   This Node/Link
Hop RTT   Lost/Sent = Pct Lost/Sent = Pct Address
0                             202.205.65.4
                    0/ 100 = 0%   |
1   6ms   0/ 100 = 0%   0/ 100 = 0% 202.205.65.1
                    0/ 100 = 0%   |
2   1ms   0/ 100 = 0%   0/ 100 = 0% 172.16.1.2
                    0/ 100 = 0%   |
3   0ms   1/ 100 = 1%   1/ 100 = 1% 172.29.18.10
                    0/ 100 = 0%   |
4   3ms   2/ 100 = 2%   2/ 100 = 2% 172.29.18.9
                    0/ 100 = 0%   |
5   3ms   0/ 100 = 0%   0/ 100 = 0% 172.17.20.13
                    0/ 100 = 0%   |
6   4ms   0/ 100 = 0%   0/ 100 = 0% 202.106.200.1
                    0/ 100 = 0%   |
7   4ms   1/ 100 = 1%   1/ 100 = 1% 202.106.37.17
                    0/ 100 = 0%   |
8   19ms   0/ 100 = 0%   0/ 100 = 0% 61.148.3.105
                    0/ 100 = 0%   |
9   5ms   0/ 100 = 0%   0/ 100 = 0% 202.96.12.21
                    0/ 100 = 0%   |
10   84ms   0/ 100 = 0%   0/ 100 = 0% 219.158.4.74(开始慢的地方)
                    0/ 100 = 0%   |
11   96ms   1/ 100 = 1%   1/ 100 = 1% 219.158.9.62
                    0/ 100 = 0%   |
12   95ms   0/ 100 = 0%   0/ 100 = 0% 58.17.1.34
                    0/ 100 = 0%   |
13   43ms   0/ 100 = 0%   0/ 100 = 0% 220.248.192.22
                    0/ 100 = 0%   |
14   48ms   1/ 100 = 1%   1/ 100 = 1% 220.248.194.10
                    0/ 100 = 0%   |
15   98ms   1/ 100 = 1%   1/ 100 = 1% 220.248.206.2
                    0/ 100 = 0%   |
16   97ms   0/ 100 = 0%   0/ 100 = 0% 220.248.206.6

Trace complete.[/code]
比如从219.158.4.74开始属于国外IP段,那么很可能就是google和msn等国外搜索引擎无法抓取你的网站的原因了。比如219.158.4.74属于国内IP段,那么也有可能连baidu、sogou都无法抓取。怎么解决?换了我就只能换服务器了:)

7,对于第七点,如果你所在的服务器IP作弊网站过多,这实在是一件很危险的事情,不要抱有近墨者可以不黑的侥幸心里,建议你换服务器吧,或者找服务商解决。

8,对于第八点。虽然现在的主机服务商一般不至于黑心到这个地步,但是还是有少部分是这么干的。我就遇到过,就算不是服务商故意干的,那么就是他们的技术人员的配置错误却又无法解决。这样技术没保障的服务商你敢继续使用么?没准哪天你网站的数据就丢光光了。如果服务商连搜索引擎的爬行都要禁止,或者因为某种技术原因解决不了,建议还是换服务器。

No Comments, Comment or Ping

Reply to “搜索引擎无法抓取网页的解决办法”