在http://www.webdesignerdepot.com/上找到一篇关于数据的文章,有几张图觉得挺有意思,特贴出来分享:
Spider-Traps

这张图很形象的说明了搜索引擎的Spider在抓取网页时,一些不友好的元素会对其形成较坏的影响(说明:本人离开英文环境已半年,如有解释错误,勿怪):

  1. Orphan Pages;Spider是根据链接抓取网页,没有链接的网页,自然使spider抓取困难。
  2. Unfriendly SEO-CMS System;CMS对SEO不友好的话,会对spider形成一定的干扰,比如js、ajax、链接分布、frame结构等等。
  3. Bad server Configuration;如阻止搜索引擎spider访问、302重定向、访问权限等等,以及服务器的稳定性,都有可能对spider造成致命的打击。
  4. Cloaking;比如隐藏文字、没有任何内外链的网页,都会使spider出现问题。
  5. Session Based Coding;URL根据访问者的cookie随机变换、html代码中大量的字符,这些session闯下的祸,对于一个不依赖SEO的网站来说可能没什么,但是对于一个基于SEO的网页来说可是致命的。
  6. 没有处理错误页面;如404跳转等

42 Comments, Comment or Ping

  1. Orphan Pages;Spider是根据链接抓取网页,没有链接的网页,自然使spider抓取困难,那就多加几个链接哦!

  2. 嗯,看来我得注意适当的外链了。

  3. 不错 好好研究

  4. 我的服务器有点不稳定,空间永远是一个难题啊。

  5. 1拜读了,感谢分享。自己从图里看出来的东西不多,博主好象有意思的话还藏心里没说出来呢。 … ^_^

    001over

  6. 星箭

    呵呵,楼上的怎么看出来的

  7. 写的不错!这些天一直比较忙,没顾上来看你的文章……

  8. SF

    不错呵

  9. gogoseo.cn认为这个蜘蛛图不错,学习了。

  10. 还不错。。。呵呵

  11. 不错,支持一下~

  12. 学习Spider的抓取方式,对于我们进行优化非常重要。

  13. 本文阅读后的想法~~~

    Orphan Pages 增加外链被蜘蛛收录。
    Unfriendly SEO-CMS System 尽量使用静态的页面避免框架和flash,js,不想被抓取的内容除外。
    Bad server Configuration 实际应用中一般有过快的跳转,或者Refresh的值过小,服务器不稳定遭到攻击,或者防火墙参数屏蔽蜘蛛等原因。
    Cloaking 内联不贯通,一般可以通过网站地图进行弥补。
    Session Based Coding 依据cookies产生的动态路径都可能让收录成为难题。

  14. 这图真的很奇怪啊。难得每个蜘蛛都是这样的?

  15. 不错 x学习了

  16. 晕晕,真不知道这是什么意思,有点不懂

  17. 通过网站地图弥补一些

  18. 希望网站地图能够被中文搜索引擎接受

  19. 不太懂是什么意思。

  20. 呵呵,弄不明白

  21. 挺有意思的

  22. 看了以后确实受益匪浅

  23. 如果有的链接中间没有任何的文字,或者内容,就只有链接标签,那这样的链接是不是可以可以解释为黑链?

  24. 相当形象 拜读了

  25. 多学习有好处

  26. 稍微有点乱了,呵呵

  27. 很受用,感谢分享!

  28. 学习了。。。确实需要注意这些

  29. 长见识了,谢谢分享!

  30. 学习了

  31. 学习了不错

  32. 最近网站依旧每天更新,坚持写一些原创内容,但网站排名还是有所下降,不知道什么原因?

  33. 学习了!加油!

Reply to “Spider陷阱”