从事SEO工作的人可以比喻成搜索引擎的贴身管家,而作为一名称职的管家必须了解所服务对象的习性、爱好、健康程度等信息。SEO服务的对象就是搜索引擎,必须把它的运行规律、工作原理、习性、优缺点等铭记在心,多实践操作。平时实践得越多,经验也就越丰富。搜索引擎是由人创造出来的,所以它的工作原理也是有章可循的。搜索引擎的工作过程主要有三段,即爬行抓取、预处理及服务输出。

  爬行抓取

  爬行抓取是搜索引擎工作最重要的一步,它把所有需要抓取的网页抓取回来进行处理分析。因此如果在抓取这步出了错,后面的工作就完全瘫痪了。

  每当我们用搜索引擎进行搜索时,会立刻出现数以万计的网页信息,这个过程是以秒来计时的。这时我们可以想一想,搜索引擎是在1秒钟之内把所查询的关键词从广大的互联网中逐一抓取一遍,还是事先已经处理好了这部分数据来显示呢?

  平时我们上网随便打开一个网页的时间也要1秒,而这仅仅是打开一个网页的时间,由此可知搜索引擎在以秒计时的时间内是不可能把互联网上的信息都查询一遍的,这不仅耗时也耗钱。因此搜索引擎都是事先处理好了所抓取的网页。其搜集信息工作是按照一定的方式来进行的,基本上有如下两种。

  ■批量收集:对互联网上只要存在链接的网页都收集一遍,耗时约几周。其缺点在于增加了额外的带宽消耗,时效性也不高。

  ■增量收集:是批量收集的一个技术升级,完美弥补了批量收集的缺点。它是在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,并删除重复收集和不存在的网页。

  还有一种比较简单的方法,即站长主动向搜索引擎提交网站,等到一定时间由搜索引擎来爬取。不过现在采用这种方式获取信息的速度越来越慢了,因此最理想的办法还是顺着自然链接来收集比较好。这就需要站长在前期做好搜索引擎蜘蛛爬行的入口,一定要找一个和网站自身相关的入口。下面将详细介绍搜索引擎蜘蛛的情况。

  1.搜索引擎蜘蛛

  搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到网站的网页、图片、视频等内容。其一般用法为spider+URL,其中URL(网址)是搜索引擎的痕迹。如果要査看某搜索引擎是否爬取过您的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等。

  (1)百度蜘蛛。百度蜘蛛可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取robots协议的方法来调节。百度蜘蛛的用法如下:

  Mozilla/5.0(compatible/2.0;Baiduspider+(+http://www.baidu.com/search/spider.htm)

  (2)谷歌蜘蛛。谷歌蜘蛛属于比较活跃的网站扫描工具,间隔28天左右

  就派出蜘蛛检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。其用法如下:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)

  (3)雅虎中国蜘蛛。如果某个网站在谷歌网站下没有被很好地收录,在雅虎下也不会被很好地收录和爬行。雅虎蜘蛛的数量庞大,但平均效率不是很高,相应的搜索结果质量也不高,其用法如下:

  (4)雅虎英文蜘蛛。雅虎英文蜘蛛的用法与中文蜘蛛不同,其用法如下:Mozilla/5.0(compatible;Yahoo!SLurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)

  (5)微软必应蜘蛛。必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多,其用法如下:msnbot/1.1(+http://search.msn.com/msnbot.htm)

  (6)搜狗蜘蛛。搜狗蜘蛛的爬取速度比较快,抓取的数量相对于速度来说稍微少点,其用法如下:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)