搜索蜘蛛(以下简称蜘蛛)主要通过爬取页面上的链接来发现新的页面,以此类推不停地十字交叉爬行下去便形成一张蜘蛛网。
爬行主要按两种策略来执行:一是深度优先,二是广度优先。深度优先:蜘蛛从A网页顺序到Al、A2、A3、A4,爬行到A4页面之后发现没有页面了,于是又重新返回到了A页面,以此类推爬行到Bl、B2、B3、B4页面Q深度爬行的主要特点是蜘蛛会一直沿着一条线抓取下去,直到最后,然后再返回到另一条线。
广度优先:指蜘蛛在一个页面上发现多个连接的情况下,首先把所有第一层的链接抓取一遍,然后再沿着第二层的链接向第三层链接爬行。
归根到底,只要给蜘蛛足够的时间,无论是广度爬行还是深度爬行都能爬完整个网站。我们做SEO就要给蜘蛛节省宽带和资源,毕竟蜘蛛的资源不是无限的,也有满负载时。我们所要做的工作就是为蜘蛛指明一条正确的道路,尽量减少蜘蛛的工作。
避免网页重复收集
重复收集,从字面意思可以理解为第一次收集过之后,又进行了第二次收集,不但没有提高效率,反而增加了服务器带宽的额外开销。对于搜索引擎而言,重复做事情相当消耗资源,也就做不到时效性地更新,而且有可能降低秒级的输出服务。造成重复收集的原因在于蜘蛛没有记录访问过的页面的URL,也有可能是有多个域名指向一个页面。
因此搜索引擎在这方面采用了一项技术,分别定义两个不同类型的表,即“已访问表”和“未访问表”。依靠这项技术很简单地就解决了重复收集的难题。
蜘蛛抓取到一个链接之后,从这两个表中判断该链接是否己经被访问过,如果没有访问过,抓取回来添加到未访问表中去。
蜘蛛从开始依次爬行到网页D、网页A、网页C或者从网页F顺着链接爬行到网页G、网页D、网页A,会调用两边中的数据,以此来判断爬取网页的重复度。
收集重要的网页
由于互联网中的信息实在太多太杂,随着时间的推移不可能将其中所有的信息都收集起来,所以要尽可能地收集重要的网页,而网页信息的重要性是根据信息本身来决定的,因此收集的方式也采用了不同的策略。
整个网站页面的质量权重度,并非是网站首页权重越高越好,往往需结合全局来分配。
判断一个页面的重要程度可从以下四点来检验:
(1)网页目录层次越少越好。这一方面利于用户体验,另一方面也会节省蜘蛛爬行的时间。
(2)高质量相关链接导入。从外部导入和自身相关度大的链接,可以增加页面权重。
(3)信息的新鲜度。一个有价值的网站每天都会更新内容,用户天天来看,蜘蛛也会天天来光顾。
(4)网页内容的原创性。原创性越高的网页重要性越高。
栢塑专注于互联网整合营销的服务体系建设和结果导向流程梳理,在整个过程中栢塑科技数十位资深的互联网从业人员花了巨大的精力不断优化栢塑通产品的服务体系升华以结果为导向的服务模式。