一、抓取方式
搜索引擎抓取网页的方式主要分为广度抓取和深度抓取。
1、广度抓取
广度抓取也称平行抓取,是一种横向的抓取方式。当搜索引擎程序收录一个网站首页时,先抓取与首页直接链接的页面,抓取完毕后,再抓取此链接页面指向的其他页面,照此层层递进。一般来说,与首页直接链接的页面重要性更高,因此通过广度抓取的方式,搜索引擎可以发现网站中相对重要的页面。
2、深度抓取
深度抓取也称垂直抓取,是一种纵向的抓取方式。搜索引擎先跟踪首页的某一个链接,逐步抓取该链接指向的深层次页面,直到最底层页面,然后按照此规则抓取下一个有效链接。通过深度抓取,搜索引擎可以抓取到网站中隐藏比较深或者较为冷门的信息。
3.更新方法
随着时间的推移,互联网上不断涌现出许多新网站,很多己被搜索引擎抓取的信息(如页面的数量、内容等)都发生了变化。当然,为了保证提供信息的有效性,搜索引擎也必然会不定时抓取最新的内容。下面以搜索引擎如何更新己抓取内容为研究对象,介绍几种常见的更新抓取方法:定期更新、增量更新、分类更新和智能更新。
1、定期更新
定期更新是指搜索引擎对己经抓取的网站定期进行更新。定期更新可以发现网站新增加的页面,删除不存在的页面记录,也会用新页面替换旧页面。定期更新的周期一般比较长,适用于维护页面少、内容更新频率低的网站。
2、增量更新
增量更新是指搜索引擎对已经抓取的页面进行实时监控,发现页面内容有变化时,及时更新抓取。增量更新是在原有页面基础上进行的,可以有效减少更新等待的时间,一般用于相对重要的页面。
3、分类更新
分类更新是指搜索引擎根据已抓取的页面的类别制定相放的更新周期。比如,更新新闻资讯类页面的周期可能需要精确到分钟,而更新下载类网站的周期需要一周左右或更长时间。
4、智能更新
智能更新是指搜索引擎评估目标网站的重要性及其页面更新的频率,智能推算出合适的更新周期。比如,某企业网站缺少日常维护,内容更新慢,搜索引擎可能每30天更新一次页面;如果企业重视网站的作用,内容每天都更新,此时搜索引擎也会提高抓取该网站页面的频率。
5、页面存储
页面存储指的是搜索引擎将抓取的页面内容处理后,把内容存储到搜索引擎服务器屮,以便进行页面分析,为用户提供查询服务。搜索引擎除了存储原始页面的内容,还会存储其他有价值的信息。这些信息可能包括文件的类型、大小、抓取时间、最后修改时间等。