页面抓取也称页面收录,是指搜索引擎通过特定程序(蜘蛛程序英文Spider)在互联网上采集网页数据。页面抓取是搜索引擎的基础工作。搜索引擎抓取页面的能力直接决定了其可提供的信息量,以及覆盖互联网的范围,进而影响用户的查询结果。下面分别从抓取流程、抓取方式、更新方法和页面存储四个方面介绍搜索引擎的页面抓取工作。
【知识拓展】与搜索引擎相关的几个概念
(1)蜘蛛程序。蜘蛛程序又称网络爬虫、网络蜘蛛、网络机器人等,是按照一定规则,自动抓取互联网信息的程序或者脚本。由于搜索引擎专门用于检索信息的程序像蜘蛛一样在网络间爬来爬去,因此,这种程序就被称为“蜘蛛”程序。此类程序往往属于搜索引擎的核心技术,通常属于商业机密。
(2)域名。域名是互联网络上识别和定位计算机层次结构的字符标识,与该计算机的互联网协议(IP)地址相对应。域名是上网单位和个人在网络上的标识,便于他人识别和检索某一单位或个人的信息,还可以起到引导、宣传等作用。以青岛英谷教育科技股份有限公司的网站www.121ugrow.com为例,www是服务器名,121ugrow.com是域名,其中121ugrow是域名主体,.com是域名后缀。
(3)URL。URL(UniformResourceLocator)是网页地址,也称为统一资源定位符,是对互联网上标准资源地址和访问方法的一种标识。互联网上每个文件都有唯一的URL,它包含文件的位置信息以及此文件的属性。上网浏览网页时,显示在浏览器地址栏中的信息就是网页的URL。比如,访问英谷教育网站的主页时,浏览器的地址栏上会显示http://www.121ugrow.com/,这就是英谷教育网站主页的URL。
(4)HTML标签。HTML(HyperTextMarkupLanguage)即超级文本标记语言,它可以创建网页并且可以描述与规定各类信息的属性特点等,比如字体的颜色、大小。HTML标签就是网页浏览器的识别符。通过这些标签,浏览器可以显示网页的内容。
1.抓取流程
域名对于一个网站的作用,相当于家庭住址对于一个家庭的重要程度。域名是一个网站的入口,URL是页面的入口。搜索引擎通过域名进入网站,抓取网站首页的内容并存储,同时提取网站首页的URL;然后层层递进,通过提取的URL再抓取下一级网页的内容并储存,同时再提取URL,如此反复。只要网页存在有效链接,搜索引擎就会不断抓取。可以看到,搜索引擎之所以能给用户提供大量的信息,就是因为其不断抓取各类网站,积累信息所致。
注意:本节为了便于读者理解,采用了“首页”的说法。在这里首页既可以理解为某网站的主页面,也可以理解为搜索引擎到达某网站时接触到的第一个页面。
网站能够被搜索引擎抓取,通常需要做好以下两种工作:
(1)建立外部链接关系。
为了保证搜索引擎呈现给用户的信息具有新鲜性和准确性,即使面对己经收录过的网站,也会不定时继续抓取更新。因此,可以通过为网站建立外部链接的方式,帮助搜索引擎不定时抓取已更新的内容。
一般来说,与流量大、权重高的网站建立链接是最有价值的外部链接,如新浪、搜狐等门户网站;也可以将网站提交到搜索引擎重视的分类目录,比如将某网站提交到网址之家——haol23的相关目录,以促使百度尽快收录。
(2)合理使用站长管理平台。
网站管理者可以通过搜索引擎站长管理平台,主动向搜索⑴擎提交新网站的域名或URL。搜索引擎会根据所提交的信息按相关规则抓取网站的页面内容。常用的搜索引擎站长平台有以下几个:百度站长平台(zhanzhang.baidu.com)>360站长平台(zhanzhang.so.com)、搜狗站长平台(zhanzhang.sogou.com)和Google中国站长平台(http://www.google.cn/webmasters/)。