随着互联网信息量的不断增多,搜索引擎技术也在逐步发展。搜索引擎的发展经历了由简单到复杂、由本地化到全网化的过程。本节将从时间轴和发展阶段两个角度,分别介绍搜索引擎的发展历程。
1.按时间轴划分
1990年,万维网还未出现,使用网络进行文件的传输却己逐渐频繁。受此影响,加拿大麦吉尔大学的三名学生共同开发了可以用文件名查找文件的系统,用于搜索FTP服务器上的文件,于是出现了互联网上的第一个搜索引擎——Archie。用户使用Archie搜索某文件,必须输入精确的文件名,才能得到下载该文件的FTP地址。因此,Archie还不是严格意义上的搜索引擎。
1993年6月,出现了世界上第一个Web搜索引擎——WorldWideWebWanderer。它由美国麻省理工学院马修•格雷(MatthewGray)开发,只能用来统计互联网上的服务器数量,不能索引文件内容。10月,出现了第二个Web搜索引擎——ALIWEB。它由马汀•考斯特(MartijnKoster)开发,相当于Archie的HTTP版本。网站管理者需要提交每一个网页的简介和索引信息,才能被ALIWEB收录。
1994年1月,出现了最早允许网站管理者提交网址的搜索引擎——Infoseeko值得一提的是,百度的创始人李彦宏就是Infoseek的核心工程师之一。4月,华盛顿大学的学生布赖恩•平克顿(BrianPinkerton)开发了WebCrawler搜索引擎,该引擎成为了第一个支持搜索文件是文字的全文搜索引擎,发布时仅包含来自6000个服务器的内容。同在4月,斯坦福大学的两名博士生——杨致远(JerryYang,美籍华人)和大卫•费罗(DavidFilo)共同创办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索功能,但还不能真正被归为搜索引擎。6月,卡内基梅隆大学的迈克尔•莫尔丁(MichaelMauldin)创建了Lycos搜索引擎。Lycos第一次在搜索结果屮使用了网页摘要,数据量也远超其他搜索引擎。它除了对搜索结果进行相关性排序外,还提供了前缀匹配和字符相近限制。
1995年,华盛顿大学的两名硕士生开发了元搜索引擎模型。9月,美国加州伯克利分校助教埃瑞克•布鲁尔(EricBrewer)和博士生保罗•高迪尔(PaulGauthier)创立了Inktomi
搜索引擎。它通过一些顶级的门户网站和目标站点向全世界半数以上的互联网用户提供最新、最相关的搜索结果。12月,迪吉多公司开发了AltaVista搜索引擎,它成为第一个支持多种语言搜索的搜索引擎。它提供的内容丰富,既能检索网页全文,又能提供分类目录。
1998年,美国斯坦福大学的两名学生——拉里•佩奇(LarryPage)和谢尔盖•布林(SergeyBrin)共同开发了Google搜索引擎。Google以网页级别为基础,判断网页的重要性,使得搜索结果的相关性大大增强,迅速在全球范围内传播和使用。目前Google被公认为全球最大的搜索引擎。
1999年5月,Fast公司发布了AllTheWeb搜索引擎。它更新速度快,搜索精度高,能够支持225种格式的文件搜索,数据库存有21亿个Web文件,包含49种语言。
2000年1月,北京大学的李彦宏与校友徐勇在北京中关村创立了百度公司。2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
2009年5月,微软公司推出Bing(必应)搜索引擎,它是用于取代LiveSearch的全新搜索引擎服务。通过在Windows等微软产品中整合必应搜索,该引擎迅速成为北美地区第二大搜索引擎。
2.按阶段划分
结合实践中的应用和发展,上述从时间推进角度介绍的搜索引擎发展史又可大致归纳为以下三个发展阶段。
1、第一代搜索引擎
第一代搜索引擎以人工分类目录为主,通过手工的方式,分类收集网站、编辑提交,让用户能够快速找到相应网站。其中最典型的代表是雅虎分类目录。现在的导航类网站也是分类目录搜索引擎,如网址之家hao123。
2、第二代搜索引擎
随着信息量和网站数量的膨胀,简单的分类目录搜索已经不能满足用户的需求。用户希望能够查找相关的网页内容,于是第二代搜索引擎应运而生,即全文搜索引擎。第二代搜索引擎能够覆盖互联网上大量的网页内容,通过对网页链接进行技术分析,将重要的网页优先呈现给用户,如百度、搜狗搜索等。
3、第三代搜索引擎
第三代搜索引擎依然是在信息量爆炸式增长的前提下,为了使用户能更快速、更准确地查找到所需要的信息而出现的。相比前两代搜索引擎,第三代搜索引擎更加注重检索的个性化、专业化和智能化。第三代搜索引擎的典型代表是Google。它采用人工智能技术,以大数据分析为背景,利用内容智能识别及分析技术,增强了搜索引擎的查询体验。随着人工智能技术的不断发展,相信第三代搜索引擎会在信息覆盖率及搜索性能上更上一层楼。