搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,并将相关信息展示给用户的系统。
搜索引擎可以让用户快速、准确地找到目标信息,同时也是企业通过用户的搜索习惯研究用户行为,进行网络营销的一个有效丁具。企业可以通过搜索引擎更精准地向客户展示产品(服务),促进销售,提升企业的知名度。企业还可以通过对网站访问者的搜索、浏览等行为的分析,制定更有效的网络营销策略。用户从互联网获取信息,主要通过搜索引擎的四个部分来完成,其顺序为搜索器、索引器、检索器和用户接口。
其中:
♦搜索器用来在互联网屮发现和搜集信息
♦索引器用来解读搜索器所搜集的信息,从中抽取出表示文档的索J项和生成一个文档库索引表
♦检索器根据用户的査询信息在索引库屮检测出文档,进行文档与査询信息的相关度匹配,对预输出的结果进行排序,并根据用户的查询需求合理反馈信息
♦用户接口用于提供用户查询入口、显示查询结果、提供个性化查询等。
搜索引擎的分类
不冋的搜索方式对应不同的搜索引擎,但概括起来主要有以下三种:全文搜索引擎、目录搜索d擎和元搜索引擎。
1.全文搜索引擎
全文搜索引擎是根据一定的策略、运用特定的计算机程序,对从网络屮抓取的各网站原始网页文章中的每一个字或词建立索引,为用户提供检索服务,并将相关信息展示给用户的系统。全文搜索引擎是目前应用最广泛的搜索引擎。人们常说的搜索引擎一般都是指全文搜索引擎,典型的代表有Google、百度、搜狗搜索、AltaVista、Inktomi>AllTheWeb等。
全文搜索引擎将从网络中抓取的各网页存放于本地数据库中,通过计算机程序扫描网页文章中的每一个字或词,对每一个字或词建立索引,指明该字或词在文章中出现的次数和位置。当用户在搜索引擎网站输入关键字查询时,搜索引擎根据事先建立的索引,查找与用户查询条件相匹配的网页,并按照相应规则排序后将结果反馈给用户。
全文搜索的方法主要包括按字检索和按词检索两种。按字检索是指计算机程序对网页文章中的每一个字都建立索引,检索时将词分解为字的组合。对于不同的语言,字有不同的含义,比如,中文的字在不同的语言环境中,意思差别很大。按词检索是指计算机程序对网页文章中的词(即语义单位)建立索引,检索时按词检索,并且可以处理同义项等。以中文按词检索为例,需要计算机程序先切分字词,然后才能进行检索,因此这也成为中文全文检索技术的一个难点。
2.目录搜索引擎
目录搜索是互联网上最早提供WWW资源查询服务的方式,其主要根据互联网中网页的内容,将网址分配到相关分类主题目录的不同层次的类目之下,形成类似图书馆目录一样的分类树形结构索引。目录搜索引擎是一种建立在目录索引基础上的搜索系统。严格意义上讲,目录搜索引擎不能称为真正的搜索引擎,它实质上是按目录分类的网站链接列表,用户无需输入关键字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需要的信息。如果用户使用关键字查询,目录搜索引擎只会在摘要信息屮搜索。目录搜索引擎主要有雅虎、LookSmart>About>DMOZ、Galaxy等。
目录搜索引擎主要通过两种方式收录网页信息:方式一,以人工手动方式或半自动方式搜集信息,形成摘要信息,并将摘要信息和网站链接置于事先确定的分类框架中;方式二,接受用户提交的网站链接和摘要信息,编辑人员审核通过后,会将其添加到合适的目录类别中。
由于人工的参与,因此目录搜索引擎对所收录网站的要求较高,需要网站的内容清晰明确,才能保证用户获得准确度相对较高的信息内容。但这种方式的缺点是:人工成本较高,信息收录量偏少,信息更新不及时。
3.元搜索引擎
元搜索引擎是指将用户的搜索请求同时提交给多个独立搜索引擎,然后集屮处理搜索结果,按一定规则反馈给用户结果的系统。元搜索引擎主要有InfoSpace、Dogpile>Vivisimo等。
元搜索引擎本身不保存网页信息内容,而是把用户输入的査询请求转换成其他搜索引擎能够接受的命令格式,同时访问多个搜索引擎査询该请求,最后将各搜索引擎返回的结果按照一定的规则处理后提交给用户。
元搜索引擎通常由三部分机制组成:请求提交机制、接口代理机制和结果显示机制。请求提交机制用来实现用户的个性化检索要求。接口代理机制用来将用户的检索要求转换成满足不同搜索引擎要求的格式。结果显示机制用来整合各种搜索结果,仅向用户显示满足一定规则的部分结果。元搜索引擎的运行机制能够在一定程度上弥补不同搜索引擎的不足,但其搜索效率较慢,展现结果比较杂乱,仍需要不断改进。