搜索引擎抓取页面内容,实际上抓取的是页面的源代码等信息。搜索引擎需要将这些页面信息进行分析后才会为用户呈现出来。搜索引擎分析页面,主要从以下五个方面着手:内容提取、分词、去重、关键字索引和关键字重组。
1.内容提取
内容提取是指搜索引擎从页面源代码屮提取信息的过程。搜索引擎抓取的信息,除了用户可在浏览器上有效阅读的外,还有大量HTML标签等无法有效使用的内容。搜索引擎将会去除各类无价值的信息,提取可以用于排名处理的页面信息。经过内容提取后,搜索引擎才会获得一个连续的文字序列。
对搜索引擎来说,并不是页面所有的信息都要进行抓取,比如,页面上对排名计算不产生影响的导航条、版权文字说明、广告等区块。因为搜索引擎需要处理海量的网页数量,所以对于大量的无价值信息采取了忽略的方式,这样可以有效地节省计算资源,提升响应速度,剔除无价值信息。我们称这个过程为降噪。当前,主流的降噪技术有:网页结构法、模板法和可视化信息法。
1、网页结构法
网页结构法是根据HTML标签对页面进行分区,分出页头、导航、正文、广告等区块,只抓取正文中重要的部分。
2、模板法
模板法是从一组网页中提取出相同的模板,而后利用这些模板从网页中抽取有用的信息。
3、可视化信息法
可视化信息是利用页面中元素的布局信息划分页面,保留页面中间区域,其他区域则认为是“噪音”。
【知识扩展】:网站优化如何人工降噪
针对搜索引擎基于网页结构识别“噪音”的情况:SEO人员在处理网页结构时可以引入JS(JavaScript的简写,一种编程语言)代码,将页头、广告、版权声明等不想被搜索引擎抓取的内容通过JS调用来实现降噪。因为这些内容一旦被收录,很容易造成重复堆积,拉低网站整体的内容质量评分。
针对搜索引擎基于网页模板识别“噪音”的情况:SEO人员在建网页时应尽量采用同一套模板,在改板时不要轻易改换模板,以帮助搜索引擎识别“噪音”区域。
针对搜索引擎基于可视化信息识别“噪音”的情况:SEO人员在创建网页时应尽量遵循网页布局的通用原则,将正文内容安排在页面中间区域。而个性化比较强的页面,会增加搜索引擎识别“噪音”的难度。
2.分词
分词也称切词,是指搜索引擎将内容提取后,按照一定的原则重新组合成文字列表的过程。经过分词得到的文字列表,一般都能满足用户的查询需求。这个文字列表也称为关键字列表。
在英文页面屮,单词之间以空格和标点作为自然分隔符,搜索引擎会以这些&然分隔符作为分词依据。在中文页面中,字、句和段都能通过明显的分隔符来简单划界,但词没有形式上的分界符。可见,中文分词要比英文复杂得多。中文分词方法主要有字符串匹配分词法、统计分词法和理解分词法。
1)字符串匹配分词法
字符串匹配分词法是搜索引擎基于一个大而权威的“词典”进行切词,只要页面上的词与“词典”中的词匹配,则分词成功。
2)统计分词法
统计分词法是根据相邻的两个(或多个)字出现的概率来判断是否组合成词。比如“学”和“习”两个字经常同时出现,那么搜索引擎就会认为“学习”是一个词。
3)理解分词法
理解分词法是指搜索引擎可以通过模拟人对句子的理解,以达到分词的效果。搜索引擎在分词的同时,还分析句法、语义,以处理歧义信息。由于汉语语言具有复杂性、多变性、与语境相结合的特点,这种分词方法面临一定的困难。
这三种分词方法并不是独立使用的,而是可以同时混合应用的。比如,统计分词法经常与字符串匹配法结合使用,以提高分词的效率。以词“微信”为例,在腾讯没有推出微信APP之前,这两个字很少出现在一起。假设“词典”收录了“微信”,当“微”和“信”经常一起出现时,搜索引擎就会判断这是一个“新词”。
在分词的时候,搜索引擎还要去除停止词。停止词通常是出现频率高,但却对内容没有影响的词,比如“的”“地”“得”等助词,“啊”“哈”“呀”等感叹词,“从而”“以”“却”等介词,英文中常见的“h”“”“”“to”“of”等词。搜索引擎在索引页面之前会去掉这些停止词,使索引信息的主题更突出,减少无谓的计算景。
3.去重
页面内容经过降噪、去停止词等过程之后剩下的内容•,还需要面对重复的问题。这就要求搜索引擎采用算法对重复的内容进行屏蔽处理。
4.关键字索引
搜索引擎会从页面的有效信息中提取关键字,同时记录每组关键字出现的频率、次数、格式、位置等。为了提高关键字的检索效率,搜索引擎通常会为关键字建立索引,这样一来,搜索引擎就可以快速定位到某个关键字。此时,页面与关键字之间是一对多的关系,一个页面可能会包含多个关键字。
5.关键字重组
我们经常会遇到搜索某个关键字后,会出现很多包含该关键字的页面。这是因为对页面中的关键字进行了重组,并且将重组结果合并为一个关键字集合,最后才形成了关键字与页面间的一对多关系。其结果就是搜索某个关键字,会找到与之相关的所有页面。