用户输入关键词进行检索,百度搜索引擎在排序环节要做两件事:第一是把相关的网页从索引库中提取出来;第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括:

  (1)相关性:网页内容与用户检索需求的匹配程度。例如,网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等。

  (2)权威性:用户喜欢有一定权威性网站提供的内容,相应地,百度搜索引擎也更相信优质、权威站点提供的内容。

  (3)时效性:指新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。、

  (4)重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度。(5)丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求——不仅可以满足用户单一需求,还可以满足用户用搜索结果多样性的需求。

  (6)受欢迎程度:指该网页是不是受欢迎。

  以上是百度搜索引擎决定搜索结果排序时考虑的六大原则。那么六大原则的侧重点是怎样的呢?哪个原则在实际应用时占比最大呢?其实没有确切的答案。在百度搜索引擎早期,这些阈值的确是相对固定的,例如相关性在整体排序中的权重可以占到七成。但随着互联网的不断发展、检索技术的进步、网页数量的爆发式增长,相关性己经不是关键。于是百度搜索引擎引入了机器学习机制,让程序自动产出计算公式,推进排序策略更加合理。

  百度理解网站生存发展需要资金支持,从来不反对网站添加各种合法广告。但有些站点好不容易在百度有了比较好的排位,却在页面上放置大量有损访问用户体验的广告,己经严重影响到百度搜索引擎用户的使用感受。为此,百度质量团队于2013年5月17日发布公告:针对低质量网页推出石榴算法,旨在打击含有大量妨碍用户正常浏览的恶劣广告的页面,尤其是弹出大量低质广告、存在混淆页面主体内容的垃圾广告的页面。

  用户要花很长时间找到真正需要内容的网页,是百度无法接受的。百度质量团队希望站长能够多从用户角度出发,朝着长远发展方向考虑,在不影响用户体验的前提下合理地放置广告,来赢得用户的长期青睐,这才是一个网站发展壮大的基础。