谷歌搜索引擎的运作原理

项目简介

谷歌搜索引擎的运作原理

Service

  Google的官方博客在2008年5月刊登了乌迪•曼博(UdiManber,

  如图1-17所示)的这篇文章“IntroductiontoGoogleSearchQuality”,并且透露Google将定期公告关于搜索引擎的信息。根据乌迪•曼博的文章,Google有超过百人以上的工程师与科学家直接在研究与改善搜索引擎技术,另外有团队负责品质评估、使用者界面开发和垃圾技术侦测等,他表示在2007年Google就有450次的改善修正,平均每周就改善9次之多。

  乌迪•曼博在2006年前是负责Amazon的A9搜索引擎时,因此虽然只加入Google两年,但是已经算是搜索引擎的老鸟了,他目前是Google搜索品质的副总裁,该团队就是负责数据评估等的工作,也就是决定数据搜索的排序结果。乌迪是精于演算法及数据比对的资深工程师,在亚马逊网络书店可以找到许多他的著作。

  文章“IntroductiontoGoogleSearchQuality”链接在网站http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html上。另外一位仓j立Blekko的里奇•斯克伦塔(RichSkrenta谈论到搜索引擎时说:“搜索引擎就是把全球的页面复制一份到您的集群里,然后进行7项苦工(分散式系统、HTML分析、文字与语意分析、反垃圾、人工智能与机器学习、使用界面、弹性的系统规模),然后每天都会惊讶地发现许多色情与垃圾网站”。他的最后一句透露了两个重点:取巧的网页会被抓出来,以及人类在整个过程中会介入数据的判断。

  其实从2007年Google的PR调整来处罚Paidlink(付费式链接),大概就能清楚人为干扰搜索引擎演算法是怎么回事,但由里奇•斯克伦塔的说法就更加明白,非自然的网页行为是被严密监控的,也许您会认为上亿页的数据中不会被发现,那您就低估了人工智能与机器学习的可能性。

  虽然搜索引擎的操作相当繁复,但是我可以把它简单戈u分成几个步骤:

  (1)由网络上抓取各网站的数据(DataCrawling);

  (2)处理抓回来的数据并建立索引(DataIndexing);

  (3)以算法建立各网页评比分数(DataScoring);

  (4)搜集使用者浏览网络的习惯数据(UserBrowsingStatistics);

  (5)由使用者搜索数据搜集关键字及点击率(UserSearchStatistics)o

  这5个步骤的详细内容说明。

  因此如果想要让搜索引擎能够把您的网页显示在搜索结果的前面几页,就必须深入了解上面5个步骤的过程,这些就牵涉到太多深奥的信息工程学、社会学、心理学和广告营销学等知识,但是如果能够好好阅读本书,您也可以不费吹灰之力地掌握所有搜索引擎的核心知识。


栢塑具有12家分公司合作165家上市集团企业,打造更多中国500强企业。联系电话:Alvin 15257873850