Google官方博客透露出的Google排名算法

2009-04-01 07:05:37


Google对排名算法一直都比较保密,主要原因有两条:竞争及防止被滥用.

而最近发表在Google官方博客的一个帖子透露出了部分Google排名算法的细节,说它最权威是因为帖子发布者是Google工程副总裁(负责排名算法的Udi Manber).

Google排名算法的细节是Google皇冠上的珍珠,我们以它为傲,并且非常注意保护.但是完全保密有时候也不是理想状况

这个部门的心脏是核心排名小组.排名是相当困难的,比大部分人所想象的更困难.其中一个原因是语言都是模棱两可的,文件也没有任何规则,怎样理解信息没有标准.所以我们需要理解任何人,因为任何原因所写的任何网页.这只是一部分.我们还需要理解用户的查询,再将查询投射到我们所理解的文件上.更不要说不同的人有不同的需求.而且我们需要在几毫秒之内完成这一切.

Google排名算法最出名的部分就是PageRank.PR现在还在使用中,不过已经是一个更大的一系统中的一部分.其他部分还包括语言模块(处理短语,同义词,方言,拼写错误等的能力),查询模块(不仅仅是语言,还包括人们怎样使用语言),时间模块(有的查询返回一个30分钟前刚创作的网页最合适,有的时候返回已经存在很长时间的网页更合适),个性化模块(不是每个人都需要相同的东西).

另外一个组负责评估我们做的怎样.目标是改善用户体验,这不是主要目标,而是唯一的目标.有每分钟进行的自动评估,阶段性整体质量评估,更重要的还有个别算法调整的评估.当某个工程师有个好主意,开发一个新算法后,我们对这个主意进行测试.一组统计学家会检查数据,确定这个新主意的价值.

2007年,我们做了450次以上的调整,差不多每个星期9次.比如今年1月份,我们对PR算法做了大幅调整.大多数时间我们都是寻找相关性改善的方法,有时我们也致力于简化算法,简单就是好的.(注释:关于简化算法这句话,是紧接着PR算法调整之后说的,不确认他是讲简化了PR算法,还是说笼统的对算法的简化.我的感觉是PR算法确实有了很大的改变.给我的感觉是,基本上给我们看的工具条PR是不准的,尤其很多该有PR值得内页显示PR为零.也许这就是Udi Manber所说的算法简化造成的.)

在过去两年中,国际搜索是我们的主要焦点之一,包括所有的语言,而不仅限于主要语言.

另外一个小组专注于反垃圾和其他各种被滥用的技巧,这也就是Matt Cutts所负责的小组.这个组识别新的垃圾技术,并且以可扩展的方式克服这些垃圾.和其他组一样,这个组也是要处理国际多语种.反垃圾组与Google站长工具组紧密配合.

还有一个小组专门负责新功能和用户界面.Google的用户搜索界面相当简单,当我们增加新功能时,尽量确保对用户来说是简单易用的.在过去一年中,主要的改变包括通用搜索,Google Notebooks,自定义搜索引擎以及iGoogle的改进.用户界面小组有一组易用性专家,在辅助研究用户及评估新功能.

还有其他专门的项目组.整体来说我们的组织结构相当非正式,人员调动频繁,新项目也随时开始.

[打印] [关闭] [返回顶部]

相关文章