海归网首页
海归宣言
导航
博客
广告位价格
会员列表
收 藏 夹
论坛帮助
登录
|
登录并检查站内短信
|
个人设置
论坛首页
|
排行榜
|
在线私聊
|
专题
|
版规
|
搜索
|
RSS
|
注册
|
活动日历
主题:
[转帖]Google工程师详述Google的搜索结果排列算法
海归论坛首页
->
海归商务
焦点讨论
|
精华区
|
嘉宾沙龙
|
白领丽人沙龙
分屏
表形显示
阅读上一个主题
::
阅读下一个主题
作者
[转帖]Google工程师详述Google的搜索结果排列算法
Sarakawa
头衔: 海归准将
声望: 教授
加入时间: 2006/04/07
文章: 797
海归分: 134579
标题:
[转帖]Google工程师详述Google的搜索结果排列算法
(1754 reads)
时间:
2006-5-20 周六, 03:44
作者:
Sarakawa
在
海归商务
发贴, 来自【海归网】 http://www.haiguinet.com
--> Google工程师详述Google的搜索结果排列算法
本文作者马特-卡兹(Matt Cutts)是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级,并负责开发阻止虚假或垃圾网站出现在Google搜索结果上的技术。
图书馆管理员们提出最多的问题之一是:“对于什么样的结果应该位于搜索列表的最上方,Google是如何选择的?”现在品质工程师马特-卡兹介绍了快速入门的知识,解释了Google是如何在网上爬行和索引,以及如何评定搜索结果等级的。马特也向学校图书馆管理员提出建议,告诉他们如何辅导学生。
爬行和索引
在你浏览包含了Google搜索结果的网页之前,要发生很多事情。首先是在万维网数以十亿计的网页上爬行和索引,这个工作是由Googlebot完成的,它负责与全球的网络服务器连接以收集文件。爬行不是真的在网上漫游,而是访问网络服务器返回到一个特定的网页上,接着扫描该网页建立超链接并为每一个网页编上号码。爬行可收集大量的文件,但这些文件还不能直接用于搜索。
如果没有索引,在你想查询如“civil war”(南北战争)等内容时,Google的服务器将不得不在你每次搜索时阅读每一份文件的内容。因此第二个步骤是要建立一个索引,这样就需要“转换” 爬行所获得的数据。为了不必在每一份文件上扫描每一个单词,就需要在数据上做些文章,以便显示包含了特定单词的所有文件。例如,假设单词“civil”在编号为3、8、22、56、68和92的文件上出现过,而单词“war”出现编号为2、8、15、22、68和77的文件上。
一旦建立了索引,就开始对文件进行等级评定并确定它们的相关性。假如某个人上Google搜索并输入“civil war”,为呈现和评价搜索结果需要做两件事:一是查找包含了用户提问的网页;二是按照相关性排定匹配网页的位置。Google已经开发出一个有趣的技术可加速第一步骤的过程:不是将所有索引存储在一台电脑上,而是使用数百台电脑做这种工作。由于任务被分配到很多电脑上,使得查询答案更为迅速。
为更加形象地描述这个过程,可以设想下一本30页厚书的索引。如果一个人在索引中查找数页的信息,那么每一次搜索都至少需要花几秒钟的时间;但如果你将索引的每一页分给不同的人去查找呢?三十个人分别查找索引的不同部分,要比一个人独自查找快的多。同样,Google也是将数据分配到各台电脑上以便可以更快地查找文件。
如何查找包含了用户提问的网页?让我们返回到上面举的“civil war”例子。单词“civil”在编号为3、8、22、56、68和92的文件上,单词“war”在编号为2、8、15、22、68和77的文件上,我们可以在网页上显示文件并寻找包含两个单词的文件(从下表中可以看出是8、22和68号文件)。
单词civil 3 8 22 56 68 92
单词war 2 8 15 22 68 77
两个单词都出现 8 22 68
包含了一个单词的文件列表被称为“文件标识列表”,查找包含两个单词的文件被称为“文件标识列表的交集”。
评定搜索结果
有了包含用户提问的网页后,就该按照相关性评定网页了。Google使用了很多技术,其中 PageRank算法是最有名的。PageRank评定的是两种事情:从网站到某一网页有多少个链接,提供链接的网站的排名。使用PageRank,来自 CNN和纽约时报网站的链接的价值,是很多不太有名网站的两倍。
除了PageRank外Google还使用了很多其他技术,例如一份文件所包含的 “civil”和“war”两个单词靠的很近,就比只使用了“war”单词的包含“Revolutionary War”(独立战争)的文件相关性要大的多。另外在题目中出现了“civil war”的网页,它的相关性就比题目为“19th Century American Clothing”(19世纪的美国服装)要重要的多。同样如果“civil war”在网页上出现了数次,比出现一次的网页要相关的多。
Google的目的是要找到知名度和相关性都大的网页。如果两个网页出现匹配提问的信息数量几乎一样,我们常常会选择更有名网站的链接。但如果其他方面表明一个网页更为相关,也会选择更少链接或更低排名的网页。例如,一个网页全篇都是讲“南北战争”的内容,会比只是略微提到“南北战争”的网页更为有用,即使这个网页是出现不太有名的网站上。一旦我们有了文件的列表和分值,就会选择最高分值、最匹配的文件。
Google从包含了提问单词的每一份文件中提取几句话作为摘要显示,接着将排好的URLs和摘要显示在搜索结果上。正如你所知道的运行一个搜索器需要大量的计算资源。每一次搜索需要500台以上的电脑一起工作,搜索的时间还不到半秒钟。
作者:
Sarakawa
在
海归商务
发贴, 来自【海归网】 http://www.haiguinet.com
相关主题
laozhong,海归网招聘软件工程师详细情况
海归酒吧
2006-12-19 周二, 18:50
[转帖] 德系工程师眼中的日本汽车,到底怎么样?(下)
生活风情
2016-8-07 周日, 07:02
[转帖]俄罗斯工程师或将成全球首例“换头手术”接受者 新华网
海归茶馆
2015-4-09 周四, 09:26
[闲聊]工程师在办公室做些什么事情?(转帖)
海归商务
2012-12-03 周一, 10:16
[转帖]工程师被公检提诉泄密获判无罪 扣押多年不放行回美国 羊城晚报
海归商务
2011-10-18 周二, 21:11
[转帖] 德国工程师无奈:竟因娶了中国太太被解雇
海归商务
2011-8-18 周四, 10:47
[转帖]铁道部副总工程师张曙光被查 其妻子已定居美国
海归商务
2011-3-01 周二, 17:03
Google Shanghai Slide 招聘高级测试工程师
海归职场
2011-1-17 周一, 18:27
返回顶端
[转帖]Google工程师详述Google的搜索结果排列算法
--
Sarakawa
- (2034 Byte) 2006-5-20 周六, 03:44
(1754 reads)
谢谢转贴,辛苦!但是,能写点给计算机专业的学生看的东西吗?
--
Link
- (0 Byte) 2006-5-20 周六, 04:04
(306 reads)
这篇文章就是给计算机相关的人士看的呀!
--
Sarakawa
- (0 Byte) 2006-5-20 周六, 05:31
(280 reads)
显示文章:
所有文章
1天
7天
2周
1个月
3个月
6个月
1年
时间顺序
时间逆序
海归论坛首页
->
海归商务
焦点讨论
|
精华区
|
嘉宾沙龙
|
白领丽人沙龙
所有的时间均为 北京时间
论坛转跳:
您
不能
在本论坛发表新主题,
不能
回复主题,
不能
编辑自己的文章,
不能
删除自己的文章,
不能
发表投票, 您
不可以
发表活动帖子在本论坛,
不能
添加附件
不能
下载文件,
热门标签
更多...
论坛精华荟萃
更多...
博客热门文章
更多...
海归网二次开发,based on phpbb
Copyright © 2005-2026 Haiguinet.com. All rights reserved.