第一篇:google搜索流程
2010年08月23日12:47 谷歌(Google),一个非常成功,但又十分神秘,而且带有几分理想化色彩的互联网搜索巨人,它还是一家相当了不起的广告公司,谷歌首页上的那个搜索按钮是其年赢利200亿美元的杀手级应用,也是Internet首屈一指的商业和技术神话。近日国外一家网站(PPCblog)精心绘制了一张谷歌搜索流程图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。
在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内,它做了什么?互联网上的内容如何被谷歌找到?什么样的内容会被收录?想必大家一定都想知道谷歌搜索按钮背后的秘密吧。别急,开始之前我们先来看一下神秘的谷歌数据中心。
谷歌自家设计服务器
谷歌的数据中心高度机密,我们所能得到的信息十分有限。我们先来看几个数据:谷歌在美国本土的数据中心有19个以上,另有17个分布在美国以外的世界各地;每个数据中心有50万平方英尺(46450平方米),建造一个数据中心要花费约6亿美元;谷歌的数据中心是世界上最高效的设施之一,非常环保;数据中心使用50-100兆瓦的电力,考虑到冷却问题,通常建在便于用水的地方;谷歌的服务器被安置在标准的海运集装箱中,每个集装箱可容纳1160台服务器。关于谷歌的数据中心,我们就只知道这么多了。
图1 谷歌自家设计的服务器
图2服务器自备电池
谷歌拥有的数十万台服务器都是自己设计的,它们认为这是公司的核心技术之一。每台服务器都配有一颗12伏电池,确保万一主电源断电时还可持续供电。
至于为什么为每台服务器配备电池,谷歌的回答是成本。一般数据中心多依赖UPS(不间断电源系统),这基本上算是大电池,会在主电力失效而发电机还来不及启动时暂时协助供电。而谷歌认为直接把电力内建到服务器更便宜,而且成本能直接跟服务器数量相符合,如此便不会浪费多余的容量。另一个原因是效率,大型UPS可达92-95%的效率,这意味着许多电力还是被浪费掉了,但谷歌采用的内建电池作法效率超过99.9%。
图3 谷歌的服务器被安装在集装箱中,每个集装箱容纳1160台
图4工作中的谷歌员工
谷歌如何找到并收录你上传的内容?
图5发生在用户搜索之前
谷歌使用它的“爬虫”工具在一刻不停地周游互联网世界的每一个角落。上图中间的6个步骤依次描绘了从内容出现在互联网上到内容被收录进谷歌的数据库供用户检索这一过程,其中第2、3、5步又有许多分支,所有这些都是为了建立一个信息“集汇池”,这是第一个阶段的工作,第二个阶段才是从这个“池”中为用户筛选他们所需要的内容。接下来我们一步步看谷歌是如何搜集并整合信息的。
1、网友上传内容,比如博客、微博或其它类型的WEB内容被更新到网上。
2、Google的“爬虫”发现了这一更新。在这一步,谷歌加入了许多判断机制,主要包括以下几点:
2.1、Google的“爬虫”沿着链接路径(URL)周游互联网,但如果没有URL指向某一站点,则这一站点将不会被索引。
2.2、如果你在robots.txt中设置了不许索引(部分或全部),Google的“爬虫”将不会抓取你站点上的相应内容。
2.3、如果指向你站点的连接上有nofollow标签,Google的“爬虫”将不会从这些URL路径来到你的站点。如下图:
网页原代码中的nofollow标签
URL就像是Google“爬虫”周游互联网时的路标,谷歌当然希望收录有价值的网页,所以必须采取一种机制分辨哪些URL是垃圾信息,nofollow标签正是谷歌所倡导的方法之一。网站的合法更新人员几乎不会上传垃圾URL,但它们往往大量出现在评论跟帖和论坛中,就像上图中的例子,这些URL对于谷歌来讲是没有意义的,为了防止“爬虫”经由这些URL到达某一站点,在源代码中它们都会自动被加上nofollow标签。
2.4、Google也能通过blog软件或xml站点地图找到你的网站。
2.5、从权威性越高的网站链接到你网站的URL越多,你的网站的权威性也就越高,但Google“爬虫”始终会忽略被加上了nofollow标签的URL。
上面这几点大概就是谷歌在收录信息时对内容提出的“准入”要求,看来在一些开放的地方(比如论坛)大量发布URL以求让谷歌关注,这一小伎俩是没有什么效果的。以上是信息被谷歌收录之前所发生的事,一旦信息被谷歌收录了会发生什么呢?请往下看:
图8信息“素材”的存储
3、信息被谷歌收录之后当然也要进行加工处理,主要包括两个步骤,一是信息“素材”的存储,二是对收录的信息按要求进行优化,上图描绘了“素材”的存储方式,主要包括两部分:网页标题和链接数据被保存在一个索引中,用于广度优先搜索(可见文章标题是多么的重要,做编辑的一定要有驾驭标题党的觉悟);网页内容保存在另一个索引中,以用于检索频率不高的长尾、个性化、深度优先搜索。
此时可能你已经明白了,当你用谷歌搜索时,你并没有在检索时时更新的互联网,而是在检索谷歌的缓存,只是谷歌更新的速度非常快,以让其缓存尽量与互联网上的内容同步。
图9优化已收录的信息
4、谷歌基于URL评估域名和网页的总体权威性。
5、检查网页以防止作弊行为,包括以下几点:
5.1、谷歌的搜索质量和反垃圾信息审查。
5.2、1万多远程测试用户评价搜索结果的质量。
5.3、谷歌征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报。
5.4、谷歌根据数字千年版权法(DMCA)去除盗版内容。
6、在对页面进行分析之后,每个页面都被附加上很多用于辅助用户搜索的数据片。
从信息出现在互联网上到被谷歌收录,然后谷歌对这些数据进行分析优化,至此,一个实时更新的互联网信息“集汇池”就建立起来了,可以说谷歌存储着整个互联网的快照。以上就是我们在按谷歌搜索按钮之前它所做的事情,接下来我们看一下谷歌如何响应用户的搜索请求,另外谷歌的广告是如何来到我们面前的,不要忘记,谷歌可是靠广告营生的。
只要有人用谷歌的服务它就能从中赚钱,就怕像安卓(Android)手机系统那样,有些流氓厂家把安卓装在了自己的智能手机中,但是把其上谷歌的各种服务全部抹掉,改用自己的服务,这样谷歌当然不干了,所以安卓一更新,这些流氓手机厂家就紧张。
谷歌如何帮助用户进行搜索?
图10从用户开始检索到生成初步结果
从用户开始检索到生成初步结果(这时的结果并不会直接呈现给用户),经历了4个步骤:
1、用户发出搜索请求。谷歌搜索质量工程师PatrickRiley说:在大多数搜索中,你的搜索处于多个并行的控制过程或谷歌实验室的创新项目组过程中,可以说每一个查询请求都会参与一些谷歌的创意实验。我们都是小白鼠?
2、谷歌会对用户输入的关键词提供一些建议。
3、谷歌会用同义词匹配与你的搜索关键词语义相近的查询结果。
4、生成初步的查询结果,虽然谷歌宣称可以找到成千上万的相关结果,但一般只显示不到1000条,同时查询结果将被进行本地化处理,本土站点在查询结果中优先出现。
搜索结果将如何被优化?
1、对查询结果按权威性和PageRank进行排序,重复的查询结果被剔除。此时的查询结果已接近最终形态,在这一基础上,有两个进程将分开进行--查询结果优化和为其匹配相应的广告。我们先来看查询结果优化。
图11对查询结果进行过滤处理
2、对查询结果进行过滤处理。包括以下几点:
2.1、对通常的查询,谷歌会把相关的专题性垂直搜索结果(比如新闻、购物、视频、书籍、地图等)也加到返回的查询结果中。
2.2、个性化,用户访问过的网站在查询结果列表中会更靠上
2.3、大量使用锚点的网站有可能被从查询结果中删除
2.4、如果网页被其他高PageRank的网站引用,则网页的重要性会大大提高。
2.5、趋势分析:对搜索流量爆增或有大量新闻的搜索关键词,谷歌会在新的查询结果中增加额外的PageRank权值。
2.6、同一个域名下的多个网页如果具有相同的PageRank会被归为一组。
2.7、查询结果最终形成(将与广告一同显示)
搜索结果与广告
图12 用户所搜索的内容如何与广告相结合?
1、Google根据关键词、广告类型、用户所处位置找出相关的被竞价拍卖的关键词广告
1.1、关键词广告必须遵守当地法律条文。广告业主的非法广告将被取缔,如果关键词的搜索流量过低或关键词广告点击量偏低,则会被自动禁用,出于商业策略,像亚马逊这样的客户会给予优惠折扣。
1.2、关键词相关广告按收益潜力排序。
1.3、对广告业主来说广告内容一般是固定的,但有时使用动态关键词使关键词广告与搜索关键词相关度更高。一些广告允许增加附属信息,比如网站链接、电话号码、产品链接、地址等。
1.4、如果广告拥有相当高的点击率,则会显示在搜索结果列表的上方,以使其更显眼。
1.5、其余的广告依序显示在页面右侧
经过上述一系列复杂的信息处理过程,最终返回给用户的是一个个性化的、具备地理位置特征的、布局简洁的查询结果页面,当然还精确匹配了广告,所有这些步骤在总共不到1秒的时间内完成,每天3亿次的点击量给Google带来了超过200亿美元的年收入
关于精确广告匹配的小例子,请看下图:
图13思科路由器的广告北京搜索结果
图14思科路由器的广告广州搜索结果
海芯博业的广告下面标注了北京市三个字,可见这是一个地区性的广告推广,在广州搜索结果中不可见。
谷歌官方对其搜索技术的叙述
我们搜索技术的后端软件会在服务器侧触发一系列执行时间不到1秒的并行计算,谷歌问世前的传统搜索引擎的搜索结果严重依赖于关键词在页面上出现的频度,我们使用了200多个指标信号(其中包括我们拥有专利的PageRank页面等级加权算法)用来检查万维网的链接结构并决定网页的重要程度。
我们假定一个网页的重要程度取决于别的页面对它的引用,就像学术论文中的引用指数一样,重要的论文总是会被很多其他论文引用。然后我们再根据搜索条件进行超文本匹配分析(对“爬虫”抓取的页面内容进行关键词倒排索引检索)确定跟搜索请求最相关的网页。综合最重要的网页和跟搜索请求最相关的网页两个方面,我们就能按重要程度和用户搜索请求相关程度把查询结果排序后呈现给我们的用户。
附:Googlegraphic原图。
第二篇:如何关闭google安全搜索
如何关闭google安全搜索
在用google搜索查找相关信息时有时会出现如下图所示的提示。那是因为系统检测到搜索结果可能会让人反感给过(滤)了。下面这个方法可以关闭google安全搜索功能。让所有结果都显示出来。
第1步、点击右上角的“搜索设置”链接,你会看到如下图所示界面。在界面语言设置项中选择英文。再点上面的“保存设置”按钮。
第2步、这是会自动返回搜索结果页面。再次点击右角的Search settings(搜索设置)链接。
第3步、设置不过滤搜索结果。设置如下图所示。选择之后点右上的“ Save preferences“按钮会返回之前的搜索页面。
经过这种设置以后可以搜索任一字词都不会过滤搜索结果。有什么好处就不用哥说了吧!
第三篇:google搜索国外客户技巧(范文)
用google搜索国外客户的三十绝招http://
第四篇:【技术贴啊】google学术 论文搜索
【技术贴啊】google学术 论文搜索
2011-05-30 21:35:37 来自: 我会考上!!(不许扯我后腿!我要长大!)http://www.xiexiebang.compLINKer(cnpiec LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即“中图链接服务”,目前主要提供约3600种国外期刊的目次和文摘的查询检索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性.点评:只提供了外文检索的功能,但是无法得到全文。个人认为不是很理想。3.专家个人主页搜索引擎
http://hpsearch.uni-trier.de/ 搜索专家们的主页,各位可以看看,具体的好处我还要进一步的挖掘各位也可以提一些建议。4.InfoSeek http://www.xiexiebang.comkikw”这个cnki常用密码进行搜索,然后搜索到的资源还是很多,至少感觉比百度强。就是缺少快照。但是也不错!他的功能还要进一步挖掘!6。Lycos http://www.xiexiebang.com
多功能搜索引擎,提供类目、网站、图象及声音文件等多种检索功能。目录分类规范细致,类目设置较好,网站归类较准确,提要简明扼要。收录丰富。搜索结果精确度较高,尤其是搜索图像和声音文件上的功能很强。有高级检索功能,支持逻辑条件限制查询。
点评:在搜索其他的国外免费资源的时候我发现还是比较好用,但是对于学术资源的搜索,我觉得至今还没有挖掘出他的潜力。7.http://www.xiexiebang.com
Google在同一水平的搜索引擎。是Amazon.com推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试,不过缺憾是现在书本内搜索没有中文内容。8。http://vivisimo.com/
推荐一个很有特色的搜索引擎 http://vivisimo.com/,cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO 密码几分钟就可找一大堆.http://search.epnet.com/
9。goole 搜索引擎goole.com,与google比较了一下发现,能搜索到一些google搜索不到的好东东。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。10。looksmart 一个检索免费paper的好工具,网址是:http://www.xiexiebang.com/ 进入网页以后,可以看到他有三个功能,driectory web article,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的!
第五篇:浅谈Google是怎样排名搜索结果
浅谈Google是怎样排名搜索结果
Google是怎样判断哪些页面是有排名的?它是使用算法来评估页面,同时也雇用质量评定人员。每天的搜集次数达到几百万次搜索,按照频率排序,然后把它们发送给按照权威性、实用性和相关性评定搜索结果的人员。
首先排在最前面的是官方网站。这些是国家、政府机构、组织、或个人的官方页面。Google优先选择具有名称的网站,比如国家、机构、城市等名称,如果你的网站具有权威性,则它通常是搜索的第一个结果。
其次是提供信息的页面,该页面应该具有综合性、高质量和权威性。一般情况下这些是大学教授概述某一主题的页面。它应该陈述事实,不偏不倚,不能过于宽泛,也不能过于详细。搜索信息时,Wikipedia和其他百科类文章一般排名较高。
最后是相关页面,这对于Google来说,是意味着页面匹配用户的搜索。如果页面回答了搜索部分的一个信息,那么页面会显示在搜索结果中。
通常我们会看到有高排名的页面不符合件。这说明什么?页面暂时处于高排名,一旦有人建设比它更好的网站则排名就会掉下。你的页面现在排在第几位并能代表以后还在原地。如果Google检查人员发现其他更好的页面,则你的很可能就会掉下,他们的排名就会上去。
文章来源: