拉里·佩奇、谢尔盖·布林与搜索

1994年1月,也就是贾斯汀·霍尔刚刚开设那个令人费解的个人主页的时候,世界上总共只有700个网站。这个数字在同年年底变成了1万,在次年年底更是增长至10万。个人电脑和网络的结合带来了一个奇迹:任何人都可以在任何地方获取内容,同时将自己的内容分享到世界各地。但是如果要利用好这个正在迅速膨胀的宇宙,我们需要找到一个简单的方法来帮助人们找到所需的东西——一个将人、计算机和网络三者连接起来的简单接口。

最早尝试做到这点的是一些人工编纂的网站目录。其中有些目录会显得古怪和轻浮,比如霍尔的“地下室链接”和保罗·菲利普斯(Paul Phillips)的“Useless Pages”。另外一些则是严肃正式的,比如蒂姆·伯纳斯–李的万维网虚拟图书馆(World Wide Web Virtual Library),国家超级计算应用中心的“What’s New”页面,以及蒂姆·奥莱利的全球网络导航器(Global Network Navigator)。处于这两者之间的是一个成立于1994年初的网站,它将网站目录的概念带上了一个全新的台阶。它的创始人是两位斯坦福大学研究生,他们将这个网站命名为“杰里和大卫的万维网指南”(Jerry and David’s Guide to the Web),当时许多同类网站都采用了类似的命名方式。

杨致远(Jerry Yang)和大卫·费罗(David Filo)对待博士论文的态度都很散漫,他们会因为玩模拟篮球经理游戏而拖延完成论文的时间。“我们做各种事情,就是不写论文。”杨致远回忆道。113 为了从服务器上获取球员的数据,杨致远花了很多时间来研究FTP和Gopher这两种协议。在万维网出现之前,它们是在互联网上分发文档的常用工具。

在Mosaic浏览器推出之后,杨致远将自己的注意力转向了万维网,他和费罗开始亲手编纂一份不断扩展的网站目录。他们按照类别对不同的网站进行整理,例如商业、教育、娱乐、政府等,每个类别还会分成若干个子类别。1994年底,他们将这个万维网指南更名为“雅虎”(Yahoo!)。

但是这个网站目录存在一个显而易见的问题:每年网站的数量都会呈现10倍的增长,因此他们不可能人工持续更新这个目录。幸好当时已经出现了一种用于搜索FTP和Gopher站点信息的工具——爬虫(crawler)。这种工具被称作爬虫的原因是它会一个接一个地“爬进”互联网的服务器,然后根据自身搜索到的信息建立索引。当时最著名的两个爬虫工具是Archie(用于FTP)和Veronica(用于Gopher),它们的名字就像是漫画书里面的英雄搭档一样。到了1994年,有许多勇于尝试的工程师都开始制作用于搜索万维网的爬虫工具,其中包括麻省理工学院的马修·格雷(Matthew Gray)开发的WWW Wanderer,华盛顿大学的布莱恩·平克顿(Brian Pinkerton)开发的WebCrawler,数字设备公司的路易斯·莫尼尔(Louis Monier)开发的AltaVista,卡内基–梅隆大学的迈克尔·莫尔丁(Michael Mauldin)开发的Lycos,加拿大滑铁卢大学的一支团队开发的OpenText,以及来自斯坦福大学的6位朋友开发的Excite。所有这些爬虫工具都采用了链接跳转机器人,它们会对万维网进行快速检索。就像是在各家酒吧之间大肆豪饮的酒鬼一样,它们会疯狂地采集每个网站的网址和内容。然后这些信息会被标记和索引,并储存在数据库当中,以便查询服务器的进一步调用。

费罗和杨致远没有开发自己的网络爬虫,他们选择从其他地方购买一个爬虫工具,然后应用在自己的主页上。雅虎继续强调人工编纂网站目录的重要性。当用户输入一个关键词之后,使用雅虎的计算机会查找本站目录当中是否含有相关的条目。如果有的话,用户就会看到一个经过人工编辑的相关网站列表。如果没有的话,查找工作将会交由网络爬虫搜索引擎完成。

雅虎团队错误地认为大部分用户在上网的时候只是浏览内容,而不是专门为了查找某些特定的东西。“从浏览和发现到现在的目的性搜索是一项令人难以置信的转变。”雅虎的首位主编斯里尼贾·斯里尼瓦桑(Srinija Srinivasan)回忆道,她当时管理着一个雇有60位年轻编辑和目录编纂人员的编辑室。114 这种依赖于人工编辑的做法意味着雅虎非常擅长挑选新闻报道。多年以来(甚至直到现在),它在这方面的能力一直遥遥领先于竞争对手,但是它并不擅长提供搜索工具。然而,斯里尼瓦桑和她的团队不可能追赶上网页数量增长的速度。自动化搜索引擎将会成为万维网内容查找的主要方式,而这个潮流将由另外两位斯坦福大学研究生引领。

拉里·佩奇(Larry Page)生长于一个计算机技术家庭。115 他的父亲是密歇根大学的计算机科学和人工智能教授,他的母亲也是那里的编程讲师。1979年,也就是在拉里6岁的时候,他的父亲买了一台叫作Exidy Sorcerer的业余家用电脑回家。[6] “我还记得家里刚买电脑的时候,我感到非常兴奋,因为这可是一件大事,而且它的价格应该不便宜,就像是买一辆车一样。”他说道。116 拉里很快就学会了如何操作这台电脑,他还会用它来做作业。“我想我是小学里面第一个用文字处理文档来交作业的孩子。”117

佩奇的童年偶像之一是尼古拉·特斯拉(Nikola Tesla),这位充满想象力的电学先驱拥有大量的发明,但是他在商业上被托马斯·爱迪生击败了,最终在穷困潦倒中逝世。佩奇在12岁的时候读到了一本特斯拉传记,他认为这是一个悲哀的故事。“他是历史上最伟大的发明家之一,但是他的故事实在令人感到痛心。”他说,“他不能将自己的任何发明变成商品,他的资金只能勉强支撑自己的研究工作。你肯定会更想成为像爱迪生这样的人。如果你只是把一件东西发明出来,它不一定能够为他人带来帮助。要想真正地把它推广给全世界,你必须把它生产出来,然后用赚到的钱继续支持它的研究。”118

拉里的父母在长途驾车旅行的时候经常会带上他和他的哥哥卡尔,有时他们会一起参加计算机大会。“我想我在上大学的时候已经差不多去过美国的各个州了。”他说道。有一次,他们驾车前往温哥华参加国际人工智能联合大会(International Joint Conference on Artificial Intelligence),当时的会场上到处都是各种神奇的机器人。因为拉里当时还未满16岁,所以工作人员不允许他进入会场,但是他的父亲坚持要带他进去。“他直接对着他们大吼大叫。这是我为数不多看到他对其他人发脾气的时候。”119

与史蒂夫·乔布斯和艾伦·凯一样,拉里在计算机以外的爱好是音乐。他会吹奏萨克斯,而且学习过作曲。每年暑假他都会到密歇根州北部参加著名的湖心音乐夏令营。这个夏令营采用了一种民主的方式来确定每个孩子的排名:在开营的时候,孩子们会被分配到乐团的各个席位,然后每个孩子都可以挑战自己前一席位的人。在两个孩子进行比赛的时候,其他孩子会背对他们聆听他们演奏同一段音乐,然后投票选出哪一个演奏得更好。“经过一段时间之后,孩子们的排名就会稳定下来,而且每个人都能大概了解自己处于怎样的水平。”他说道。120

密歇根大学不仅是佩奇的父母任教的地方,也是他们曾经上学和邂逅的地方,所以他们半开玩笑地叫佩奇以后也去那里上学。而佩奇也确实去上了密歇根大学。他坚持要同时主修商科和计算机科学专业,其中一部分原因是特斯拉的故事给他带来的启示——这位大发明家始终无法把自己的发明变成商品。另外一部分原因是比他大9岁的哥哥卡尔起到的榜样作用,后者在毕业之后成为一家早期社交网络公司的联合创始人,这家公司后来以4.13亿美元的价格被雅虎收购了。

佩奇提到自己印象最深刻的一门大学课程是朱迪斯·奥尔森(Judith Olson)教授的人机交互课程。这门课程的目标是理解如何设计简单而直观的交互界面。在这门课程的研究报告中,佩奇选定的主题是Eudora邮件客户端的显示界面,他对这个客户端执行各种操作所需的时长进行了预估和测试。例如,他发现人们使用控制按键的操作速度实际上会比鼠标慢0.9秒。“我觉得自己建立了一种理解人们如何与屏幕进行交互的直觉,而且我意识到这些东西是非常重要的,”他说,“然而即使到了今天,这些仍然没有得到很好的理解。”121

在大学期间的一个暑假里,佩奇参加了由领导力培训机构LeaderShape举办的一个集训活动。该活动旨在鼓励学生建立一种“积极地忽视不可能”的态度。这家机构反复向他灌输这样一个目标,就是发起一些其他人认为是大胆和疯狂的项目,这也是他日后在谷歌一直追求的目标。在他发起的众多项目当中,尤其大胆和疯狂的是他在密歇根大学和后来推动的一些未来主义想法——个人交通系统和无人驾驶汽车。122

在申请研究生院的时候,佩奇被麻省理工学院拒绝了,但是斯坦福大学录取了他。这其实是一件好事,对于那些有志于同时涉足技术和商业的人来说,斯坦福大学是一个理想的去处。自从斯坦福毕业生西里尔·埃尔韦尔(Cyril Elwell)在1909年创立联邦电报公司(Federal Telegraph)以来,技术创业在这里不仅是一种可以容忍的行为,而且是被广为接受的。20世纪50年代初,在工程学院院长弗雷德·特曼将大学的部分土地改造成工业园区之后,斯坦福大学鼓励创业的态度得到了进一步的巩固。即便是在教员们的眼中,创业计划的重要性也丝毫不亚于学术论文发表。“这正是我喜欢的那种教授,他们会将一只脚伸进产业当中,而且希望做出一些颠覆世界的疯狂事情,”佩奇说道,“斯坦福大学有很多这样的计算机科学教授。”123

当时大部分的精英大学都将重点放在学术研究上,同时避免涉足商业领域。斯坦福大学率先认识到大学不应该只是一个学术研究机构,而且可以是一个创业孵化器。由斯坦福大学成功孵化的企业包括惠普、思科、雅虎和太阳计算机系统等。这个列表中最响亮的一个名字最后将由佩奇加上,他认为这种观点实际上会提升学校的学术研究水平。“我认为纯理论方向的研究效率也得到了大大的提升,因为它是建立在现实世界的基础上的,”他坚持道,“不仅仅是进行理论研究,你也希望自己的研究工作可以应用在实际的问题上。”124

佩奇在1995年秋季正式入读斯坦福大学研究生院,他在开学之前还参加了一个新生培训项目,其中有一天的培训活动设在旧金山进行。当时的领队是一位善于交际的二年级研究生谢尔盖·布林(Sergey Brin)。佩奇是一个天生沉静的人,但是布林却是那种能连珠似炮地向他讲述自己想法的人,他们很快就进入了关于各种话题的争论当中,从计算机到城市功能分区无所不谈,两人一拍即合。“我记得自己当时觉得他很讨厌,”佩奇承认道,“这种看法一直持续到现在。也许他也是这么看我的吧。”125 他们确实是一对冤家。“我们都觉得对方很讨厌,”布林也坦承,“不过我们只是开玩笑而已。当然,我们进行了很长时间的交流,所以我们之间肯定有合得来的地方。我们喜欢互相取笑对方。”126

谢尔盖·布林的父母也是学者,他们都是数学家,但是他的童年跟佩奇的非常不一样。布林出生于莫斯科,他的父亲是莫斯科国立大学的教授,他的母亲是苏联石油与天然气研究所的研究工程师。因为他们都是犹太人,所以他们的事业受到了诸多制约。“当时我们的家境贫寒,”谢尔盖对记者肯·奥莱塔(Ken Auletta)说道,“我的父母都经历过非常困难的时期。”当他的父亲提交了移民申请之后,他们夫妻两人同时失业了。他们一家的出境签证在1979年5月获批,当时谢尔盖只有5岁。在希伯来移民援助协会的帮助下,他们一家住进了一个工薪阶层住宅区,他的父亲在附近的马里兰大学找到了一份数学教授的工作,他的母亲也成为美国国家航空航天局戈达德太空飞行中心(NASA Goddard Space Flight Center)的研究员。

谢尔盖入读的是一所采用蒙特梭利教育法的学校,他在那里培养出了独立思考的能力。“没有人告诉你应该做什么,”他说,“你必须规划好自己的道路。”127 这是他和佩奇之间的一个共同点。在后来被问到拥有身为教授的父母是不是他们取得成功的关键时,他们都表示入读蒙特梭利式教育学校是一个更为重要的因素。佩奇的观点是:“我认为有一部分原因来自我受到的教育——不要墨守成规,学会自我激励,用怀疑的眼光看待世界,还有做出与众不同的事情。”128

布林和佩奇的另外一个共同点是他们在小时候都收到过父母送的电脑,布林在9岁的时候收到了一台Commodore 64电脑作为生日礼物。“当时为自己的电脑编程要比现在容易得多,”他回忆道,“那台电脑内置了一个BASIC编译器,[7] 所以我可以马上开始编写自己的程序,”在中学时期,布林和一个朋友尝试编写一些可以和用户进行文本对话的程序,希望从中模仿出人工智能。“我认为现在这些接触电脑的孩子们已经不像我以前那么容易进入编程的世界了。”129

然而布林对待权威的叛逆态度差点为他惹上大麻烦。在他即将17岁的时候,他的父亲带他回到莫斯科进行参观。他在莫斯科的路上看到一辆警车,他忍不住朝警车扔了块石子。车上的两位警官走下来准备教训谢尔盖,幸好他的父母帮他化解了这场危机。“我认为自己的叛逆精神来自我出生于莫斯科这个事实,而这种叛逆精神一直伴随我到成年之后。”130

物理学家理查德·费曼(Richard Feynman)的几本回忆录让布林深受启发,费曼非常推崇将艺术和科学结合在一起的做法,正如列奥纳多·达·芬奇那样。“我记得其中有一部分内容是他讲述自己多么想成为列奥纳多——一个集艺术家和科学家于一身的人,”布林说道,“这种想法对我很有启发,我觉得这是一条通向充实人生的道路。”131

布林分别用三年的时间完成高中和大学本科的学业,他在马里兰大学主修的是数学和计算机科学双专业。有一阵子,他喜欢和自己的电脑极客朋友们一起在互联网电子公告栏和聊天室打发时间,不过在发现这些地方充斥着“10岁的男孩们在尝试谈论性爱”之后,他就把注意力转向了以文本为基础的多用户地下城(MUD)在线游戏,他甚至编写了一个自己的MUD游戏,里面有一个运送爆炸物包裹的邮差。“在MUD游戏上花了一些时间之后,我发现这是一个非常酷的东西。”布林回忆道。132 在1993年春天,也就是布林在马里兰大学的最后一年,他下载了安德森刚刚发布的Mosaic浏览器,紧接着他就被万维网深深吸引住了。

布林在获得国家科学基金会的奖学金之后进入了斯坦福大学,他在那里的研究重点是数据挖掘(同样,麻省理工学院也拒绝了布林的研究生申请,不过现在看来损失更大的似乎是麻省理工)。在正式入读博士研究生院之前,布林需要先通过8项综合性的测试,他在报到之后不久就顺利通过了其中7项测试。“我认为自己最擅长的一项测试却没有通过,”他回忆道,“于是我去找评分的教授为自己的答案争辩,并成功说服了他,最终我通过了全部8项测试。”133 这之后他就可以自由选择喜欢的任何课程,同时沉浸在自己的特殊运动爱好当中——包括杂技、秋千、帆船、体操和游泳。他可以倒立行走,他还说自己曾经想过要离家出走加入马戏团。他也是直排轮滑运动的狂热爱好者,经常有人会看到他在过道之间呼啸而过。

在佩奇入读斯坦福大学几个星期之后,他和布林连同计算机科学系的其他学生都搬进了新建的盖茨计算机科学大楼。[8] 布林认为建筑师制定的办公室编号方式过于平庸,于是他设计了一种新的编号方式,它能够更好地表示每个房间的位置和它们之间的距离,这种方式最终得到了采纳。“可以说,这个新的编号方式确实非常直观。”他说道。134 佩奇和另外三位研究生被分配到了一个房间,布林把这里当成自己的大本营。这个房间里面有由电脑控制浇水的悬挂植物、一台连接到电脑的钢琴、各种各样的电子玩物,还有为小睡和通宵工作准备的睡垫。

人们用驼峰式拼写法为这对形影不离的组合取了一个外号——“LarryAndSergey”,他们在进行争论或者取笑对方的时候就像是两把互相交锋的宝剑。他们办公室里唯一的女生塔玛拉·蒙兹纳(Tamara Munzner)称他们有股“傻傻的聪明”,这点尤其体现在他们为一些荒谬的想法而争论的时候,比如能否只以青豆为材料制成楼房大小的建筑。“和他们共用一间办公室是非常有趣的,”她说,“我们在一起的时候都玩得很疯狂。我记得在一个周六晚上,直到凌晨3点,办公室里面仍然挤满了人。”135 这对组合不仅以头脑聪明著称,在其他人眼中他们还是胆大妄为的。“他们不会假装尊重权威,”他们的一位导师拉杰夫·莫特瓦尼(Rajeev Motwani)教授表示,“他们总是质疑我,他们会毫不顾忌地对我说‘你讲的东西都是垃圾!’”136

跟其他优秀的创新搭档一样,“LarryAndSergey”也有着互补的个性。佩奇不是一个热衷社交的人,他可以一直盯着电脑屏幕,却不敢和陌生人进行眼神接触。他的声带因为一次病毒感染而患上了慢性疾病,因此他说话时的嗓音会比较低沉和沙哑,他还有一个令人不快的习惯,就是他有时候会完全陷入沉默(这从很多方面来看其实是个好习惯),因此他偶尔说出的话语会给人留下更为深刻的印象。佩奇有时会完全沉浸在自己的世界中,但有时也会积极地与人交流。他的笑容往往只是一闪而过,却能让人感受到真挚。他的脸部表情很丰富,他在聆听别人说话时的专注既让人感到高兴也令人紧张。理性而严谨的他可以指出最为常见的论述当中的逻辑问题,也可以轻易地将肤浅的对话转变为深刻的讨论。

而布林有时也会表现得傲慢无礼,但是他的行为却不会惹人反感。他会未经敲门就闯入其他人的办公室,不假思索地讲出自己的想法和要求,或者随时加入到任何话题的讨论当中。相比之下,佩奇则是一个更为谨言慎行的人。当布林为自己找得某种可行的方法而沾沾自喜的时候,佩奇会深入思考这种方法可行的原因。热情健谈的布林通常都是讨论的主导者,而佩奇在讨论结束时的低声评论却能引人侧身倾听。“也许我要比谢尔盖更腼腆一些,不过他某些方面也挺害羞的,”佩奇评论道,“我们有很好的合作关系,我的思维可能会比较广阔,而且我们掌握的技能也不一样。我接受的是计算机工程师的训练,所以我对硬件知识比较在行,但他拥有比我更深厚的数学背景。”137

布林身上有一点让佩奇感到尤其了不起的是他的聪明才智。“我想说的是,即便是在计算机科学系的学生当中,他也是绝顶聪明的。”除此之外,布林的外向性格也能为他俘获人心。当佩奇刚刚进入斯坦福大学的时候,他和其他新入学的研究生都被安排在一间被称为“牛栏”(bullpen)的宽敞房间里面。“谢尔盖非常喜欢交际,”佩奇说道,“他会去结识每一位新生,来热身区和我们交流。”布林甚至拥有一种和教授交朋友的本领。“谢尔盖可以走进教授们的办公室跟他们闲聊,这对于一位研究生来说是比较不寻常的。我想他们容许他这样做的原因是他是一个非常聪明且博学的学生,他对各种各样的话题都能提出建设性的想法。”138

佩奇加入了斯坦福大学的人机交互小组,这个团队的工作是探索改善人机共生关系的方法。人机交互是由利克莱德和恩格尔巴特率先提出的研究领域,同时也是佩奇在密歇根大学最喜欢的课程。他成为以用户为中心的设计概念的支持者,这种概念强调的是软件和计算机的界面必须直观,而且用户永远都是正确的。他在斯坦福大学的论文导师是特里·威诺格拉德(Terry Winograd),这位性格开朗的教授留着像爱因斯坦一样的发型。威诺格拉德之前的研究方向是人工智能,但是在深入思考了人类认知的本质之后,他将自己的研究重点转向如何利用机器增强和扩展(而不是复制和取代)人类的思想。“我的研究方向从人工智能转向了一个更加宽泛的问题,‘你想如何与一台计算机进行交互?’”威诺格拉德表示。139

虽然人机交互和界面设计是利克莱德留下的宝贵财富,但是它在当时仍然被认为是一个相当弱势的专业,讲求实际的计算机科学家们都认为它只不过是一个由心理学教授任教的科目,而利克莱德和朱迪斯·奥尔森都是心理学教授出身。根据佩奇的说法:“对于研究图灵机或同类课题的人来说,人类反应的处理是非常情感化的,这种感觉就像是陷入了人文学科的研究当中。”威诺格拉德帮助改善了这个领域的声誉。“特里在研究人工智能的过程中建立了过硬的计算机科学背景,但他对人机交互也很感兴趣,当时涉足这一领域的人不多,而且我认为它没有得到足够的尊重。”用户界面设计课程的电影制作课是佩奇最喜欢上的课之一。“它向我证明了电影的语言和技巧确实可以应用于计算机界面设计。”他说道。140

布林的学术研究重点是数据挖掘。他和莫特瓦尼教授一起成立了一个叫作斯坦福数据挖掘(Mining Data at Stanford,MIDAS)的小组。在他们共同发表的论文当中——该小组的成员还包括另外一位研究生克雷格·希尔弗斯坦(Craig Silverstein),他后来成为谷歌的第一位员工——有两篇是关于购物篮分析的。购物篮分析是对顾客购买商品种类的关联性的分析。141 在这两篇论文的写作过程中,布林开始对万维网数据模式的分析方法产生了兴趣。

在威诺格拉德的帮助下,佩奇开始思考自己的博士论文题目。他考虑了超过10个题目,其中有一个是关于如何设计自动驾驶汽车的,这是谷歌之后会研究的一个项目。他最终选定了一个自己比较熟悉的题目——如何评估不同网站之间的相对重要性。他采用的研究方法来自他所处的家庭学术环境。如果要知道一篇学术论文的价值,其中一个判断标准是它在其他论文的注解和参考文献部分被引用的次数。按照同样的理论,如果要判断某个网页的价值,其中一种方法是了解链接到该网页的其他网页的数量。

但是这种方法存在一个问题。蒂姆·伯纳斯–李在设计万维网的时候,他的理念是任何人都可以在未经允许的情况下建立指向其他网页的链接,将网页链接保存在数据库中,或者双向使用链接。不过这正是包括泰德·尼尔森在内的超文本纯粹主义者所担心的做法。虽然这个理念让万维网得以迅速扩张,但是这也意味着人们将无法轻易得知指向某个网页的链接数量或者来源。你可以在一个网页上看到所有向外的链接,但你不能看到指向这个网页的链接的数量和质量。“在我见过的协作系统当中,万维网的协作功能是相对较弱的,因为它的超文本存在一个缺陷:它没有双向链接。”佩奇说道。142

于是佩奇开始尝试建立一个含有大量链接的数据库,这样他就可以反向追踪这些链接,找出每个网页的链接会通向什么网站。这项工作的其中一个目的是促进协作。他打算让人们在自己的网页上为其他网页添加注释,如果哈利将自己的评论链接到了萨莉的网站,那么正在浏览这个网站的人就可以前往查看哈利的评论。“在实现了反向链接追踪之后,人们只需链接到某个网站就可以对其进行评论或者注释。”佩奇解释道。143

佩奇用于实现反向链接的方式来自一个大胆的想法——这是他在一天半夜醒来之后突然想到的。“我当时在想:如果我们可以把整个万维网下载下来,然后只将其中的链接保存下来,那会怎样呢?”他回忆道,“我马上拿起了一支笔,记下自己的想法。整个后半夜我都在完善这个想法的细节,并说服自己这是可行的。”144 这次的半夜工作经历给他上了一课。“你必须给自己定下不太可能实现的目标,”他后来对一群以色列学生说道,“我在大学期间学到了一句话:‘积极地忽视不可能。’这句话说得非常好。你们应该尝试一些大多数人都不敢做的事情。”145

要把整个万维网记录下来可不是一件易事。即使是在1996年1月的时候,全世界已经有10万个网站,这些网站总共含有1 000万个文档,它们之间的链接有近10亿条,而且这些数字每年都会呈现指数级增长。在当年初夏,佩奇设计了一个网络爬虫工具,它会从佩奇的个人主页出发,一直跟踪它遇到的所有链接。这只在万维网上迅速移动的蜘蛛会保存每条超链接的文本和来源,以及它们对应网页的标题。他将这个项目命名为“BackRub”。

佩奇向自己的导师威诺格拉德表示,他粗略估计自己的网络爬虫将会在几个星期之内完成这项任务。“特里故意点了点头,他明明知道这需要花费比我想象中长得多的时间,但是他明智地向我隐瞒了这点;”佩奇回忆道,“人们经常会低估年轻人的乐观精神!”146 这个项目很快就占用了斯坦福大学几乎一半的互联网带宽,而且它至少造成了一次全校范围内的网络中断,但是学校的行政人员仍然对此保持比较宽容的态度。“我的磁盘空间几乎已经用完了。”佩奇在1996年7月15日向威诺格拉德发了一封邮件,他当时已经收集了2 400万条网址和超过1亿条链接。“虽然我当时只保存了大概15%的网页,不过情况看起来非常乐观。”147

佩奇这个大胆而复杂的项目吸引了拥有数学头脑的谢尔盖·布林的注意,后者当时正在寻找一个合适的博士论文题目。他兴致勃勃地加入了自己好友的工作当中:“这是最令人兴奋的一个项目,不仅因为它与代表人类知识的万维网相关,也因为我喜欢拉里这个人。”148

BackRub项目在当时的目标仍然是收集万维网的反向链接,为将来可能实现的注释系统和引用分析功能打下基础。“现在想来不可思议的是,我当时完全没有想过要建立一个搜索引擎。”佩奇说道,“这个想法甚至不在我们的考虑范围之内。”随着这个项目的逐步推进,他和布林想出了一些更为复杂的网页价值分析方法,这些方法采用的依据是指向每个网页的链接的数量和质量。这时候,他们逐渐认识到这个按照重要性排名的网页索引可以成为一个高质量搜索引擎的基础。这就是谷歌诞生的由来。“当一个伟大的梦想出现的时候,”佩奇后来说道,“你要马上抓住它!”149

这个经过改进的项目最初被称为“PageRank”,因为它会对BackRub索引收集到的每个网页进行排名。当然,这个名字还体现了佩奇的讽刺幽默感和小小的虚荣心。“不好意思,它确实是指我自己。”他后来羞怯地承认道,“我其实对此感到有点难为情。”150

网页排名的目标还会引出另外一个复杂的问题。佩奇和布林意识到除了对指向网页的链接数量进行汇总以外,他们还可以尝试确定每条进入链接的价值。例如,来自《纽约时报》的链接应该要比贾斯汀·霍尔在斯沃斯摩尔学院宿舍发出的链接有更高的价值。这样就建立了一个由多个反馈循环形成的递归过程:每个页面的排名依据是进入链接的数量和质量,而这些链接的质量是由生成它们的页面的数量和质量来决定的,以此类推。“整个过程都是递归的,”佩奇解释道,“这是一个巨大的循环。不过数学的力量是很强大的,它可以帮助我们解决这个问题。”151

布林能够充分理解这种类型的数学难题。“事实上我们想出了很多数学方法来解决这个问题,”他回忆道,“我们将整个万维网转换成一组含有数亿个变量的庞大方程,这些变量就是所有网页的排名。”152 在各自导师的指导之下,他们为此合著了一篇论文。他们在其中清晰地讲述了这些复杂数学公式的基础——网页含有的进入链接数量以及每条链接的相对排名。然后他们用外行人都能明白的简单语言解释道:“如果一个网页的反向链接的整体排名越高,那么这个网页本身的排名就越高。这里同时考虑到了页面拥有大量反向链接和少量高排名链接的情况。”153

那么PageRank真的可以生成更好的搜索结果吗?这是一个价值10亿美元的问题。他们为此进行了一项对比测试。他们用到的测试关键词之一是“大学”(university)。如果在AltaVista和其他引擎搜索这个关键词,它们会列出在标题中含有该关键词的随机页面。“我记得自己曾经问过他们,‘为什么你们要提供这样的垃圾结果?’”佩奇说道。对方给出的回应是,没有得到合适的搜索结果是佩奇的问题,他应该改善自己使用的搜索关键词。“我在人机交互的课程上学习到抱怨用户并非一个好的策略,所以我知道他们根本就没有把事情做好。‘用户永远是对的’这一观念让我们可以做出一个更好的搜索引擎。”154 在PageRank中,以“大学”为关键词的最优先搜索结果分别为斯坦福大学、哈佛大学、麻省理工学院和密歇根大学,他们对这个结果感到十分满意。“哇噢!”佩奇记得自己当时发出了这样的赞叹,“我和小组的其他成员都清楚地认识到,如果我们在为网页进行排名的时候能够参考外界对这个网页的看法,而不是仅仅关注网页本身,这将会对网页搜索带来很大的帮助。”155

为了继续完善PageRank的搜索结果,佩奇和布林加入了更多的参考因素,例如关键字在网页上出现的频率、字号和位置。如果关键字出现在网址中,使用了大写形式,或者包含在标题内,对应的网页就会得到更高的排名。他们会对比采用不同参数组合的搜索结果,然后不断调整和改进算法。他们发现应该对锚文本给予较高的权重,锚文本指的是作为超链接的下划线文本。例如,“比尔·克林顿”是许多指向美国白宫网站(whitehouse.gov)的链接的锚文本,因此当用户搜索“比尔·克林顿”的时候,白宫网站应该出现在最优先的搜索结果,尽管这个网站的主页中没有明显地出现比尔·克林顿这个名字。相比之下,用户在另外一个竞品上搜索“比尔·克林顿”的时候,得到的第一条搜索结果是“今日的比尔·克林顿笑话”。156

由于这个搜索引擎需要处理海量的页面和链接,所以佩奇和布林把它命名为谷歌(Google),这个名字来源于古戈尔(googol)——是指1后有100个0。提出这个名字的人是他们办公室的另外一位研究生肖恩·安德森(Sean Anderson)。他们在浏览器中输入“Google”,发现这个域名仍然可用,于是佩奇把它抢注了下来。“我不确定我们是否意识到自己犯了一个拼写错误,”布林后来说道,“不过‘googol’域名已经被占用了。之前已经有人注册了‘Googol.com’,我试过向那个人提出购买域名的请求,但是对方非常喜欢这个域名,所以不愿意出售。因此我们还是选择了‘Google’。”157 这是一个很好玩的单词——简单易记,输入方便,还可以转换成动词来使用。[9]

佩奇和布林从两个方面继续改进谷歌的使用体验。首先,他们建立了比任何竞争对手都高出许多的网络带宽、处理能力和储存容量,从而将他们的网络爬虫的处理速度提升至每秒索引100个网页。除此之外,他们还非常热衷于研究用户行为,这点有助于持续改进他们的算法。如果用户在点击了最优先的搜索结果之后没有返回搜索结果列表,这就意味着他们已经找到了自己想要的东西。但是如果他们在完成搜索之后立刻修改自己的关键词,就说明他们对搜索结果不满意,这时候工程师们就需要查看用户修改过的搜索关键词,从而了解他们最初想要查找的东西。用户每次跳转到第二页或第三页搜索结果的时候都表明他们对搜索结果的排序不满意。按照记者史蒂文·利维的说法,这个反馈循环可以帮助谷歌学习到用户的真正意图,当用户输入“狗”(dogs)的时候,他们可能也想查找小狗(puppies);他们在输入“沸腾”(boiling)的时候可能是指热水(hot water)。当然,谷歌也学会了用户在输入“热狗”(hot dog)的时候并不是想查找“沸腾的小狗”(boiling puppies)。158

还有另外一个人也想到了跟PageRank非常相似的基于链接的网页排名机制:一位来自中国的计算机工程师李彦宏。他曾经在纽约州立大学水牛城分校学习,在硕士毕业后,他开始为道琼斯公司位于新泽西州的一家子公司工作。1996春天,也就是佩奇和布林正在启动PageRank项目的时候,李彦宏想出了一个叫作“RankDex”的算法,它可以根据进入网页链接的数量和链接锚文本的内容确定搜索结果的权重。他买了一本书自学如何为这个想法申请专利,并在道琼斯公司的帮助下完成了专利的申请。但是道琼斯公司没有继续推进这个想法,于是李彦宏加入了位于硅谷的Infoseek公司,后来返回中国。他在回国之后和其他人共同创立了百度,成为中国最大的搜索引擎,而且是谷歌在全球范围内最有实力的竞争对手之一。

到了1998年年初,佩奇和布林的数据库已经收录了5.18亿条超链接,而当时万维网的链接总数约为30亿条。佩奇不希望谷歌仅仅停留在学术项目的层面,他想尽快把它打造成为一款热门产品。“这就像是尼古拉·特斯拉面临的问题,”他说,“如果你有一个自认为不错的发明,你会想让它尽快被多数人用上。”159

因为佩奇和布林想将自己的博士论文付诸实践变成一家公司,所以他们不愿意对已有的工作成果进行发表或者正式展示。但是他们的导师却一直催促他们发表一些东西出来,于是他们在1998年春天完成了一篇20页的论文,他们在其中解释了PageRank和谷歌背后的学术理论,但是没有向竞争对手透露过多的商业机密。1998年4月,这篇题为《一个大规模超文本万维网搜索引擎的剖析》的论文发表于一场在澳大利亚举行的计算机大会上。

“我们会在本论文中介绍谷歌,一个倚重于超文本架构的大规模搜索引擎的原型。”他们在论文的开头写道。160 在收集了万维网上总共30亿条链接当中的大约5亿条之后,他们能够计算出至少2 500万个网页的排名,这点“相当符合人们对重要性的排名需求”。他们详细讲述了产生每个网页的排名的“简单迭代算法”。“学术参考文献的引用方式已经被应用到万维网之上,主要的方法是计算指向给定网页的引用或反向链接数量。PageRank进一步拓展了这个概念,它不会为来自所有网页的链接给予同等的权重。”

这篇论文含有大量关于排名、爬虫、索引和迭代算法的技术细节,还有一部分内容讲述了一些在未来有价值的研究方向。不过论文的结尾明确指出了这个项目不是一次学术实践或者研究工作,他们进行这项工作的目标显然是成立一家商业公司。“谷歌的设计目的是成为一个可扩展的搜索引擎,”他们在论文的结论中宣称,“我们的首要目标是提供高质量的搜索结果。”

如果是在那些主要以学术为目的而进行研究的大学里面,他们的做法也许是有问题的。但是斯坦福大学不仅允许学生参与商业项目,而且还会为他们提供鼓励和帮助。学院甚至还有专门帮助学生完成专利申请和授权事宜的办公室。“我们斯坦福大学拥有促进创业精神和冒险研究的环境,”校长约翰·亨尼斯(John Hennessey)强调,“这里的人们深刻地理解到一点——有时候改变世界的最佳方式不是写论文,而是将你相信可行的技术变成真正的产品。”161

佩奇和布林尝试商业化的第一步是向其他公司授权使用他们的软件,他们会见了雅虎、Excite和AltaVista等公司的首席执行官。这些公司的出价是100万美元,不过这也不算是一个天文数字,因为除了专利授权的费用以外,这笔资金还包含了他们两人提供服务的酬劳。“当时这些企业的市值已经达到数亿美元甚至更高,”佩奇后来说道,“所以这对于他们来说只是一个小数目。但是他们的领导层缺乏足够的远见,他们有很多人都跟我们说:‘搜索其实没有那么重要。’”162

于是佩奇和布林决定成立他们自己的公司。他们所在的地理位置是一个适合创业的地方,在距离斯坦福校园几英里之外就有一些愿意成为天使投资人的成功企业家,而且不远的沙丘路上都是雄心勃勃的风险投资人,他们都可以为创业公司提供启动资金。斯坦福大学有一位叫戴维·切里顿(David Cheriton)的教授,他曾经和安迪·贝希托尔斯海姆(Andy Bechtolsheim)共同创办过一家销售以太网产品的公司,这家公司后来被思科系统公司收购了。1998年8月,切里顿建议佩奇和布林与贝希托尔斯海姆进行一次会面,后者还是太阳计算机系统公司的联合创始人之一。在一天深夜,布林向贝希托尔斯海姆发了一封邮件,对方立刻回复了布林。第二天早上,他们齐聚在位于帕洛阿尔托的切里顿家中会面。

即便是在青涩的学生时代,佩奇和布林也能为他们的搜索引擎做出激动人心的演示。他们展示了自己可以在一组小型计算机上对万维网的大部分内容进行下载、索引和网页排名的操作。这是在互联网泡沫最大的时期进行的一次愉快会面,贝希托尔斯海姆在会议上提出的问题也很有启发性。他每个星期都会听到很多场融资演讲,但是他知道这跟那些根本不存在的雾件(vaporware)[10] 的幻灯片展示不一样,他可以亲手输入搜索关键字,然后马上就可以看到一些比AltaVista优秀得多的搜索结果。另外,两位创始人都非常聪明且充满干劲,他就喜欢在这种类型的创业者身上押赌注。贝希托尔斯海姆很欣赏他们不打算在市场营销方面花费太多资金的想法(或者说他们实在不想在这方面花费任何资金)。他们知道谷歌是一个足够优秀的产品,它可以通过用户之间的口碑来传播,所以他们筹集到的每一分钱都会花在组装服务器所需的零件上。“其他网站都会将很大一部分的风险资金花在广告上面,”贝希托尔斯海姆说道,“他们却反其道而行之——先做出一些有价值的东西,推出一项足以吸引用户使用的服务。”163

虽然布林和佩奇都不太愿意接受广告,但是贝希托尔斯海姆知道在搜索结果页面加入一些清晰标注的广告是很容易做到的,而且不会影响用户体验。这就意味着他们已经拥有了一个等待挖掘的巨大收入来源。贝希托尔斯海姆对他们说道:“这是我在近年来听到过的最棒的想法。”然后他们谈到了具体的投资金额,贝希托尔斯海姆说他们的开价太低了。“好吧,我也不想浪费时间,”贝希托尔斯海姆最后说道,还有很多工作等着他去做,“我给你们写一张支票,我想它肯定可以帮到你们。”他从自己的车上拿出了一个支票本,然后向谷歌公司开出了一张10万美元的支票。“我们现在还没有银行账户呢。”布林告诉他。“那等你们开了账户之后再存进去把。”贝希托尔斯海姆回应道,之后就开着自己的保时捷跑车绝尘而去。

布林和佩奇一起去了汉堡王餐厅庆祝。“我们觉得应该吃一些好吃的东西,尽管那些食物确实很不健康,”佩奇说道,“而且价格也很便宜。对于这次的成功融资来说,这似乎也是一种合适的庆祝方式。”164

贝希托尔斯海姆开给“谷歌公司”的那张支票让他们有动力开始组建一家公司。“我们必须尽快找到一位律师。”布林如是说。165 佩奇回忆道:“当时的感觉就像是,哇噢!也许我们真的要马上开一家公司了。”166 由于贝希托尔斯海姆的声誉(以及谷歌的产品本身足够优秀),这个项目也吸引了其他投资人的加入,其中包括亚马逊网站的杰夫·贝佐斯。“我真的爱上了拉里和谢尔盖,”贝佐斯表示,“他们具有以用户为中心的远见。”167 谷歌的名声在人们的交口称赞当中变得越来越响亮,以至于在几个月之后,位于硅谷的两家顶尖风险投资公司——红杉资本和凯鹏华盈都对它进行了投资,很少有创业公司可以同时得到这两家竞争对手的青睐。

除了乐于帮助学生的大学、热心的导师和风险投资人以外,硅谷还有另外一个特色:这里有许多车库,而休利特和帕卡德设计他们第一款产品的地方,以及乔布斯和沃兹尼亚克组装出第一块Apple I电脑主板的地方——正是在这样的车库里。一心准备创业的佩奇和布林决定搁置他们的论文计划并离开斯坦福大学的象牙塔,这时候他们找到了一个可以作为落脚点的车库。他们在就读斯坦福大学期间认识了一位名叫苏珊·沃西基(Susan Wojcicki)的朋友(她在不久后也成为谷歌的员工),她家就住在学校附近的门洛帕克,于是他们以每月1 700美元的租金租下了她家的双车位车库,连同一个浴缸和几间空置的房间。1998年9月,也就是在和贝希托尔斯海姆见面的一个月之后,佩奇和布林开设了一个银行账户,把那张支票兑现了。他们在车库的墙上挂了一块白板,上面写着“谷歌全球总部”。

除了将整个万维网的信息囊括其中以外,谷歌还代表了人机关系领域的一项重大飞跃,也就是利克莱德在40年前构想的“人机共生关系”。雅虎之前尝试通过结合自动搜索和人工编纂目录的方法实现一种初级形式的人机共生关系。乍看之下,佩奇和布林所使用的方法是将人工的操作排除在外,完全使用网络爬虫和计算机算法来进行搜索。但是如果对其进行深入思考的话,我们会发现,他们的方法实际上是机器和人类智慧的结合。他们的算法依赖于人们在自己的网站上创建链接时做出的数十亿次判断。这是一种自动利用人类智慧的方式,换句话说,这是一种更高层次的人机共生关系。“这个过程看起来似乎是完全自动化的,”布林解释道,“但事实上最终的成果是由数百万人共同打造出来的,他们花了大量的时间在设计网页和确定链接来源上,这就是它背后的人为因素。”168

在那篇发表于1945年的著名文章《诚如所思》之中,万尼瓦尔·布什提出了一项艰巨的任务:“人类的经验总和正以惊人的速度增长,但是我们从随之而来的知识迷宫中获取重要信息的方法却与大航海时代别无二致。”布林和佩奇在离校创业之前提交的那篇论文中也提到了同样的观点:“索引中的文档数量已经出现了多个数量级的增长,但是用户查找文档的能力却没有随之提升。”虽然他们的文采不如布什,但是他们已经成功实现了他的梦想——通过人机协作来应对信息过载。谷歌也由此创造了一个人类、计算机和网络紧密链接的世界,而实现这一成就用了60年的时间。任何人都可以向世界各地的人们分享任何信息,就像是那本来自维多利亚时代的年鉴所承诺的一样——“包罗万象”。

[1] 与万维网的HTTP协议类似,Gopher是一个互联网(TCP/IP)应用层协议。它主要利用基于菜单的导航来实现在线查找和分发文档(通常是文字文档)。它的链接是在服务器端处理的,而不是内嵌到文档当中。它的名字取自明尼苏达大学的吉祥物,另外它也是“go for”(努力争取)的谐音。

[2] 一年后,安德森与一位成功的连续创业家吉姆·克拉克(Jim Clark)共同成立了一家叫作网景(Netscape)的公司,这家公司的产品是一款商用版本的Mosaic浏览器。

[3] 比特币和其他加密货币都是通过结合数字加密技术和密码学原理创造的去中心化控制的安全货币。

[4] 牛津英语词典在2003年3月将“blog”作为名词和动词收录在内。

[5] 值得注意和表扬的是,维基百科上关于自身发展历史,以及威尔士和桑格起到的真正作用的条目(在讨论版中经过了激烈的争论之后)是公正客观的。

[6] 这款电脑的设计者是比特商店(Byte Shop)的老板保罗·特雷尔(Paul Terrell),他曾经为自己的商店订购了世界上前50台Apple I电脑。

[7] 这是比尔·盖茨编写的编译器。

[8] 盖茨分别为哈佛大学、斯坦福大学、麻省理工学院和卡内基梅隆大学捐建了一座计算机大楼。其中位于哈佛大学的马克斯韦尔–德沃金(Maxwell Dworkin)大楼是由他和史蒂夫·鲍尔默共同捐建的,该大楼的名字取自他们两位的母亲。

[9] 牛津英语词典在2006年将“google”作为动词收录在内。

[10] 雾件是指在互联网行业,在未开发完成前就开始做宣传的某项产品或技术,但最后它们可能并不会问世。——编者注

《创新者:一群技术狂人和鬼才程序员如何改变世界》