ImageNet的故事：李飞飞自传《我所见的世界》中文节选

更新时间：2023-12-27 14:05:41作者：橙橘网

中文：城主

前言

李飞飞教授的自传《The Worlds I See 我所见的世界》英文版11月出版了，目前还没看到中文版。

此前对李飞飞教授了解并不多，除了知道她是大名鼎鼎的ImageNet发起人，以及斯坦福SAIL人工智能实验室第一位女性主任。这次读了教授的自传，实话说，超出预期。

没想到一位大科学家的文笔如此之好，教授以女性特有的细腻笔触，将自己事业和生活上的故事娓娓道来，行文之间流露着大学者的淡然，同时又把真实的工作生活经历讲得引人入胜。在阅读过程中，城主不止一次感觉到教授的行文叙事有一种强烈的电影蒙太奇感，工作和生活的线索交织前行，节奏非常好。

更不用多强调的是，这是一位AI大佬亲身讲述的自身科研经历和生活思考，不说文学性，其信息本身就有巨大的价值。

整部自传一共十二章，这里和大家分享一下本城自行翻译整理的三章，讲述了李飞飞踏入研究生直至助理教授阶段，克服种种困难完成ImageNet壮举的那段经历，非常打动人，推荐，脱帽致敬。

最后也是最重要的，听说这本书中文版快要出版了，喜欢的朋友请一定购买正版纸质书支持。

分享的三章是：

第五章：第一道光

第六章：北极星

第七章：一个假设

第五章：第一道光

想象一种存在，它缺乏的感觉如此之多，以至于甚至不能被描述为“黑暗”，因为与之相对应的光的概念尚未被构思出来。想象一个世界，在这个世界里，没有视觉，没有听觉，没有触觉，使得活着的概念不过是一种代谢上的区别。想象一个生物体连最基本的自我意识都缺乏，除了一些机械无情的本能去觅食和繁殖，更不用说更复杂的概念，如身份、社群或更广阔的现实。现在想象所有这些发生在全球范围内——一个充满生物的星球，但尚未意识到自己的存在。

这就是5亿4300万年前覆盖地球大部分地区的原始海洋中生命的本质。按照今天的标准，每一个清醒的时刻都沐浴在感官之中，激发智慧，这些生物如此原始，以至于几乎接近抽象，它们的生活可能被苏格拉底描述为完全未经审视。这是一个真正未被看见的世界，以深水和浅薄的本能为特征。

当然，我们这些遥远祖先的简单性质，鉴于他们所处时代的环境，是自然而然的。他们居住在一个稀疏的水生空间中，即使是对食物的竞争也是一种被动的事务。在三叶虫出现之前的生物，几乎只能依靠偶然来偶遇它们的猎物，而猎物采取同样漫无目的的措施来避开它们的捕食者——盲目的运气——只有当下一顿饭如此接近以至于吃掉它几乎是不由自主的。然而，这种感官剥夺的影响是深远的。没有东西可以看，听，或触摸，反过来，这些早期生命形式也就没有什么可以思考的。由于与我们在日常生活中认为理所当然的外部现实没有联系，它们被如此彻底地剥夺了刺激，以至于它们根本没有大脑。毕竟，大脑不过是一种有机信息处理系统——在一个缺乏感官输入的生物体中，因而无法收集关于那个世界的信息，这几乎是不必要的。

真正想象这样一个生物的内在生活几乎是不可能的，但尝试这样做可以有所启发。这提醒我们，我们从未知晓过没有某种感官连接到外部世界的存在，即使是在子宫中，我们也不能简单地从这种意识中退后来思考另一种可能性。毕竟，思想不就是对刺激的反应，无论是直接的还是间接的吗？即使是我们最抽象的思考——即使是像心算这样短暂的事情——不也是建立在通过多年体验在物理空间中导航所获得的推理基础上的吗？不管我们的思想有多复杂，其中的大部分都可以最终追溯到来自它们边界之外的某种干扰。

然后，在一个如此短暂而又如此变革性的时期，以至于进化生物学家至今仍对其感到困惑，世界颠倒了。生命的复杂性爆炸性增长——据估计，进化速度加快到所有后续时代的四倍——激发了前所未有的竞争氛围。这是一场持续的争夺统治权的战斗，每一代新生命都在生存挑战加剧的压力下被迫进行微小的适应。在日益敌对的世界中，身体变得坚硬，以脆弱的防御性外骨骼加固软组织，并发展出攻击性特征，如牙齿、下颚和爪子。

现在被称为寒武纪大爆发的这一事件，是进化秩序的猛烈洗牌。尽管它构成了地球生命史上一个关键的篇章——也许是最重要的篇章——但其确切原因尚未确定。有些人认为它是由气候的突然变化触发的，而其他人则推测是海洋酸度的历史性转变。然而，动物学家安德鲁·帕克（Andrew Parker）看到了不同的东西，尽管许多生物学家对他的假设持怀疑态度，但它深刻影响了我对人工智能的思考。根据帕克的说法，引发寒武纪大爆发的导火索不是外来力量，而是内在力量，他认为是单一能力的出现：光敏感性，或现代眼睛的基础。

这种新兴感官的核心是一类蛋白质，称为“视蛋白”，它们展现出独特的特性，例如在吸收光子时改变形状——本质上是对光照的物理反应——并以“离子通道”的形式连接在一起，将该反应转化为生物电信号，可以在身体其他部位传输。

与今天眼睛的惊人复杂性相比，这些早期的发展虽然简单，但它们提供了一个进化的立足点，激发了快速的上升。下一步是在光敏感区域周围形成一个浅凹槽，使得不仅能够辨别附近光源的亮度，还能辨别其方向。进一步的进化迭代使这个凹槽的深度和狭窄度增加，最终形成了一个类似针孔相机的孔径。

最早在公元前400年左右的中国哲学家墨子的著作中描述，后来亚里士多德也独立观察到的针孔相机，是对暗箱效应的简单利用，这是一种自然现象，在这种现象中，通过一个小孔过滤的光在室内投射出外部世界的清晰图像。孔径显著增加了光敏感性，将视觉体验从简单的光感知扩展到整个场景的吸收。

最后，随着透镜的出现，现代视觉的基础就完成了，透镜增加了进入眼睛的光线的数量和清晰度。透镜究竟是如何形成的仍然是一个有争议的话题。

关于透镜的起源有许多猜测，其中许多假设都集中在这样一个观点上：它是从一个原本与视觉无关的纯粹保护性结构演化而来的。不过，无论其确切起源如何，透镜在进化记录中一次又一次地出现，独立地在所有生物门类中发展。它很快就形成了一个精致透明的表面，在世代间灵活适应，探索了极其广泛的光学特性，从而迅速加速了眼睛的进化。

感光性是地球生命史上的一个转折点。通过简单地让光线进入——无论多么微弱或无形——我们的进化祖先首次认识到，存在着超越自身之外的东西。更紧迫的是，他们看到自己正处于一场生存斗争中，而且可能有不止一种结果。他们开始觉醒于一个充满威胁和机遇的恶劣环境中，资源竞争日益激烈，他们自己的行动意味着吃或被吃之间的差别。

光的感知是进化军备竞赛中的第一枪，即使是最微小的优势——一点点深度的提升或几乎察觉不到的视敏度增加——都能将幸运的拥有者及其后代推向永恒寻找食物、庇护所和合适伴侣的竞争前列。这些微小的竞争优势是进化压力的游乐场，通过变异后变异不断迭代，过程中对生态系统产生了近乎即时的影响。

当然，这些变化中的大多数没有任何作用，有些甚至是有害的。但那些即使是微小优势的变化，可以成为破坏性变化的引擎，颠覆自然秩序，在一阵动荡中定下新的基线，更大的能力将很快在此基础上建立起来。随着世代的流逝，这一过程加快了，在只有大约一千万年的时间里——帕克讽刺地称之为进化的“一眨眼”——地球上的生命焕然一新。

在这种竞争动态中起到调节作用的是感官意识与行动能力之间的关系。即使是最早期的视觉形式也传达了关于生物周围环境的信息，这些信息不仅指导了它的行为，而且以前所未有的紧迫性驱动了它。越来越多，饥饿的捕食者被赋予了定位食物的能力，而不仅仅是等待食物的到来，甚至采取主动步骤去追逐它。反过来，潜在的猎物利用自己初步的意识进行回避动作。

很快，这些生物创新的火花绽放成一场集体舞蹈，随着生命分类的扩展，权力的平衡在新纪元的战斗中来回摇摆。今天，化石记录清楚地展示了这一狂热时期自然选择的成果；证据表明，仅三叶虫的进化就在寒武纪末期达到顶峰，数以万计的物种遍布十个目。

进一步复杂化这一画面的是触觉的同时出现，它很快与不断发展的视觉感觉形成了互补的平衡。与早期的光敏感性一样，原始神经末梢在生物体表面扫过，也传递了触觉信号。

这些神经细胞增长并相互连接，形成了所谓的“神经网”，这是中央神经系统的分散前身，最终将特征更高级生命形式。神经网简单但强大，是生物电系统，将运动和感官功能融合为一个适合基本任务的单一反应设计，如响应物理攻击和寻找食物。尽管原始，但神经网是一种进化上便捷的方式，以跟上竞争日益激烈的世界，甚至在今天，特别是在某些水生生物如某些水母中仍然可以找到。

但仅仅连接眼睛、神经末梢和肢体是不够的，特别是当这些眼睛进化出更广泛、更细腻的世界观，而这些肢体发展出新的自由度和更深层次的表达能力时。在复杂环境中的有效行动需要的不仅仅是反射，这又提出了另一个适应挑战，促进了在生物看到和感觉到的东西与它如何反应之间的日益复杂的中间步骤的发展。

随着感官提供的信息深度和数量的增长，生物处理这些信息的工具也受到了增长的压力——类似于今天对越来越复杂的计算设备的需求，以管理现代世界中发现的数据过剩。结果是一个中央处理枢纽，用于处理日益增长的神经系统的复杂进出，其组件被压缩得越来越密集，形成了我们现在称为大脑的器官。

因此，大脑不是来自内在某种神秘智慧火花的产物，而是对外部世界越来越清晰、越来越混乱的图像的反应，通过感官向内部延伸。感知我们周围的环境鼓励我们发展一种整合、分析并最终理解那种感知的机制。而视觉无疑是其最生动的组成部分。

这场戏剧在这些新觉醒的生物中的第一批走上旱地时达到了更高的高度，它们从波涛中出现，发现了一个陌生的景观，在这里，移动的基本原理是不熟悉的，需要一个全新的范式。例如，移动不再是毫不费力和全方位的，而是受限于平面表面，并受到重力和摩擦等物理力的干扰。

另一方面，视野的范围被极大地扩展了，因为海洋表面上方未受阻碍的大气允许了比深海的幽闭黑暗更广阔的视野。世界不再是一个模糊的液体球体，而是一个开阔的视野，从海岸线的边缘到山峰的顶峰，甚至更远的地方，都洋溢着明亮和清晰。地平线已经从几英寸增长到数英里，这些早期陆地居民的思想被挑战着相应地扩展。这对规划的概念产生了特别深远的影响，因为行动现在可以在更广阔的范围内展开，同时还要处理更多的不确定性。随着视野的范围和深度的扩展，思维不得不适应，发展出更强的智力能力，逐渐融入了因果关系的意识、时间的流逝，甚至是操纵环境本身的效应。这不仅为强大的捕食者和敏捷的猎物铺平了道路，也为真正的智慧——以及我们今天所知的人类的基础——奠定了基石。

数亿年后的今天，我们不禁对这一进化转折点所产生的世界印象深刻。数千年的文明见证了我们的物种从灵长类动物发展到游牧部落，再到农业社区，工业化城市，最终成为技术、信息处理的超级大国。

即使到现在，这一惊人的进程仍然与我们对世界的感官连接密不可分。尽管在很大程度上得到了技术的帮助，从我们口袋里的移动设备到地球轨道上的卫星，我们仍然依赖于与日常现实的连接来导航我们的生活。

恰当的是，始于化石记录的东西已经影响到我们自己的文化记录。艺术史见证了视觉的首要性——以及我们在几个世纪的过程中对其细微差别日益增长的欣赏，从预示着新交流形式黎明的洞穴壁画，到文艺复兴期间创意的爆发，再到今天的摄影、电影、电视，甚至是视频游戏。

我们可以在卡拉瓦乔的强烈对比和弗美尔与佐恩的柔和阴影之间，看到视觉理解的齿轮转动。我们可以超越现实主义，用梵高的图标学和卡洛的风格化肖像画提炼日常生活。我们甚至可以在像奥基夫和抽象表现主义者母威尔和罗斯科这样的现代主义者相对晦涩的陈述中感受到它的存在。无论是现实主义还是概念主义，感伤或政治，艺术利用那数亿年来艰难进化的成果，停留在通过个体的眼睛——因此，是个体的感性——解读世界的纯粹喜悦上。

“所以，飞飞！成为大学毕业生的感觉怎么样？嗯，差不多了。”

珍已经清理了我们的晚餐盘子，并切开了她放在柜台上冷却的一盘布朗尼。这个甜点在我近四年前第一次访问萨贝拉家时成了一个仪式；那是我第一次难忘的接触到美国甜点，我尝了一口后脸上的表情让珍非常高兴，她坚持每次我回来都要提供布朗尼。事实上它是一个简单的商店买的混合物并不重要。就我而言，她的布朗尼是奢侈的顶峰。

“非常令人兴奋。但我没想到接下来要做的选择会这么难。”

“你有没有再考虑我们谈过的那些选项？研究生院？工作？或许先旅行一下？”萨贝拉先生问道。

“给她一点时间，鲍勃！”珍一边笑着一边端上我们的甜点。

“不，不，没关系。实际上，这是我一直在思考的。”

那是1999年，我在普林斯顿的时光即将结束。我再次面临着科学抱负和生活现实之间的选择，随着研究生院的诱惑与开始职业生涯的压力相冲突。而且随着互联网热潮的全面兴起，这确实是一个真正的难题：金融界急于招募任何具有数字头脑和来自正确学校的高级学位的人，甚至像我这样的物理书呆子也成了华尔街各家公司轮番招募的对象。我被高盛、美林和其他可以想象其名字刻在庄严大理石板上的公司所追求。他们提供了一切：福利、领导机会、令人瞠目结舌的起薪，当然还有真正的健康保险。他们承诺解除我们的债务，结束干洗的辛劳，并在我母亲健康状况恶化的情况下为我的家庭提供安全保障。作为回报，他们要求的只是我放弃科学。

在反复思考了将近一个星期后，我终于在干洗店的一个安静时刻向母亲提起了这个话题。我们处于通常的位置：她坐在缝纫机前，几根别针夹在嘴唇间，一只眼睛专注地审视着她的工作，而我就在她旁边，扮演着裁缝助手的角色，拆开她正准备加长的一条裤子的缝线。

“妈妈，我在考虑我的选择。我接受了这些……‘公司’的面试，我想你叫他们这个？大华尔街的类型。我必须承认，他们很诱人。”

“大……华尔街的类型？”

我意识到我已经超出了她对美国文化行话的熟悉范围。

“你知道的，股票和交易。投资。那种事情。显然我有很多要学，但我认为如果我真的下定决心，这是我能做的。”

“嗯，”她平淡地回答。“那是你想要的吗？”

“嗯，我的意思是……光是薪水就会改变我们的生活，而且——”

“飞飞，那是你想要的吗？”

“你知道我想要什么，妈妈。我想成为一名科学家。”

“那我们还在谈什么？”我的母亲总有办法迅速切断我含糊其辞的话，快到我需要一秒钟才能意识到。仅仅三步就将我困住。我要去读研究生了。

普林斯顿的教授们常说，研究生学习不仅仅是另一个学术里程碑，而是一个转折点，代表着从学生到像真正的科学家的第一次过渡，将激情转化为旅程，将亲和力转化为身份，将教育锤炼成职业、声誉和生活的基础。这是一个鼓舞人心的想法，它澄清了我面临的问题，但也使问题变得更加令人困扰。我知道我想成为一名科学家，但是什么样的科学家？确切的目的是什么？我怎么知道？

我在加州大学伯克利分校的经历让智能的神秘性变得生动起来，并向我展示了对视觉的更深入理解可能是解开它的关键。然而，从这个认识中延伸出两条道路：一条是神经科学的，承诺对大脑能力的更深入洞察；另一条是计算机的，在这条道路上，工程学的基础可以应用于建模，甚至可能复制那些能力。

我决定追求两者。

神经科学和计算研究的结合，在当时的硕士项目中至少是不寻常的搭配。尽管需要一些脚本工作来追踪它们，但还是有少数机构可以容纳它。事实上，幸运的是，世界上排名最高的两所学校正好提供了我所寻找的项目。

第一个是斯坦福的双轨项目，将神经科学与电气工程相结合，由在这两个领域都有丰富经验的罕见学者大卫·希格教授领导。希格的课程每一个细节似乎都为我量身定做，只有一个不便的例外：他已经完成了在学校的最后一年，没有他，项目将不会继续。将斯坦福从列表中划掉，我转向了麻省理工学院的另一个项目，这个项目与我的兴趣更加吻合。它是托马索·波吉奥博士的心血之作，他是一个相对晦涩的领域“计算机视觉”第一代研究者之一。即使在那时，波吉奥的工作对我来说也是令人印象深刻的，而且随着我意识到它的前瞻性，我的钦佩之情只增不减。他直接从大脑的架构中汲取灵感，构建了一系列被称为“连接主义模型”的算法——与神经网络类似的密集交织信息处理系统——来识别图像的内容。

然而，我还有另一个选择需要考虑：加州理工学院，更常被称为Caltech。尽管这所学校有着自己的悠久历史和与NASA的辉煌联系，通过其世界著名的喷气推进实验室，但不可否认的是，在排名方面它是弱者。斯坦福和麻省理工学院是世界上最负盛名的学术机构之一，很难想象拒绝它们中的任何一个——更不用说两个——的录取通知。但是，当谈到与我的英雄们的联系时，Caltech的表现远远超出了它的重量级，费曼、米利肯，甚至爱因斯坦本人都曾在那里讲课多年。至少，我无法抗拒去参观的机会。

从我踏上帕萨迪纳的那一刻起，很明显Caltech在气候方面占有优势。这是我第一次去南加州，那里的天气名副其实的阳光明媚，干燥的热气感觉像是从新泽西的潮湿中立即找到了避难所。我也被它的上镜魅力所打动，从四面八方盛开的花朵到慵懒晒太阳的乌龟池塘。麻省理工学院和斯坦福在学术上无可挑剔，但这个地方感觉像天堂。

尽管校园很小——甚至比本身就被认为很小的普林斯顿还要小——但我被Caltech的活力所淹没。五彩缤纷、通风的西班牙殖民地建筑在我在母校那些类似大教堂的沉重建筑中度过多年之后，感觉像是另一个世界。而与物理相关的观光机会无穷无尽。我立刻发现了爱因斯坦骑自行车被著名拍照的地点，随意地经过了米利肯图书馆，偶然发现了费曼传奇讲座的会场。

我在Caltech的参观中看到和感受到的一切都表明这是我应该去的地方。虽然这听起来可能微不足道，但我不能假装逃离东北雪暴多年的颤抖不是一个卖点。但是，当我遇到我将要向他们学习的人时，作为在那里学习的倾向变成了确定。

我的第一个未来导师是皮特罗·佩罗纳，他散发着意大利魅力，对跨学科研究没有界限感；他位于电气工程系，但热爱认知科学，并与我分享将两者融合的愿望。即使是在交谈中，他的兴趣也让我觉得从我们第一次互动起就异常全面。

“出于好奇，飞飞，你觉得墙上的那幅画作怎么样？”

皮特罗指向一个装裱着大胆原色的海报，上面被不规则间隔的正交线分成方块和矩形。我在普林斯顿上了几堂艺术课，很兴奋地认出它是蒙德里安的作品。

“我一直喜欢他的作品，”皮特罗继续说。“几何图形的简洁总是让我停下来思考。”

“具体思考什么？”我问。

“是否有一些规则在指导它。或者至少有能力解释它。”

“规则？你是说……像是算法？”他微笑着，然后继续说：“你不好奇吗？如果你测量蒙德里安的每一幅画作的比例，可能会发现某种模式出现，那不是很有趣吗？”

我回以微笑。我说不准他有多认真——我几乎可以肯定他是在和我开玩笑——但我喜欢他甚至花时间去构思这样的想法。聪明、爱冒险，又有点傻气，三者兼具。我觉得我这辈子都在等待遇见这样的思考者。

第二个人是计算神经科学家克里斯托夫·科赫。就像我和皮特罗一样，我在第一天就看到了克里斯托夫身上每个优秀科学家的标志：无限的想象力，以及面对这种想象力自然寻求的挑战时的无畏。他在生物物理学方面成就卓越，但他不断自我革新的记录给我留下了深刻印象。像佩罗纳一样，他渴望模糊学科之间的界限，并鼓励我也这样做。他来自物理学背景，这是我们共同的经历，也是波焦的前学生。但我在第一次会面中了解到，一种深刻的哲学热情已经缠绕在他的思维周围，并主导了我们的第一次对话。

“飞飞，你有没有想过如何向一个色盲患者解释颜色？你会如何用言语描述看到红色的体验？”

嗯……我还没有。

“我们对颜色的熟悉似乎并没有转化为描述它的能力，这不是很奇怪吗？我们真的只能提及它；当我说‘蓝色’或‘红色’时，你可能知道我的意思，但那只是因为你自己已经见过这些颜色。我的话只是在唤起你的记忆；它们并没有传达新的信息。”

这确实很发人深省。

“所以，当你想象某个未来的一代人完全理解视觉是如何工作的，你认为他们的掌握会包括能够，比如说，从基本原理描述红色的质感吗？”我思考了一会儿才回答。

“嗯……嗯，如果你真的指的是‘完全’理解的话，那不是必须的吗？”

“这是一个完全合理的回答。但它预设了可以在还原主义的解释中找到这种体验的解释。如果，不知怎的，没有呢？那又该怎么办？我们该如何处理这种矛盾？视觉可能是一个复杂的现象——也许是最复杂的之一——但它仍然是一个物理过程：物质按照物理定律行为。然而，主观上，我们的体验不是感觉非物质的吗？为什么看到红色会有任何主观的感觉？”

这些问题我以前都没有考虑过，他对它们的固执告诉了我一切我需要知道的关于他挑战我的能力。

他们俩是一对有趣的搭档。他们都很高，看起来年龄相仿——我估计他们都在四十多岁——但体型对比鲜明，皮特罗更结实一些，克里斯托夫相当瘦长。两人都有浓重的口音——分别是意大利和德国口音——但他们说话时的幽默感和随和的自信缓和了他们的强度。尽管皮特罗看起来像学者，穿着塞进裤子的纽扣衬衫和米色的多克斯裤，克里斯托夫却以一身极具冲击力的华丽服饰为傲，从鲜艳的荧光衬衫到染成漫画书颜色的头发，如绿色和紫色。

然而，他们共有的——而且是以惊人的程度——是一种只能用欢快来形容的好奇心，他们所说的一切都充满了感染力的活力。他们毫不犹豫，甚至没有一丝自我意识地提出关于复杂主题的深入问题，仿佛生命中最深刻的奥秘不过是一次对话之遥。特别是克里斯托夫，他经常被自己的思想所吸引，以至于他更喜欢在独白中探索它们，而不是和我交谈，即使是一对一的对话。但他的全神贯注来自于一种天真，而不是疏远，就像一个孩子无法自拔地被白日梦分心。这让我想起了我父亲的心不在焉，我觉得这很迷人。

在经历了多年的自我怀疑，努力学习第二语言，并因此变得有些戒备之后，我会被这样强烈的个性所吸引，这真是奇怪。但正如我和萨贝拉先生发现的那样，对科学的共同热爱可以让我感觉自己是任何人的同行，即使只是在一次友好的聊天中。当我发现自己与像皮特罗和克里斯托夫这样的人对话时，我所知道的世界几乎变得寂静无声，仿佛我们的想法本身就在交谈，不受我们的语言、地位或年龄的阻碍。他们是一种新型的榜样：不仅成功移民，而且作为科学家取得了成功。

我访问加州理工学院是我一生中最难忘的下午之一。他们是智力巨人，能够简单地与他们交谈几个小时就是一种荣幸，更不用说考虑成为他们的学生的机会了。在我的返程航班起飞之前，我的决定就已经做出了。

鉴于其演变的范围和复杂性，人类视觉能力已经挑战了几十年的自动化尝试。但如果这一切改变了呢？如果我们能够与我们的机器分享类似人类的世界意识，拥有它们的自动化速度和不知疲倦的精确性呢？想象一下，无人机甚至卫星飞越森林、冰川和海岸线，对环境健康进行全球范围内的专家评估。想象一下，智能非人类助手帮助视力受损者应对任何复杂的环境，就像人类助手一样。想象一下，通过机器人第一响应者使搜救更安全，它们将急救医疗技术人员或消防员的判断与机器的耐力和韧性相结合，或者自动化医疗诊断将专家的洞察力通过移动设备带给全世界的患者。

数字世界中也充满了机会。经过一百多年的视觉媒体发展，包括摄影、电影、新闻和电视，图像消费已成为现代生活的一个固定部分。但与文本和数字数据不同，后者自计算机问世之初就可以被搜索，即使是对图像进行粗略的搜索也仍然是一项手动工作，需要耗费人力的时间——往往还有工资。视觉智能机器如何帮助我们理解早已超出手动整理希望的集体数据负担？这样的可能性自该领域最早期以来就一直吸引着人工智能研究者。然而他们很快意识到的是——而且每一代人都只是确认了这一点——视觉理解是一个惊人复杂性的挑战，从数据本身开始。因为数字图像以像素的形式存储——即以数字编码的单个颜色点——在机器看来，它不过是一个长长的整数列表。要像人类那样看到图像，以人、地点和事物等有意义的概念，算法必须筛选这个列表并识别出某种相对应的数字模式。

不幸的是，即使是为简单的概念如直线或几何形状定义这些模式也是困难的。对于像人脸这样有机和多变的东西——在其所有颜色和比例中，以及在无限范围的角度、光照条件和背景下——要做到这一点就更加复杂了。

而且这个难题从那里只会变得更深。例如，究竟在哪里划定界限，将被动的看的行为与更深层次的理解的行为区分开来？纯粹的感知体验——由边缘和纹理赋予形态的色块——多久会被我们赋予这些形状意义的能力所理解，甚至在我们有时间意识到我们所看到的东西之前？很快就变得明确，两者是无法分离的；看就是理解，使得这个挑战既是智力上的，也是感官上的。因此，视觉不仅仅是我们智力的一种应用。实际上，它与我们的智力同义。

这就是视觉的魔力。它是一种如此精细调校的技能，尽管我们通过仅仅落在我们眼睛表面的光来看世界，但我们从这光中得到的东西扩展到填满我们整个体验的全部。这种从感官输入到健全、可行知识的几乎是奇迹般的转换，是我们大脑最令人印象深刻的能力之一。仅这项任务的计算成本就远远超出了即使是仓库大小的超级计算机所能承担的，所有这些都是由一个湿润的、有机的、直径大约五英寸的肉块提供的。而它的概念深度继续让学术界的杰出人物感到谦卑。

视觉之谜远不止于理解我们如何看世界。它不仅仅是关于颜色或形状的问题，也不仅仅是在越来越大的规模上进行数字运算的问题。它是对我们认知核心的现象的调查，我们是谁以及我们是什么，从生物学上、人际关系上和文化上涌现出来。它是通往我们体验最基础层面的旅程。很多时候，看就是知道。因此，理解我们如何看，就是理解我们自己。

我的研究生生涯始于购买一本特别大的教科书。它在我入学前一年出版，使得其内容几乎和它的装订一样新鲜。它又重又尖锐，第一次打开时清晰地发出了裂开的声音。每次看到它的封面，我都很兴奋，它将我学术旅程的每一线索编织成一个单一的实物。

它的标题是《视觉科学》，这两个词似乎是专门挑选来描述我自从加州大学伯克利分校的实验以来一直试图追随的道路。稍低一些的地方，用斜体字，它的副标题进一步预见了我的好奇心：从光子到现象学。在这两者之上，梵高的《星夜》的全幅插图几乎占据了其表面的三分之二。这是一部密集而全面的作品，注定要成为未来几十年的标准。我想学习它所能教给我的一切。

自那个在黑暗实验室中改变生活的时刻以来已经过去了两年——那些噼里啪啦和呼啸的声音让我首次瞥见了除了我自己之外的其他心灵的内在运作。两年的追求才刚刚开始。我对工程学的艺术感到好奇和挑战，但我不想成为一名工程师。尽管我被神经科学的奥秘所吸引，但我不想成为一名神经科学家。我想在不受这两者限制的同时借鉴它们。

我的时机再好不过了，即使这不过是偶然。我还不知道，但视觉研究是人工智能本身的一个分支——在流亡中的众多社区之一，分裂并被迫离开曾经团结他们的旗帜，现在已经进入另一个低迷期的十年。像神经网络和专家系统这样曾经令人兴奋的前景的消退带来了另一轮的疏远，随着初创公司关闭大门和学术兴趣的消退。这是另一个人工智能的寒冬，我正处于其中。但解冻正在迅速到来。

第六章北极星

帕萨迪纳的黎明微光正悄然爬升至地平线，投射出一幅我已经开始辨认为独特加州风格的温暖色彩调。它呼唤着人们走出户外，忽视一天的义务，这是多么诱人，但没有任何天空的蓝色足以与发现的承诺竞争。今天是我准备了数月的新实验的第一天，它在地下等待着我。

我们的工作将在科赫实验室的心理物理学部分进行，这是一个隐藏在加州理工学院日晒草坪和自行车道下方的阴暗地下世界。这里没有自然光线，通常也被剥夺了人造光线，是一个近乎完美的隔离之地：三个相同的隔间，由遮光帘分隔，每个足够大以隔绝单个坐着的占用者的感官。

一旦进入，我们的受试者将一只手放在鼠标上，另一只手放在键盘上，凝视着黑暗。经过一段短暂的平静后，显示器会亮起，显示一系列如此无序的图像，它们似乎是由达达主义者策划的：字母排列得像字母汤；随机、不连贯场景的照片；突然的彩色噪声闪光，所有这些都精确到毫秒，并精确地引发点击和按键的反应。然后，在几秒钟内，黑暗会再次回归。另一个静止的时刻将在空气中悬挂，然后序列会重复。一次又一次，再一次。尽管这看起来必须是混乱的，但没有一个细节是随意的。这一切都是为了尝试读懂一个心灵——或至少推断出它的某些片段。受试者几秒钟的狂乱手指、浅呼吸和瞳孔扩张，在数据丛中被捕捉，可能需要数天、数周甚至数月的时间才能完全理清。感官的秘密深藏不露；即使是瞬间将它们引入光明，也可能是一件奇怪的事情。

进化在一个光敏蛋白上持续了五亿年，不懈地推动着它随着时间的推移而绽放成一个如此精致的装置，几乎难以理解。现在，在加州理工学院，那劳动的成果将成为我们的老师——整个视觉皮层，从眼睛的玻璃表面延伸到心灵的最深处。就我的导师而言，朝着机器智能的承诺迈出的一个基本第一步是更好地理解人类的智能。

我并不确切知道我希望从我的研究生年代中得到什么，除了有机会沉浸在那个俘获了我的心的领域。但我希望在这个过程中的某个地方，我能找到一个我可以像我的榜样那样热情追随的追求——那种驱使埃里克·魏斯豪斯将对果蝇异常的迷恋转化为诺贝尔奖，或尼尔·德格拉斯·泰森将宇宙转化为数字诗歌的精神。我想要属于我自己的北极星。但在我找到它之前，我满足于围绕这个问题绕圈子：视觉的难以言喻的体验究竟是如何运作的——或者，用我教科书副标题中顽皮的话来说，光子是如何变成现象学的。

朝着这种理解迈出的早期步骤来自我的教科书《视觉科学》，介绍了普林斯顿心理学家安妮·特里斯曼。作为实验的神童和二十世纪认知科学的巨人，她结合了迷人的简单工具和原始的创造力来探索人类的感知，这是在数十年前，远在数字技术大幅加速她的研究之前。特里斯曼的“注意力特征整合理论”成为了理解视觉意识本质的几乎普遍基础。通过向受试者短暂展示一个抽象排列的闪光——比如，一个红色圆圈混杂在一堆绿色和红色方块中——她能够分离出他们在不同深度层次上理解图像所需的时间。她发现，人们几乎能够瞬间识别出红色的存在——仅仅知道颜色在图像中的某处——但他们需要更长的时间来特别找到红色圆圈，因为它的身份是两个不同特征的结合：颜色和形状，在同一地点重合。换句话说，整合红色感知和圆形感知的能力不仅需要更长的时间，而且似乎包含了一个完全独立的、更加密集的视觉处理阶段。

特里斯曼的工作在其范围上是宏大的，在其解释上是密集的，但它是由这样一个想法统一起来的，即人类视觉开始于识别小细节，然后建立它们之间的关系，直到它们揭示出一个完整的画面。这是一个直观的论点，它提出了一个度量工作中视觉的标准：由少数特征定义的简单对象可以被迅速识别——例如，灰色人行道上的橙色球——而更复杂的场景，如蜿蜒的森林小径或朋友面部的细节，需要更多的时间。

这是一个范例，我看到它在计算机视觉研究中重复出现，研究人员编写和完善了能够识别照片和其他图像中的基本细节的算法——锐利的边缘、光线和颜色的变化、纹理或图案的片段——然后构建更高级别的算法来识别它们之间的联系，并将它们与更有意义的事物，如人和物体，联系起来。我对视觉所知甚少，但这幅图很快就会变得更加复杂。

“我有一些东西要加到你的阅读清单上，Fei-Fei，”皮特罗说，把一篇文章的副本扔在我面前的桌子上。

“这个？”我拿起它翻了翻，注意到它的长度不到大多数已发表论文的四分之一。皮特罗会心地笑了。

“相信我，你会想读这个的。”

他不是在开玩笑。

这篇文章由神经科学家西蒙·索普提交到1996年《自然》杂志的信件栏目，文章很短——只有三页——但其发现的影响却是惊人的。即使是它那平实无华的标题，“人类视觉系统的处理速度”，也低估了它对整个领域接受的正统观念提出质疑的影响。这是科学中最伟大传统的一个例子——通过更复杂的现实，打破那些直观且熟悉的既定观念。

索普使用脑电图（EEG）测量了观察电脑屏幕上图像的人类受试者大脑表面的电信号。当一张照片在屏幕上仅闪现27毫秒——蜜蜂拍动翅膀几次的时间——他的受试者就能以惊人的准确度识别出其内容。但他更深入地探究了他们大脑中识别的时刻：图片出现后仅150毫秒，或者大致是眨眼的时间。这是有史以来对人类视觉处理速度调查最精确的一次，而且数字远远小于特里斯曼理论所预测的。

索普的受试者正在处理充满细节、透视、微妙光线和意义的整张照片——而这一切都在特里斯曼的受试者识别基本颜色和形状所需的时间内完成。每个读过这篇文章的人心中都燃起了一个问题：怎么做到的？我能理解为什么皮特罗如此急切地希望我也读它，以及为什么在它发表三年多后，它仍然是他和克里斯托夫讨论和辩论的持续话题。我立刻也分享了他们的迷恋。

对我来说，这项工作之所以更加超现实，是因为它发表的时间离我到加州理工学院的时间只有几年。我们很容易忘记现代人类视觉研究实际上是多么年轻，即使在今天，它的最早出版物也只能追溯到几十年前。与物理学相比，物理学有着横跨几个世纪的悠久历史，由伽利略、牛顿到玻尔等传奇人物填充，视觉学——现在仍然是——大体上是未知领域。计算机视觉的研究甚至更年轻。感觉就像是在我手中绘制地图，它激发了我作为研究生早期的日子。我忍不住在每周给萨贝拉先生的电话中滔滔不绝地谈论它，这种通话从帕萨迪纳继续进行。

“我从未见过这样的东西，”我说。“这个领域如此复杂，如此令人兴奋，然而……它几乎是全新的！大多数最重要的贡献者仍然在我们说话的时候进行积极的研究！”

我与皮特罗和克里斯托夫共度的时光越多，我就越能欣赏到定义他们作为学者职业生涯的冒险精神。尽管他们来自物理学和工程学，但他们对心理学、认知科学和神经科学等领域的热爱却表露无遗。他们像系里的其他人一样定期阅读计算机科学期刊，但他们同样专注地研读《心理学评论》、《美国国家科学院院刊》以及特别有声望的《自然》等出版物。

这种迷恋转化为强烈的观点和推进知识前沿的渴望，这意味着要直面索普和特里斯曼发现之间的差异。有力的证据表明，至少视觉的某些方面——即识别现实世界场景的能力——几乎是不费吹灰之力的。但是，是什么让它变得毫不费力？能以某种方式量化吗？这对我们对大脑整体的理解有什么影响？这些都是值得寻找答案的问题，而且，对于我的导师来说，试图这样做将是足够的工作，可以让他们特别坚持不懈的新研究生忙上一阵子。

如何阅读一个心灵？在实验室中，准确捕捉测试受试者的感知、期望甚至决策是司空见惯的。然而，设计一种实验方法来做到这一点，需要结合工程学、心理学、人体工程学，甚至类似于戏法的东西。具有讽刺意味的是，虽然我们的实验看起来与许多其他实验室的实验没有什么不同——测试受试者装饰着电极，助手们处理着大量数据等等——但设计它们却是一种艺术形式。

我们的目标非常模糊：确定测试受试者是否能准确识别仅显示了一小部分秒的照片内容，但又不集中他们的注意力在上面。索普已经确定了这项任务的速度，但他没有探索意识注意力所起的作用。有意识的专注是必需的吗？或者我们识别的能力是持续和无意识的，无论我们是否注意到周围的世界？我们怀疑是后者，但我们想证明它。

关于如何进行的想法来自于克里斯托夫实验室的访问博士后阿希姆·布劳恩。布劳恩正在研究一个类似的假设——我们的大脑在没有我们意识到的情况下处理大量的视觉细节——使用他所称的“双重测试方法”，在这种方法中，他通过一个中心任务吸引受试者的注意力，该任务需要有意识的专注，同时呈现一个只需要被动观察的外围任务，第一个任务所需的高度注意力确保第二个任务不会被有意识地处理。

这种方法的巧妙之处在于它揭示了受试者感官的焦点所在。因为中心任务有一个需要努力产生的客观反应，所以可以在多轮测试中高度确定用户是否完全参与其中。尽管比较简单，外围任务也有一个正确的反应，使得可以可靠地测量受试者的次要意识。因为两个任务都是在大约两百毫秒的时间内呈现的（只比眨眼的时间稍长一些），所以可以排除有意识地一个接一个地完成它们的可能性。我们的实验利用了对受试者注意力的精确控制来提出一个简单的问题：在观看了一个随机选择的户外风景照片——我们确信他们只是从侧面看过——后，照片中是否包含了动物的描绘？他们的回答将深刻揭示注意力的本质及其与视觉感知的关系。

对受试者来说，实验的节奏是令人屏息的快速，充满了对图像和图案的闪电般的瞥见，需要几乎即时的反应。但是，管理这项任务的工作却相对缓慢得多。从一天到另一天，这更像是照看孩子而不是科学探究，因为我们等待着被周末零用钱的承诺所吸引的昏昏欲睡的本科生从他们的隔间中出现。由于愿意参与的受试者从来没有像我们希望的那样充足，我们不得不受制于他们的时间表。不止一次，我一天的主要责任就是在早上六点在实验室入口处迎接一个陌生人。但我甚至喜欢这一点。以它自己的方式，这也是科学的一部分。

尽管我们的实验很重要，但皮特罗和克里斯托夫也明确表示，一个好的科学家同样需要跟上文献。而且我越读越意识到，索普并不是特里斯曼的第一个挑战者。一条类似面包屑的线索在我面前展现出来，隐藏在几十年的文章中，暗示着对她的观点越来越多的例外。

也许最明显不一致的发现来自一位名叫欧文·比德曼的视觉研究者。他和他的同事安排了一个实验，在这个实验中，受试者被展示了快速瞥见的照片而不是抽象的形状和颜色，然后被要求识别他们所看到的。尽管刺激的复杂性显著增加，而且曝光时间极短，受试者的答案却始终准确。在特里斯曼的受试者识别出一个单独的A字母与一片多彩的B字母中的时间内，比德曼的受试者能够从一张照片中吸收足够的细节，以判断它是一个购物广场的停车场还是一个家庭厨房的图片。

下一个难题来自一位名叫莫莉·波特的心理学家。使用一台早期的计算机显示器，她向受试者展示了文本段落，以大字体在屏幕中央一次闪现一个单词。即使单词以每秒十二个的速度出现——是普通大学生在正常条件下阅读速度的两倍——他们的理解能力也非常高。尽管特里斯曼的演示非常有说服力，表明视觉感知是从小细节层面逐步构建起来的，阅读似乎代表了一个强大的例外。

考虑到所使用的相对原始的工具，这些研究更加令人印象深刻。由于缺乏直接观察受试者认知的途径，像特里斯曼、比德曼和波特这样的思想家通过在严格控制的环境下巧妙使用行为观察，提取了几十年的有趣线索。但这种方法有其局限性；归根结底，从外部只能推断出关于大脑的有限信息。要从内部理解这些现象，需要新一代的技术。

这种技术最终以神经科学工具的形式到来，如脑电图(EEG)和功能性磁共振成像(fMRI)，为研究人员提供了前所未有的临床精确度。索普的论文是最引人注目的之一，但远非唯一。同样重要的是麻省理工学院认知神经科学家南希·坎维舍及其学生的工作，他们使用fMRI分析识别了与处理必要的快速、准确的感知成就相关的多个大脑区域，这些成就是像索普和比德曼这样的研究人员所揭示的。EEG测量的是大脑表面广泛分布的电脉冲，这些脉冲极其快速，而fMRI测量的是特定神经元群体被激活时血液氧气水平的变化。一个早期的突破是发现了“颞叶内侧的脑回面区”，这是一个不超过一立方厘米大小的皮层区域，似乎是为识别人脸量身定做的。接下来是附近的“海马旁回地区”，它在识别熟悉的地点，如自己的厨房或经常旅行的道路方面发挥类似的作用。另一个发现是“外纹状体区”，它通过对手臂、腿等的存在反应，帮助我们感知周围人的身体方向。

这些结构，被称为视觉的“神经相关性”，有些特别之处：它们似乎是专门设计的。每一个都识别一个单一的事物类别，且仅限于那个事物——面孔、熟悉的地点、身体姿势等——从而解释了我们在特定识别任务中感知速度之快。我们的神经解剖学中有一个专门的特征，不是从头开始一点一点地解码，而是几乎立即就能识别它们。从我们的角度来看，这感觉是毫不费力的。

从生物学上讲，努力在一个过程中的作用说明了很多。进化是极端节俭的，只对那些如此极端的环境压力做出响应，以至于不适应就意味着灭绝。对于一项能力来说，要被精炼到如此程度——使得如此复杂的事情几乎变得自动化——它必须具有根本的、甚至是独一无二的重要性。因此，视觉不仅仅是我们所看到的细节问题。虽然像特里斯曼这样的研究人员提出的，在严格控制的实验室条件下，图像可以被分解并以细粒度的术语进行检查，但我们依赖于在混乱世界中生存的视觉处理的是事物——物体、人和地点。实际上，从处理的最早阶段开始，我们就不是将周围环境感知为颜色和轮廓的集合，而是以类别的形式感知。

这些发现本身就令人兴奋，但它们之间的联系感觉更加深刻，就像一个未被发现大陆的海岸线。每一个新的想法都指向着某些重大的——也许是历史性的——东西，正等待着被发现。毕竟，它似乎对我们人类起了作用。我现在相信它也能对我们的机器起作用。

我想到了我的榜样，从物理学的传奇人物到我自己的教授们。多年来，我一直钦佩那些激励他们成为科学家的强大思想，以及这些思想对他们领域产生的激励效应。

现在，只是我研究生教育的头几年，我相信我在自己的地平线上看到了一线曙光——虽然遥远而模糊，但足够明亮，照亮了我前进的道路。无论如何，我们都将使视觉世界对机器变得熟悉。超越了易于固执的生活标准，我培养了一种比我以往任何时候都更为强烈的痴迷。

我找到了自己的北极星。

屏幕上出现了一架喷气式飞机的图像，算法开始了它的任务。这是一个连小孩都能应对的挑战：在照片中任何地方找到一架飞机的存在。但在2003年，这仍然是一个问题，机器只有在吸收了大量的示例材料后才能回答。即便如此，它们成功的几率也是适中的。那个下午，Pietro和我正在测试一个我们希望可能改变这些几率的想法，也许是戏剧性的。我仔细观察，渴望看到算法会做什么。

屏幕上开始出现粉红色的点，这是旨在突出照片中引起算法“注意”的细节的视觉辅助工具。当第一个点在停机坪旁的一片草地上出现时，我有点皱眉。算法看错了地方。但这种趋势很快就逆转了，因为接下来的两个点出现在飞机的翼上。然后是机尾的另一个点。接着是驾驶舱附近的三个点。最后是最后一个点。起落架。我想，这算数，它技术上是飞机的一部分！

我兴奋地呼了口气。到目前为止，一切都很好。接下来是真正困难的部分。由于每个突出的特征只占几个像素，算法被设计为将它们分组成代表它所要识别的对象的更大部分。换句话说，代表了一种模糊的视觉理解形式。每个部分都会被画上彩色的圈——蓝色和蓝绿色代表机身的不同部分，红色代表垂直稳定器，绿色代表两者相遇的区域。果不其然，算法几乎精确地将它们放在了它们所属的位置。

飞机被识别了。

这是一个激动人心的时刻，但不是因为它起作用了——而是因为它是如何起作用的。我们没有让机器沉浸在数百张尽可能涵盖颜色、风格、视角和照明条件等多种变化的飞机照片中，而是只向它展示了一张。然而，我们确实向它展示了数百张完全无关的主题图像——斑点丛林猫、摩托车、我们微笑的实验室同事和Pietro的高级新数码相机拍摄的人脸，以及我们从谷歌图片下载的一些随机选择。我们的假设是，通过首先让算法接触到视觉世界的广泛横截面，它将更好地装备自己学习一些特定的东西。所以虽然它接受了各种事物的训练，但它刚刚识别的飞机只是它见过的第二架。永远。

我们的创造只是一个概念证明，仍然有它的错误份额。但我们的目标是证明，像人类一样，算法从看到更多的视觉世界中广泛受益。北极星现在是我地平线上的一个固定物，我们已经朝着它的方向迈出了真正的一步。

我们称这种技术为“一次性学习”。这是一个与图像识别现状显著不同的技术，但激发我们的能力是众所周知的。作为人类，我们天生就擅长在甚至只看一眼之后识别事物：一种新型的乐器、我们从未见过的动物、一位新当选的政治家的面孔。可以引用许多解释这种能力的原因，但其中最简单也是最有力的事实是，即使我们看到的是新事物，我们也在将一生的先前经验应用于它。无论多么新颖，我们所看到的几乎所有东西都如此严重地依赖于过去的经验——熟悉的细节，如轮廓、光影、纹理和图案——以至于很难想象在真正的孤立中看到任何东西。

我们的技术将这一概念带给了机器，而且似乎正在起作用。如果结果是一个惊喜，然而，我们的论文收到的反响却是压倒性的。它不仅被接受参加在法国尼斯举行的国际计算机视觉会议（ICCV），而且还为我们赢得了少数几个口头报告的位置。尽管这篇论文是与Pietro和名叫Rob Fergus的研究员合著的，但我是主要作者。这意味着旅行的荣誉和责任都是我的。

在ICCV上发言是一个难得的机会，特别是对于一个研究生来说，而我在这样一个重要的听众面前几乎没有任何经验的演讲，这在我的脑海中压力很大。更糟糕的是，Pietro不能和我一起去。他和他的妻子正在期待他们的第一个孩子的出生，他们的预产期正在临近。这是我的第一个学术会议，也是我的第一个舞台演讲。而且我要独自一人去。

如果没有我面前的任务，我可能会在飞往尼斯的航班上感到紧张。我在加州理工学院的职责让我处于不停忙碌的状态，而三万英尺高空的十三个安静小时最终成为我唯一的空闲窗口，以便整理我将要发表的演讲。我在大部分旅程中都低着头，尽快地写下大纲并拼凑幻灯片。

然而，到达后，我深切地感受到了Pietro的缺席。通常情况下，导师会陪同学生参加他们的第一次会议，无论他们是否在发表演讲，以示支持并帮助建立网络。我开始意识到，我被留下来独自在一个充满数百名陌生人的活动大厅中应对。如果我要紧张，现在是时候了。"飞飞？"一个声音在我身后叫道。我转过身，看到一个陌生的面孔俯视着我。

"……是的？"我小心翼翼地回答。

"终于见到你真是太好了！我是吉滕德拉。"

"吉滕……哦！吉滕德拉……马利克？你是——"

"我想你认识我是作为皮特罗的前导师，是的，"他笑着说。"他让我来陪陪你。你没想到我们会让你一个人做这件事，是吧？"

虽然我知道吉滕德拉的名字，当然也知道他的声誉，但这是我们第一次面对面地见面。我倾向于用家族术语来思考学术关系，所以我认为他——我的导师的导师——是我的"学术祖父"。他名副其实，既平静又鼓舞人心。在我的演讲之后，当我被一群渴望了解更多的研究人员围攻时，他成了我的救星。仅仅有他在我身边，就把一个压倒性的日子变成了可控的，这也开启了我们之间持久的联系。

尽管在我的演讲之后有一阵激烈的讨论，但我意识到了一些微妙的事情——每个问我的问题都是关于算法本身的。你是如何设置贝叶斯方程来估计后验概率的？你是如何估计图像的先验分布的？你提到使用了一个最近提出的变分推断算法来优化模型参数——你能多谈谈那个吗？你计划在未来的修订中如何扩展它？在不同的情况下它可能会有怎样的表现？

我们一次又一次地被问到我们选择的机器学习算法的数学核心——一种称为"贝叶斯网络"的概率技术——但没有一个问题是关于我们训练它的数据的。虽然这并不罕见——数据被不那么微妙地视为一种惰性商品，只在算法需要它的程度上才重要——但我开始意识到我们低估了一些重要的东西。我们算法的定义特征——它能够从一次接触中学习新的物体类别的能力——在很大程度上依赖于数据。最终，是我们算法所见过的其他事物的多样性，给了它一种感知经验，并允许它在面对新事物时表现得如此出色。

事实上，我越想越觉得，为什么这个话题——数据的微妙但引人入胜的力量——没有得到任何关注。毕竟，我们从绝对缺乏这种东西——仅仅是几百幅图像散布在几个随机选择的类别中——取得了相当惊人的结果。这引发了一个问题，每次我的思维回到它时都显得更具挑衅性：如果这么少的数据就能使如此强大的能力成为可能，那么更多的数据可能会使什么成为可能？

如果是大量的更多数据呢？

"快完成了……再等一秒……"又是在红门咖啡馆的午餐，又是浪费了几分钟完美的吃饭时间，因为皮特罗正在把我们的盘子排列成他系列霍克尼拼贴画中的下一个。

"好了！"

"嗯。很好看，"我说。我甚至不再假装看了。

皮特罗对着他的作品微笑，显然注意到了我的不耐烦，显然也不在乎。我从他手中夺回我的托盘，开始吃饭。

"我一直在想我们的一次性学习论文，"他说，话题一转。"我为我们所取得的成就感到自豪，但我们都知道数据才是真正的明星。"

我点点头，还在咀嚼。

"那么，如果我们创建一个全新的数据集呢？一个更大的。我认为我们可以完全自己从头开始做。"我继续点头。

"我的意思是，如果所有这些新数据——完全独立地——是达到下一个水平的关键呢？"

这是一个大胆的想法，也足够成为一个长期的目标，以保持事情的有趣。

"那么，让我们从最明显的问题开始：我们的这个新数据集应该包括多少个图像类别？"

我放下叉子，沉思了一会儿。知道加州理工学院曾经组织的最大的收藏提供了七个相当随机选择的类别，四舍五入似乎是一个明智的起点。

"嗯……十个怎么样？"我提议。

皮特罗皱了皱眉头。

"那会是一个进步，我想，但我怀疑我们是不是太渐进了。"

我喜欢他的建议精神，但我也不得不考虑现实。知道收集、标记和组织图像的实际工作将落在我身上，我尽力平衡我们研究的需求和日常生活的实际考虑。

"好吧。嗯……那十五个怎么样？"

皮特罗狡猾地笑了。

"好吧。二十个！"

他没有动。真的吗？

皮特罗后来告诉我我接近了——他认为大约三十个类别就足够了。但注意到……随着对话似乎退化成一场谈判——而且是一场相当谨慎的谈判——他感到有必要采取进攻态度。

“我们来做一百个，飞飞。”

皮埃特罗后来会这样说，我看起来就像他判了我死刑一样。

考虑到这无疑需要的工作量，我很可能会失去一些理智，更不用说在接下来的几个月里我可能渴望拥有的任何社交生活的影子（诚然，损失较小）。但他是对的，我无法否认一想到我们的模型在这样的资源下会有怎样的表现，我就感到兴奋。

然而，为了不让他满意，我尽力保持镇定，接受这个想法。提高我的扑克脸将是一个长期的努力。

随着对话中的边缘政策逐渐淡出记忆，我开始对计划有了不同的看法。是的，策划一百个类别的图像——每个类别都包含各种各样的例子——将是我一生中尝试过的最辛苦的工作，包括周末在干洗店的工作。但这正是我想要的。我的北极星在地平线上闪烁，比以往任何时候都要亮。

“嗨，飞飞。”

“嗨，妈妈。爸爸怎么样？店里怎么样？”

“有个顾客要求修改，但他一直在用一个我不熟悉的术语。我想那是一种合身的类型，但是……”

接着是一段奇怪的停顿。

“飞飞，我……”

她的呼吸变得更加困难。我能听到她在电话那头，但她似乎无法作出回应。“妈妈？妈妈？你还好吗？”

没有一个好时机去了解你的母亲患上了充血性心力衰竭。但在一个已经将你的坚韧推到极限的研究生项目中两年后，这种感觉很难用言语表达。

事后看来，几周来她感觉不舒服已经很明显了。考虑到她几乎独自一人经营店铺的巨大压力，我以为她只是需要休息，我邀请她来拜访。但当她到达机场，呼吸困难，脸色比我见过的任何时候都苍白时，我能告诉有更严重的事情发生了。

这无疑是一个紧急情况，但我父母缺乏健康保险让我不确定该如何反应。我惊慌失措地打电话给我能想到的每个人，并被推荐到欧文的一家私人诊所的一位讲中文的医生。那是将近两小时的车程，但她是唯一愿意以自费的方式接见我们的医生，幸运的是费用也有所折扣。她的诊断很快：我母亲的心脏健康状况很糟糕。

萨贝拉先生仍然是我寻求安慰的首选来源。“你妈妈怎么样，飞飞？”他问。

“医生说她会活下来。我们及时发现了。”

“谢天谢地。你自己怎么样？”

我叹了口气，所有的事情都涌了出来。我们最新的，也是最绝望的计划。经营干洗店七年后，我们别无选择，只能卖掉它。当所有其他选择似乎都超出我们的能力时，它一直是我们的生命线，但我的母亲已经病得太重，即使有我父亲的帮助也无法继续下去。尽管生意是有盈利的，但我们仍然远远没有达到能够雇佣员工的利润率。是时候继续前进了。

更激烈的是我决定让我的父母搬到国家的另一边，和我一起在帕萨迪纳，我们可以再次面对作为一个家庭生存的挑战。我的宿舍甚至比我们在帕西帕尼的地方还小，但目前这是我们唯一的选择。

萨贝拉先生在电话那头沉默了一会儿，他全都接受了。

“你会继续你的学业，对吧？”他似乎感觉到了即使我还没有完全面对的事情。

“我不知道。”

又是一段沉默，直到我用笑声打破了它。

“你觉得我至少可以宣布我的父母为我的依赖人吗？”

一个新的现实正在出现，如此复杂，以至于它动摇了我自从走进普林斯顿那个讲堂成为物理专业的那一天以来所做的每一个决定。一生的好奇心引领我进入一个以激烈竞争、低薪和没有持久职业保障著称的领域，而我的父母需要我无法提供的支持水平。我每天追求梦想的时间感觉在最好的情况下是自私的，最糟糕的情况下是鲁莽的。我越是思考我自己的家庭和实验室同事们的家庭之间的差异——他们中的大多数至少是中产阶级，如果不是富有的话——否认真相就越困难：我没有成为科学家的奢侈。

但故事还没有结束。

几周过去了，一位同学提到，麦肯锡的一位合伙人，这是一家世界知名的管理咨询公司，来镇上招聘。他们正在寻找一个实习级别的分析师职位，这意味着承诺有广泛的在职经验，这意味着即使是与数学和计算机科学有微弱联系的常春藤联盟学校的研究人员也是理想的候选人。在一个真正绝望的时刻，这感觉像是一个值得考虑的机会。

当然，我以前也遇到过这种情况，很容易将其视为我学术目标和现实世界生活之间长期激烈冲突的最新冲突。但我的内心科学家的声音这次不同了。我母亲健康状况的最新打击让我震惊，那种坚持的心态也变得不那么强烈了，好像就连我内心那个特别、被保护的部分也开始屈服于一个我知道我不能永远忽视的现实。我把犹豫推到一边——这个行为现在我发现出奇地容易——我买了一套远超预算的衣服，小心地把标签藏在领子下面，预计活动结束后立即退回，并安排了一次面试。这一切感觉和我预期的一样不自然，但我不能忽视一个事实，那就是命运似乎从一开始就站在我的这一边。这或许是我第一次有机会在学术世界之外呈现自己作为一个完整的人，这让我充满了一种我通常不具备的信念。当然，我毫不掩饰地书呆子，但我不仅仅是那样：多年的奋斗锻炼了我，培养了我同行候选人从未有过的机敏，以及我现在才意识到让我与众不同的实用主义本能。

然后，一个几乎是滑稽的同步事件发生了。

“我们喜欢围绕一个假设的商业场景来组织我们的面试，”麦肯锡的代表开始说。“当然，没有人期望你真的了解这个行业，所以把这看作是一个创意练习比什么都重要。我们只是想了解一下你的直觉。你知道的，分析推理之类的。”

听起来很简单，我想。

“我想让你想象你是……比如说……服装行业的一个经理。”

哇。

一个开始只是例行公事的评估，突然变成了一场出乎意料的丰富对话，从我对物理的热爱和我对智力之谜的迷恋，到洗衣供应商的世界，以及我作为干洗行业业余经理的职业生涯。出乎所有人意料的是，事情似乎真的……进行得不错。招聘人员显然也同意了。回应是立即而强烈的，消息是麦肯锡决定将实习转变为正式的永久职位的提议。

我的感觉如此复杂，我甚至不确定它们是否真的有所体现。一方面，一想到要抛弃这么多东西——加州理工学院、皮特罗、克里斯托夫、吉滕德拉、我的同学们，实际上是我所知道的一切，最糟糕的是，放弃一个追求一个感觉具有历史意义的想法的绝对宇宙机会。我的北极星。另一方面，在看到我的父母多年来生活在边缘，越来越感觉他们之所以处于那种状态是因为我，我仿佛终于被解除了一个我从未完全意识到其重量的沉重负担。我母亲为了我能来到这里付出了一切，现在，当我知道她最需要我的时候，我终于可以回报她了。我直接回家，准备分享我认为的好消息。

“这是你穿去实验室的衣服吗，飞飞？”

我低头看了看自己。我忘了我还穿着面试的衣服。

“哦，对，”我带着半心半意的笑声说。“别担心，我买它的时候拿到了很好的交易，”我补充说，展示了仍然完好无损的标签。

“发生了什么事？”她问，现在更加困惑了。生活一直如此匆忙，我还没有向我的父母提及我的任何计划。

“妈妈，我们需要谈谈。”

我解释了面试、工作邀请以及其他一切。我告诉她关于福利待遇，起薪，以及他们在我甚至有机会回应之前就已经增加了优惠。我解释说，这实际上是通往每个移民母亲为其孩子想象的那种职业生涯的快车道。她礼貌地听着，但在我说完之前，我就在她脸上看到了一个熟悉的表情。

“我们真的要再次进行这个对话吗？”“妈妈，我知道，但听我说——”

“我知道我的女儿。她不是什么管理顾问，或者你说的那个。她是一个科学家。”

“想想你的健康，妈妈！想想我们即将面临的费用。学术生涯怎么能帮助我们——”

“飞飞。我们走这么远，不是为了让你现在放弃。”

“这不是放弃！这是一个梦想的工作——一份职业——它可以让我们摆脱这一切。我的意思是，看看周围！我们三个成年人住在一个宿舍里！”

我不确定我是否相信我嘴里说出的话，但它们似乎是正确的事情。无论我母亲对它们有什么看法，她都暂停了一会儿，也许是为了思考它们，然后回答。

“飞飞，你一直在谈论这个‘自私的’旅程。好像科学是你从我们这里拿走的东西。”

“我怎么能不这么感觉？我现在就可以为我们所有人赚钱，而且——”

“你没有听我说。这从来都不是你的旅程。从一开始，这就是我们的旅程。无论你是注定成为一个科学家、研究员，还是我甚至无法想象的其他什么，无论你是否会因此赚到一大笔钱，我们一家人从飞机离开上海的跑道那一刻起就一直在为此努力。”

我不知道该说什么。

“我要最后说一次：我们走这么远，不是为了让你现在放弃。”

她是对的。她总是对的。这一次，不知为何，我终于听到了她的话。我再也不会质疑我的道路。

“嘿，那种狗的品种叫什么来着？”我在几乎空无一人的实验室里吃午餐时，问了一个同学。

“哪一种？”

“你知道的，棕色和白色的……还有黑色，我想……它有一对非常可爱的垂耳朵。天啊，我完全忘了它的英文名字。”

我们在思考那些只有研究生才敢面对的宇宙级问题。

“我知道它以B开头……实际上，别告诉我……”

我伸手拿起我桌上一直放着的英文词典。在美国生活了将近十年，即使互联网取代了我们生活中的许多物品，它偶尔还是我的救命稻草。我翻过几页，然后往下扫描，直到我看到……

“啊！是的！比格犬！”

“好吧，那么比格犬怎么了？”

我停下来，回头看了看那一页。我甚至忘了我为什么要提起这个，但这并不重要。我意识到了另一件完全不同的事情。

皮特罗和我正计划得到一个包含一百个图像类别的数据集，但我们一直在努力想出一个好方法来决定究竟包括哪些类别。我们担心，如果我们自己选择，可能会有偏见——即使是下意识地，我们也会倾向于选择我们的算法更有可能成功识别的图像类别。我眯起眼睛，更仔细地看。词典对某些词的插图方式有种优雅之感。大多数都是名词，强调的是有形的、可视的东西——换句话说，是物体，或者在比格犬的情况下，是动物。它们看起来正是我们想要的那种类别。而且它们似乎在每个字母中或多或少都均匀分布，这在我看来听起来相当公正。我想知道：如果我们让词典为我们做选择怎么样？

这太完美了。我拖了好几年的那本大书变成了我作为一名有抱负的计算机视觉研究员世界中最有用的工具。偶尔，成为移民也有好处。

撇开早期的启示不谈，策划完整的数据集是一个漫长、缓慢、不起眼的过程。我们花了几个月的时间手动查询图像搜索引擎，挑选出最好的结果，然后裁剪和调整它们的尺寸以保持一致。一小队本科生标注员加入了我们，总共三四个人，甚至我现在是当地人的母亲也找到了帮忙的方法。尽管这个过程可能很艰苦，但它有一种启发性。在深入思考视觉世界的多样性之后，我以前所未有的方式看待它：作为一个包含手风琴、搅拌机、手机、小龙虾、龙虾、比萨、停车标志、雨伞以及许多其他东西的单一现实。这里面有一种诗意；它让我欣赏到世界是多么的丰富和不可预测，以及我们注意到的细节是多么的少。

最终，它完成了。在2004年完成时，它是为机器学习而组装的最大的图像集合：超过九千张，分布在一百个类别中。这是前所未有的，我迫不及待地想看看它会解锁什么。我们感到前所未有的强大，就好像我们突然拥有了一个超自然的神器，准备赋予我们的创造物比我们想象的更大的能力。但还有一个细节我无法抗拒：独自工作时，我以一种调皮的方式加入了另一个类别，以此对我的导师表示不满，尽管这是我自己的代价。如果皮特罗想要100个，我就给他101个。

我们立即发表了我们的单次学习论文的后续研究，现在展示了一个由惊人多样化的训练图像集合驱动的模型——现在正式被称为“Caltech 101”——并且取得了显著的性能提升。由于它的确是渐进性质的，它并不是第一篇论文那样的突破性成功，至少最初不是。但它确立了一个更持久的遗产，作为其他人效仿的模范。我们绘制的性能曲线成为了一个基准；在六个月内，来自世界各地的研究人员都在引用我们的论文作为要击败的标准——他们中的许多人都做到了。发表我们自己的研究是令人兴奋的，感觉就好像我们在为他人的想法做出贡献——并且在推动这个领域向前发展的过程中扮演即使是小角色——这是一种更大的快感。

很明显，Caltech的生活永远不会容易，但我对仅仅在那里的感激之情比以往任何时候都深。我们设法卖掉了干洗店，给了我母亲自从我们来到这个国家以来首次真正休息的机会。（我也不能假装对再也不用接一个关于衬衫过度淀洗的长途电话感到高兴。）最重要的是，我对我的学习充满热情，几乎每天都感到筋疲力尽。

幸运的是，Caltech是一个容易找到其他痴迷者的地方。我在皮特罗办公室外遇到了一个特别的人，当我听到似乎是两个明显的意大利声音，而不是我习惯的一个。我很快就知道，第二个声音属于一个我还没见过的研究生。他很高，口音如此难以穿透，以至于让皮特罗的口音在比较中几乎消失了，而且他那头狂野卷曲的头发在房间对面就很显眼。那天他也很匆忙，即使皮特罗介绍了我们，这也是一次难忘的初次见面。但这让我能够给那个声音取个名字：西尔维奥。

西尔维奥很快就在我们的实验室会议中引起了我的注意。像我一样，他经常以讨论艺术品开始他的演讲。他被像埃舍尔的《手与反射球》和维梅尔的《戴珍珠耳环的少女》这样的作品所吸引。珍珠耳环，这两者都在他通过研究探索的视觉世界的方方面面上徘徊不去——弯曲反射的扭曲轮廓、金属表面的光泽，以及日常物体的三维特性。当然，这些眼前的糖果很快就让位给了成堆的方程式。我们在一起的时间越长，我就越意识到我们有着相似之处：无论在什么情况下，我们都无法关闭我们的好奇心。

“看！看那辆摩托车！”他兴奋得足以完全打乱原本是在校园里放松散步的计划。

“它有什么特别的？”

“好吧，看那个铬合金排气管？看到反射了吗？它们包含了如此多的信息。你看到了吗？它们是如何弯曲和扭曲的？”

“是的，我明白你的意思。”

“但问题在这里——反射到底是什么呢？它只是周围世界在表面上的一个扭曲图像！这几乎是一个矛盾，然而它告诉我们足够多关于那个摩托车部件的形状，我们可以在脑海中毫不费力地想象它。这就是我们试图设计的那种算法。”

我的天，这家伙真是个书呆子，我想。但他和我是同一类书呆子。

我是两个实验室的学生——与皮特罗一起的电气工程实验室，以及与克里斯托夫一起的计算神经科学实验室。我每周与他们各见一次，参加期刊俱乐部，审阅神经科学和计算机科学的最新文献，而且，因为两个实验室都提供免费食物，我的饮食比我预期的要好。然后还有西尔维奥。只要时间允许——考虑到我们的日程安排，这并不经常发生，尤其是按照新关系的兴奋标准来看——我们就有彼此。但随着我在加州理工学院的岁月流逝，我内心深处开始生根发芽。

我反思了我们所做的一切：我们的心理物理学实验、我们对一次性学习算法的研究、我们展示加州理工101数据集的力量，以及我们研究了几十年的文献。尽管我受教育的道路不同寻常，被两位导师分开，我开始欣赏我们工作的优雅。这并非偶然——我们做了所有这些事情；我比以往任何时候都更加确信，分类是连接它们的想法，它在理解视觉——甚至可能是整个人类智能——中的作用很快将被证明是至关重要的。

那么为什么进展还是这么慢呢？

用一个词来说，我们的算法是“过拟合”，正如数据科学中所说的那样。也就是说，无论设计得多么巧妙——我们探索了我们能找到的每一种类型——即使在测试期间表现最好的算法也会在面对新刺激时迅速失效。一次又一次，看似经过有效训练的算法缺乏将它们所学的——或者应该学到的——应用于现实世界的能力。本质上，这与人类感知相反，后者的特点是其概括能力。概括使我们灵活、适应性强，甚至具有创造力，随时准备利用新想法的力量，而不是在过去经验的局限中苦苦挣扎。任何缺乏这种能力的生物都会很快被自然界的不可预测性所淹没，这是生物进化心智的一个关键特征。但对于机器来说，这仍然基本上是遥不可及的。

在我们试图解开过拟合之谜的过程中，算法本身是一个自然的起点——特别是它从训练数据中学习的方式。我们探索的大多数算法都非常复杂——用更技术性的语言来说就是“计算上不可解”——它们无法手动配置。它们无数参数的排列组合范围实在太广，就像一排排旋钮和开关延伸到地平线之外的控制面板。相反，自动化技术允许它们通过长时间的、反复的试错过程来近似地平衡这些参数。多年来，这种技术的完善一直是计算机视觉研究的支柱。

但加州理工101鼓励我们更深入地思考数据本身，这反过来又促使我们思考这方面的问题可能如何导致过拟合。毕竟，没有数据，机器学习中的“学习”指的是什么？尽管它的重要性显而易见，但这个话题缺乏我们在物理学、数学或统计学中所期望的精确性。像皮特罗和吉滕德拉这样的研究人员是为数不多的深入探索过这个问题的人，我觉得他们对于理解它有着最好的直觉。我们的出版物似乎表明，随着我们的数据集变得更大，我们的算法的能力也在增长——相对来说，无论如何。即便如此，数据的策划更像是一门黑暗艺术而不是一门科学。

我开始怀疑我们可能做错了什么。训练图像应该有不同的方向吗？我们需要更多的多样性吗？这是分辨率或相机质量的问题吗？或者可能——我几乎不敢去考虑这个想法，更不用说大声说出来了——101个类别还不够吗？我越考虑这些问题，它们就显得越明显，甚至越迫切。但据我所知，我们社区中没有其他人在问这些问题。

即使是数量问题——我们的专长——也似乎是个谜。我不得不承认，怀疑像101这样的数字有什么特别之处是合理的。它不是一个经过实证验证的结果，甚至也不是从理论中推导出的某种原则估计。它是我在午餐托盘上像霍克尼画作一样排列的一场与我的导师的博弈的结果。真的很令人惊讶，这不是突破的前奏吗？我又一次回到了文献中，这次带着复仇的心情。如果不是101，那是多少？200？500？1000？拜托，不要是1000，我想。我决心要找到一个线索，不管怎样，不管在哪里。

我费了一番功夫，但最终找到了一些东西。它甚至来自一个熟悉的来源——一篇由欧文·比德曼撰写的论文，他是我们现代视觉理解的核心贡献者之一，发表于很久以前——回到1983年。自从我读过它以来已经过去了好几年，毫无疑问是在凌晨两点与一堆其他文献一起浏览的。现在，在我们从一次性学习的冒险中学到了所有东西之后，以及我们实现真正的视觉分类的梦想，我以一种新的方式看待它。

这篇论文探讨了一个有趣但不直接相关的话题：我们如何利用对基本几何形状的了解来识别复杂的物体。在构建他的结论的过程中，Biederman试图回答一个看似简单的问题：大致有多少独特的“事物”类别存在于世界上？也就是说，如果你把它们全部加起来——“摇椅”、“企鹅”、“跑车”、“拉布拉多犬”、“山脉”以及其他所有东西——总数会是多少？

这听起来更像是一个谜语而不是一个科学挑战。但我对Biederman的方法印象深刻，他的方法基于对英语的分析。词语在帮助我们对所见进行分类中扮演了基础性的角色，他认为，我们专门用于描述独立、可量化事物的词语——称为“可数名词”——的总数将是一个很好的起点。然后他想象了每个这样的名词存在多少真正不同的变体，就像“杯子”这一类物体可能包括带有精美手柄的白色茶具、色彩鲜艳的咖啡杯和透明无特征的玻璃杯。因为有些类别比其他类别有更多的变化，他通过假设一个合理的平均值来简化问题。从那里开始，计算总数只是简单的乘法。

逻辑足够直接，但是他想法的规模使它如此具有颠覆性。它立即揭示了我们的研究有多么有限——我们的想象力有多么有限——以及超出这两者的世界实际上有多么广阔。这篇论文是一份模糊的、复印的文物，但感觉就好像Biederman直接对我说话：你想要突破？这就是代价。这就是所需的一切。

尽管如此，Biederman的数字——我们作为研究人员的雄心所需的潜在蓝图——是巨大的。真的很大。它不是1,000，2,000，甚至不是5,000。它当然也不是我们花了几个月时间编目的101。

它是30,000。

我不知道该如何处理这个数字。创建Caltech 101感觉像是一项艰巨的努力，而现在我面临的估计数字比那大了整整两个数量级。但现在我无法回避它。那里有一些东西——真正的洞察力——它的热量几乎穿过页面上印刷的数字。更重要的是，我知道无论这个数字注定要带我去哪里，我都将独自前行。我的领域专注于算法，仅此而已。但我越是思考数据——尤其是大规模，甚至是巨大规模的数据——我越意识到这是一个完全未被探索的前沿。世界已经选择了它的方向。但我的北极星正引导我走向另一个方向。

第七章一个假设

阳光的珠子，穿透而白，通过绿色植物闪烁，当我的车沿着206号公路飞驰时。这条双车道路是一条容易驾驶的路，它在树木的树冠中切割出温和的曲线，时不时地断开以揭示地平线上小镇的一瞥。我几乎没有看到任何东西。我的思维在世界之外，虽然我可以集中足够的注意力保持在车道标记之间，但仅此而已。

尽管我从Caltech毕业获得博士学位只有一年，但我生活中的几乎一切都发生了变化。我的母亲又病了。事实上，比以往任何时候都严重，然后突然稳定下来。我也得到了我的第一份真正的工作——伊利诺伊大学厄巴纳-香槟分校的初级教职工作——以及随之而来的健康保险。Silvio和我结婚了。然后他也找到了工作……在密歇根州。我有很多事情要感激，但我是早期学术生涯中常见的动荡的活生生的象征。我不知怎的同时结了婚，独自一人，又和我的父母住在一起。

尽管如此，我对视觉分类本质的研究仍然是我的世界中心，我应邀回到普林斯顿向计算机科学系展示我的最新工作。到这个时候，我已经习惯了发表演讲，但我捕捉到一些暗示，这次邀请可能意味着更多——招聘过程的第一步，可能是一个教职职位。这些风险比我习惯的要高，我很感激我有一个习惯，那就是从新泽西州的旅行开始。拜访萨贝拉家。从他们的社区到我的母校的蜿蜒路线给了我充足的时间去深思。

然而，困扰我的并不是讲座，甚至也不是我的职业生涯。自从我偶然发现了比德曼的数字——他估计大约有30,000个独特的概念可能为理解视觉世界提供一个完整的基础——我的生活就再也没有一样过。这五个不起眼的数字已经成为我心中的黑洞，几乎在我每一个清醒的时刻都在吞噬我的思绪。

一方面，我的直觉与比德曼的观点一致。他的数字看起来很对，我能从直觉上感觉到。它有证据的外表，一个我不知怎么能够利用的数据。同时，很明显他从未打算将其作为一个特别的经验量。这是一个典型的信封背面计算，更多的是作为一个示例而不是一个假设。然而，出于某种原因，多年后我最初看到它时，我就无法放手。

它激发了我思考的转变，让我有了一种我以前从未想象过的规模感，但除此之外几乎没有提供任何洞见。数字30,000当然很有趣，但究竟是30,000个什么？我确信答案不会像创建一个新的数据集那样简单，随机选择30,000个类别而不是101个。当然，这样的集合将远远超出桌面词典中的一组插图概念。它甚至可能开始全面地模拟世界，而不仅仅是描述其特征，逐个追踪地球上生活的完整画面，并暗示它们之间的关系。真正的意义。但我仍然只是在猜测。

随着时间的流逝，我开始做白日梦。一个Sunoco加油站的黄色和蓝色标志引起了我的注意，触发了一连串的回忆：沿着这条路以前驾驶的印象派闪回。颜色和情绪。这里一个锐利的细节，那里一个模糊的细节，都被半记忆中的阴影所包围，丰富而引人入胜，但永远都是模糊的。当我的思维链到达一个具体的事物时，我不由自主地微笑了：萨贝拉先生谈论他每天从巴德湖的家到帕西帕尼高中的通勤路线，以及他如何精心跟踪油价以尽量减少它对他公立学校教师薪水的影响。

这可能看起来微不足道，但正是这些时刻激发了我的迷恋。这才是视觉真正的意义。它不仅仅是一个“感觉”，至少不是像温度计或盖革计数器那样的“感觉”，而是一种体验的催化剂。一股信息和情感的洪流，由以五十英里每小时的速度飞驰而过的加油站标志的颜色所释放。这是定义一个最为人性化的头脑的能力之一——一个通往整个记忆、联想、概念和推理宇宙的入口，所有这些都编织在我们与周围世界的视觉联系中。

我的思绪回到了普林斯顿的演讲。至少那是一个我有机会解决的问题。

“我不知道一个语言学家是怎么出现在一个计算机视觉讲座上的，Fei-Fei，但我很高兴他来了。”

坐在我对面的是Christiane Fellbaum，一位计算语言学家，也是我在演讲后几天遇到的许多普林斯顿教职员工之一。她自己没有参加，但她的一个同事出现在听众中，并且感觉她会欣赏我的工作，于是在之后立即将我们联系起来。

Christiane在语言学方面的工作与我的只有最微弱的联系，但我们共享的是至关重要的：强烈的认知科学影响和对理解甚至绘制心智如何概念化其世界的特殊兴趣。在我自己研究人类视觉期间深深吸引我的概念，我们如何对我们感知的内容进行分类，对她的工作至关重要，而且在很多类似于我的方式上。我们俩都相信，类别是视觉（我们看到的东西）和语言（我们描述它们的方式）之间的交点。在谈话进行了二十分钟后，我突然意识到我甚至不知道我们是否应该讨论工作机会。不管怎样，这是我脑海中的最后一件事，因为她即将提出一个问题，将永远改变我的职业生涯和我的生活。

“你听说过一个叫WordNet的项目吗？”

WordNet，正如我即将了解到的，是乔治·阿米蒂奇·米勒的心血之作，他是心理学和认知科学的传奇人物。他出生于1920年，是一代心理学家中最有影响力的人之一，他们不满足于仅仅观察人类行为的表面，试图建立驱动它的心理过程的模型。因此，他自然而然地被语言的结构和它在思维中的作用所吸引。通过WordNet，他试图以惊人的规模来绘制它。

两个同样雄心勃勃的问题激发了这个项目：如果通过语言可以表达的每一个人类概念都被组织在一个单一的、庞大的词汇数据库中会怎样？如果与字典的字母顺序组织不同，这些词汇是基于它们的含义相互连接的会怎样？例如，不是因为拼写的偶然性而将“苹果”与“家电”配对，而是将“苹果”与一整簇相关词汇配对——“食物”、“水果”、“树”等等。这将像是一个地图，展示了人类所珍视的一切——我们用一个词来描述的一切——在一个连接的空间中排列。简而言之，这就是WordNet。

自1985年成立以来，该项目已经发展到几乎难以理解的规模，包括超过140,000个英语单词，并迅速扩展到新的语言。对于Christiane来说，她作为已经被称为全球WordNet协会的主席，这几乎是一份全职工作。我对它的范围、持久性以及必须精确指导其如此多年的精确增长所需的协调感到敬畏。当我想起为了收集足够的图像用于Caltech 101数据集而费力地管理几个本科生几个月的努力时，我几乎脸红了——它自己的类别深度比WordNet小了一千倍以上。但我也被激励到了我很长时间没有感受到的程度。WordNet是一个启示。它提供了一个答案，或者至少是一个暗示，对于那些在近四年的清醒生活中消耗了我大量时间的问题，自从偶然发现Biederman的数字以来。它是人类意义本身的地图，无论是其覆盖范围的广度还是其内容的真实性，都毫不妥协。我还不知道计算机视觉将如何实现Biederman想象的规模，但现在，至少，我有了这样一种努力是可想象的证据。这是我第一次面前的一条道路，我能看到下一步。

然后，仿佛是为了进一步强调这一点，Christiane提到了一个相关项目，该项目试图用一个单一的视觉示例，比如一张照片或图表，来说明WordNet包含的每一个概念。尽管这项计划已经被放弃，但我感到很好奇。甚至它的名字——ImageNet——几乎是完美的暗示。又一个推动，而且不是一个特别微妙的。

在我离开校园的那天之前，点点滴滴开始连接起来。首先，有WordNet：一个几乎难以形容野心的词汇数据库，似乎捕捉了世界上所有概念的整体，按照人类意义的自然层次组织起来。然后有ImageNet：试图为每个概念分配一张图片。这两个项目看起来像是对Biederman数字在我的思想中创造的巨大、神秘空间的回应。

我问自己一个既荒谬又显而易见的问题：如果像Caltech 101这样的数据集是按照WordNet的规模创建的呢？忽略这样一个任务的不可能的后勤——事实上，“不可能”是我脑海中浮现的唯一词汇——不可否认这个想法的力量。而且这不仅仅是一个规模问题；尽管数据集将会天文数字般巨大，当然，它的数字将是某些更深层次的东西的副作用：前所未有的规模多样性，就像它所反映的世界一样混乱和不可预测。

在我沉浸在这个领域的这些年里，以及我与Pietro和Christof一起研究的几十年历史，这感觉像是真正的新颖。发散的，甚至是颠覆性的。追求一个困扰我的日子并让我夜不能寐的谜团的下一步。如果这甚至有一个名义上的机会让我更接近发现——任何发现——我必须考虑它。

当我想象一个在这样一个数据集上训练的算法可能内化的丰富视觉线索时，我的思绪飞速。塑料的硬边，漆木的光泽，动物毛皮的质地，眼睛表面的反射，以及其他许多东西—...

本文标签：宇宙视觉李飞飞科学家爱因斯坦我所见的世界 imagenet

上一篇： ImageNet的故事：李飞飞自传《我所见的世界》中文节选

下一篇：荣耀Magic6系列手机官宣搭载鸿燕卫星通信技术，支持通话和短信

ImageNet的故事：李飞飞自传《我所见的世界》中文节选

相关文章

为您推荐

ImageNet的故事：李飞飞自传《我所见的世界》中文节选

荣耀Magic6系列手机官宣搭载鸿燕卫星通信技术，支持通话和短信

2023家庭教育大讲堂回放视频入口（12月）

2023年12月河北省医保局最新通知

“下一个马斯克”：过去90天里，AI与机器人的时间表大幅提前

马士基后，又一家船运巨头宣布“回归红海”

热门文章

热门推荐

最新文章