朱松纯演讲：人工智能的现状、任务、构架与统一（下）

来源：视觉求索　发布时间： 2019-04-28 11:57:05　编辑：夕歌

导读：到底什么是人工智能？现在的研究处于什么阶段？今后如何发展？这是大家普遍关注的问题。由于人工智能涵盖的学科和技术面非常广，要在短时间内全面认识、理解人工智能，别说非专业人士，就算对本行业研究人员，也是十分困难的任务。

第九节机器人学：构建大任务平台

我在第四节谈到人工智能研究的认知构架，应该是小数据、大任务范式。机器人就是这么一个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务，还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了，就用市面上提供的通用机器人平台。

前面介绍过，人和机器人要执行任务，把任务分解成一连串的动作，而每个动作都是要改变环境中的流态。

我把流态分作两大类：

（1）物理流态（Physical Fluents）：如下图左边，刷漆、烧开水、拖地板、切菜。

（2）社会流态 (Social Fluents): 如下图右边，吃、喝、追逐、搀扶，是改变自己内部生物状态、或者是与别人的关系。

当机器人重建了三维场景后（在谈视觉的时候提到了，这其实是一个与任务、功能推理的迭代生成的过程），它就带着功利和任务的眼光来看这个场景。如下图所示，哪个地方可以站，哪个地方可以坐，哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作。这些图在机器人规划中又叫做Affordance Map。意思是：这个场景可以给你提供什么？

有了这些单个基本任务的地图，机器人就可以做任务的规划。这个规划本身就是一个层次化的表达。文献中有多种方法，我还是把它统一称作一种STC-PG。这个过程，其实相当复杂，因为它一边做，一边还要不断看和更新场景的模型。因为我前面介绍过，对环境三维形状的计算精度是根据任务需要来决定的，也就是Task-Centered视觉表达。

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多，它就越成熟，做事就得体、不莽莽撞撞。

我一开始讲到的那个机器人竞赛，这些感知和规划的任务其实都交给了一群在后台遥控的人。

下面，我就简单介绍几个我实验室得到的初步演示结果，后台没有遥控的人。我实验室用的是一个通用的Baxter机器人，配上一个万向移动的底座和两个抓手（grippers），还有一些传感器、摄像头等。两个抓手是不同的，左手力道大，右手灵活。很有意思的是，如果你观察过龙虾等动物，它的两个钳子也是不同的，一个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作，比如握手。握手看似平常，其实非常微妙。但你走过去跟一个人握手的过程中，你其实需要多次判断对方的意图；否则，会出现尴尬局面。舒的论文在美国这边媒体都报道过。

下面这个组图是机器人完成一个综合的任务。首先它听到有人去敲门，推断有人要进来，它就去开门。其次，它看到这个人手上拿个蛋糕盒子，双手被占了，所以需要帮助。通过对话，它知道对方要把蛋糕放到冰箱里面，所以它就去帮人开冰箱的门（上右图）。这个人坐下来后，他有一个动作是抓可乐罐，摇了摇，放下来。它必须推断这个人要喝水，而可乐罐是空的（不可见的流态）。假设它知道有可乐在冰箱，它后面就开冰箱门拿可乐，然后递给人。

当然，这个是受限环境，要能够把样的功能做成任意一个场景的话，那就基本能接近我们前面提到的可敬的乌鸦了。我们还在努力中！

第十节机器学习：学习的极限和“停机问题”

前面谈的五个领域，属于各个层面上的“问题领域”，叫Domains。我们努力把这些问题放在一个框架中来思考，寻求一个统一的表达与算法。而最后要介绍的机器学习，是研究解决“方法领域”（Methods），研究如何去拟合、获取上面的那些知识。打个比方，那五个领域就像是五种钉子，机器学习是研究锤子，希望去把那些钉子锤进去。深度学习就像一把比较好用的锤子。当然，五大领域里面的人也发明了很多锤子。只不过最近这几年深度学习这把锤子比较流行。

网上关于机器学习的讨论很多，我这里就提出一个基本问题，与大家探讨：学习的极限与“停机问题”。

大家都知道，计算机科学里面有一个著名的图灵停机Halting问题，就是判断图灵机在计算过程中是否会停下了。我提出一个学习的停机问题：学习应该是一个连续交流与通讯的过程，这个交流过程是基于我们的认知构架的。那么，在什么条件下，学习过程会终止呢？当学习过程终止了，系统也就达到了极限。比如，有的人早早就决定不学习了。

首先，到底什么是学习？

当前大家做的机器学习，其实是一个很狭义的定义，不代表整个的学习过程。见下图。它就包含三步：

（1）你定义一个损失函数loss function 记作u，代表一个小任务，比如人脸识别，对了就奖励1，错了就是-1。

（2）你选择一个模型，比如一个10-层的神经网络，它带有几亿个参数theta，需要通过数据来拟合。

（3）你拿到大量数据，这里假设有人给你准备了标注的数据，然后就开始拟合参数了。

这个过程没有因果，没有机器人行动，是纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类。

其实真正的学习是一个交互的过程。就像孔子与学生的对话，我们教学生也是这样一个过程。学生可以问老师，老师问学生，共同思考，是一种平等交流，而不是通过大量题海、填鸭式的训练。坦白说，我虽然是教授，现在就常常从我的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的（第六节讲过的构架）。我把这种广义的学习称作通讯学习Communicative Learning，见下图。

这个图里面是两个人A与B的交流，一个是老师，一个是学生，完全是对等的结构，体现了教与学是一个平等的互动过程。每个椭圆代表一个脑袋mind，它包含了三大块：知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界，也就是“上帝”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识。

这个通讯学习的构架里面，就包含了大量的学习模式，包括以下七种学习模式（每种学习模式其实对应与图中的某个或者几个箭头），这里面还有很多模式可以开发出来。

（1）被动统计学习passive statistical learning：上面刚刚谈到的、当前最流行的学习模式，用大数据拟合模型。

（2）主动学习active learning：学生可以问老师主动要数据，这个在机器学习里面也流行过。

（3）算法教学algorithmic teaching：老师主动跟踪学生的进展和能力，然后，设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式。

(4) 演示学习learning from demonstration：这是机器人学科里面常用的，就是手把手叫机器人做动作。一个变种是模仿学习immitation learning。

（5）感知因果学习perceptual causality：这是我发明的一种，就是通过观察别人行为的因果，而不需要去做实验验证，学习出来的因果模型，这在人类认知中十分普遍。

（6）因果学习causal learning：通过动手实验，控制其它变量，而得到更可靠的因果模型，科学实验往往属于这一类。

（7）增强学习reinforcement learning：就是去学习决策函数与价值函数的一种方法。

我在第一节谈到过，深度学习只是这个广义学习构架里面很小的一部分，而学习又是人工智能里面一个领域。所以，把深度学习等同于人工智能，真的是坐井观天、以管窥豹。

其次，学习的极限是什么？停机条件是什么？

对于被动的统计学习，文献中有很多关于样本数量或者错误率的上限。这里我所说的学习的极限就远远超越了那些定义。我是指这个广义的学习过程能否收敛？收敛到哪？学习的停机问题，就是这个学习过程怎么终止的问题。就这些问题，我和吴英年正在写一个综述文章。

我们学习、谈话的过程，其实就是某种信息在这些椭圆之间流动的过程。那么影响这个流动的因素就很多,我列举几条如下。

（1）教与学的动机：老师要去交学生一个知识、决策、价值，首先他必须确认自己知道、而学生不知道这个事。同理，学生去问老师，他也必须意识到自己不知道，而这个老师知道。那么，一个关键是，双方对自己和对方有一个准确的估计。

（2）教与学的方法：如果老师准确知道学生的进度，就可以准确地提供新知识，而非重复。这在algorithmic learning 和 perceptual causality里面很明显。

（3）智商问题：如何去测量一个机器的智商？很多动物，有些概念你怎么教都教不会。

（4）价值函数：如果你对某些知识不感兴趣，那肯定不想学。价值观相左的人，那根本都无法交流，更别谈相互倾听、学习了。比如微信群里面有的人就待不了，退群了，因为他跟你不一样，收敛不到一起去，最后同一个群的人收敛到一起去了，互相增强。这在某种程度上造成了社会的分裂。

这个学习条件的设定条件不同，人们学习肯定不会收敛到同一个地方。中国14亿人，有14亿个不同的脑模型，这14亿人中间，局部又有一些共识，也就是共享的模型。

我说的停机问题，就是这个动态过程中所达成的各种平衡态。

第十一节总结：智能科学 --- 牛顿与达尔文理论体系的统一

到此，我摘要介绍了人工智能这六大领域的一些前沿问题，希望帮助大家看到一个大致的轮廓与脉络，在我眼中，它们在一个共同的认知构架下正在走向统一。其中有很多激动人心的前沿课题，等待年轻人去探索。

那么人工智能这六大领域、或者叫“战国六雄”，如何从当前闹哄哄的工程实践，成为一门成熟的科学体系呢？从人工智能Artificial Intelligence变成智能科学Science of Intelligence，或者叫 Intelligence Science，这个统一的科学体系应该是什么？

什么叫科学？物理学是迄今为止发展最为完善的一门科学，我们可以借鉴物理学发展的历史。我自己特别喜欢物理学，1986年报考中科大的时候，我填写的志愿就是近代物理（4系）。填完志愿以后，我就回乡下去了。我哥哥当时是市里的干部，他去高中查看我的志愿，一看报的是物理，只怕将来不好找工作，他就给我改报计算机。当时我们都没见过计算机，他也没跟我商量，所以我是误打误撞进了这个新兴的专业，但心里总是念念不忘物理学之美。

等到开学，上《力学概论》的课，教材是当时常务副校长夫妇写的，我这里就不提名字了，大家都知道，这是科大那一代人心中永恒的记忆。翻开书的第一页，我就被绪论的文字震撼了。下面是一个截图，划了重点两句话，讨论如下。

（1）物理学的发展就是一部追求物理世界的统一的历史。第一次大的统一就是牛顿的经典力学，通过万有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系，从此也坚定了大家的信念：

“物理世界存在着完整的因果链条”。

物理学的责任就是寻找支配自然各种现象的统一的力。

这完全是一个信念，你相信了，就为此努力！自牛顿以来，300多年了，物理学家还在奋斗，逐步发现了一个美妙的宇宙模型。

相比于物理学，可叹的是，人工智能的研究，到目前为止，极少关注这个科学的问题。顶级的工程学院也不教这个事情，大家忙着教一些技能。解决一些小问题，日子就能过得红红火火。80年代有些知名教授公开讲智能现象那么复杂，根本不可能有统一的解释，更可能是“a bag of tricks”一麻袋的诡计。有一些“兵来将挡、水来土掩”的工程法则就行了。这当然是肤浅和短视的。

我的博士导师Mumford1980年代从纯数学转来学习、研究人工智能，他的理想是为智能构建一个数学体系（mathematics of intelligence）。以他的身份做这种转变是极其不容易的（他有很多吓人的头衔，包括菲尔兹奖、麦克阿瑟天才奖、国际数学家协会主席、美国国家科学勋章），而我到目前还没有见过第二个这么转型的大家。 1991年我读完大学，申请研究生院的个人陈述（Statement of Purpose）中就懵懵懂懂地提出要探索这样一种统一框架。当时也没有互联网，我也没有听说过Mumford。记得当时科大计算机系刚刚有了第一台激光打印机，替代针式打印。我买了两包“佛子岭”香烟给管机房的师兄，让他一定要帮我把这三页纸的个人陈述好好排版、打印出来！结果，大部分学校都拒绝了我的申请，而我导师把我录取到哈佛读博士。同一年，科大计算机系一个师弟吴英年被录取到哈佛统计学读博，我们就成了室友。他对物理和统计的理解十分深刻，过去25年我们一直在一起合作。现在回头看，人生何其幸哉！

（2）物理学把生物的意志排除在研究之外，而这正好是智能科学要研究的对象。智能科学要研究的是一个物理与生物混合的复杂系统。智能作为一种现象，就表现在个体与自然、社会群体的相互作用和行为过程中。我个人相信这些行为和现象必然有统一的力、相互作用、基本元素来描述。其实这些概念对我们搞计算机视觉的人来说一点也不陌生。我们的模型与物理模型是完全相通的，当你有一个概率分布，你就有了“势能函数”，就有了各种“相互作用”，然后就有了各种“场”与“力”。

这些问题放在以前是没有数据来做研究的，就像爱因斯坦讲的“…不过是一个大胆的奢望，一个哲学学派成问题的理想而已”。而现在可以了，我前面已经给出了一些例子：砸核桃、坐椅子、叠衣服。我们可以从数据中推算各种相互作用的力，用于解释人的各种行为。最近，我有两个学生谢丹和舒天民就用“社会的力和场”来解释人的相互作用，舒还拿了2017年国际认知学会的一个“计算建模奖”。我们以后会写文章介绍这方面的工作。

智能科学的复杂之处在于：

（1）物理学面对的是一个客观的世界，当这个客观世界映射到每个人脑中，形成一个主观与客观融合的世界，也就是每个人脑中的模型（这是统计中贝叶斯学派观点）。这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计。由这些模型来驱动人的运动、行为。

（2）物理学可以把各种现象隔离出来研究，而我们一张图像就包含大量的模式，人的一个简单动作后面包含了很复杂的心理活动，很难隔离开。况且，当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行，你要把一个小问题单独拿出来研究，那在他们复杂数据集里面是讨不到什么便宜的。文章送到他们手上，他们就“强烈拒绝”，要求你到他们数据集上跑结果。这批人缺乏科学的思维和素养。呜呼哀哉！

回到前面乌鸦的例子，我在第四节讨论到，我们研究的物理与生物系统有两个基本前提：

一、智能物种与生俱来的任务与价值链条。这是生物进化的“刚需”，动物的行为都是被各种任务驱动的，任务由价值函数决定，而后者是进化论中的phenotype landscape，通俗地说就是进化的适者生存。达尔文进化论中提出来进化这个概念，但没有给出数学描述。后来大家发现，基因突变其实就是物种在这个进化的、大时间尺度上的价值函数中的行动action。我前面那个叠衣服的价值函数地形图，就是从生物学借来的。

二、物理环境客观的现实与因果链条。这就是自然尺度下的物理世界与因果链条，也就是牛顿力学的东西。

说到底，人工智能要变成智能科学，它本质上必将是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会，顺便参观了伦敦的Westminster Abbey 大教堂。让我惊讶的是：牛顿（1642-1727）与达尔文（1809-1882）两人的墓穴相距也就2-3米远。站在那个地点，我当时十分感慨。这两个人可以说是彻底改变人类世界观的、最伟大的科学巨人，但是他们伟大的理论体系和思想的统一，还要等多久呢？

这篇长文的成稿正好是深秋，让我想起唐代诗人刘禹锡的《秋词》，很能说明科研的一种境界，与大家共赏：

“自古逢秋悲寂寥，我言秋日胜春朝。

晴空一鹤排云上，便引诗情到碧霄。”

附录

中科院自动化研究所举办的《人工智能前沿讲习班—人机交互》报告的互动记录（修改整理版）。

时间：2017年9月24日上午

主持人：王蕴红教授介绍辞（多谢溢美之词，在此省略）。

朱开场白：

感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天，非常不好意思，耽误大家休息时间。我知道大家平时都很忙，你们坚持听到最后一讲，非常不容易。所以，我给你们带来一点干货，作为“精神补偿”。

今天的讲座是个命题作文，王老师要我谈人机交互。到底什么是人机交互，它要解决哪些问题？我就花了一周时间整理了一个比较长的讲座，给大家介绍人工智能的发展，和人机交互的体系结构。这个问题非常大，而且研究工作刚刚起步，大家需要把很多问题放在一起看、才能看出大致的轮廓。我给大家提一个思路，启发大家思考，我并不想直接给出一个解答方法。那样的话就剥夺了你们思考的空间和权利。

2017年初我在《视觉求索》发表过一篇谈“学术人生”的文章，讲到做学问的一个理想境界就是“清风明月”，也就是夜深人静的时候，你去科学前沿探索真理。今天的讲座，希望把大家带到这么一个空旷的地方，去领略一番。

报告后的提问互动：

提问一：朱老师，机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人，门口有个人他要进来，Ta怎么知道自己后退把路给让出来？

朱：自我意识这个问题非常重要。我先简要介绍一下背景，再回答你的问题。

自我意识（self-awareness，consciousness）在心理学领域争议很大，以至于认知学会一度不鼓励大家去谈这个问题，这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈，但是，还不落地。自我意识包括几点：

（1）感知体验。我们花钱去看电影、坐过山车、旅游，其实买的就是一种体验。这种体验是一种比较低层次的自我意识，形成一种表达（可以是我上面讲到的解译图）。事后你也可以回味。

（2）运动体验。我们虽然有镜子，可是除了舞蹈人员，大家并没有看到自己的行为动作。但是，我们对自己的体态和动作是有认知的。我们时刻知道我们的体态和三维动作。比如，心理学实验，把你和一群人（熟悉和不熟悉的都有）的动作步态用几个关节点做运动捕捉，记录下来，然后，就把这些点放给你看，你只看到点的运动，看不到其它信息。你认出哪个人是你自己的比率高于认出别人，而且对视角不那么敏感。所以，我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的，往往得益于镜像神经元（mirror neurons）。这是内部表达的一个关键转换机制。

机器人在这方面就比较容易实现，它有自己的三维模型，关节有传感器，又有Visualodometry，可随时更新自己在场景中的三维位置和形态。这一点不难。

（3）自知之明。中国有个俗语叫做“人贵有自知之明”。换句话说，一般人很难有自知之明。对自己能力的认识，不要手高眼低、或者眼高手低。而且这种认识是要随时更新的。比如，喝酒后不能开车，灯光暗的时候我的物体识别能力就不那么强，就是你对自己能力变化有一个判断。我们每天能力可能都不一样其实，这个相当复杂了。

比如，机器人进到日本福岛救灾场景，核辐射随时就在损害机器人的各种能力。突然，哪一条线路不通了，一个关节运动受限了，一块内存被破坏了。它必须自己知道，而后重新调整自己的任务规划。目前人工智能要做到这一点，非常难。

刚才说的人进来、机器人知道往后退，那就是一个协调动作的规划。你规划动作、首先要知道对方是什么动作。比如，人与人握手就其实是非常复杂的互动过程。为了达成这个目标，你要在脑内做模拟simulate。

提问二：谢谢朱教授，感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难，像您说的交互他还要去理解对方那个人的想法，这种信息他怎么来获取呢？也是通过学习还是？

朱：靠观察与实践。你看别人做事你就观察到，你就能够学到每个人都不一样的价值函数，你就了解到你周围的同事，比如你们共享一个办公室，或者观察你家庭里面的人，你跟他生活的时间越长，你就越来越多的知道他怎么想问题、怎么做事，然后你跟他在交互的过程中越来越默契了。除了观察，还有实践，就是去试探、考验对方。夫妻之间，刚结婚会吵架，之后越吵越少了、和谐了，价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛，那就分道扬镳，到民政局办手续。这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了，要么心领神会、心照不宣；要么充耳不闻、形同陌路。

提问三：他也是通过他自己观察到，它里面建立一个图吗？一个解译图（parse graph）吗？

朱：在我看来是这样的。就是我必须把你脑袋里面的很多结构尽量重构出来，表达层面就是解译图，至于人脑如何在神经元层面存储这个解译图，我们不清楚。人脑肯定有类似的表达，我脑袋里面有你的表达后，我就可以装或者演你的对各种情况的反应。

文学作家创作的时候，他脑袋里面同时要装下几十、上百号人的模型和知识表达，那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐。表演艺术家在这方面能力肯定也特别强。

提问四：像我们刚接触机器学习，你有没有什么推荐的，因为现在大家都在追踪训练深度网络，有没有一个推荐的，就是概率模型还是什么东西，一个数学理论或者一个数学工具。

朱：我的想法是这样的，首先让大家端正思想，就是你想学，探索真理和未知。就是说在夜深人静的时候你探索真理，等你心境沉静下来，你自然就看到一些别人忽略的东西。不要让我推荐某个工具、代码、秘籍，拿来就用。我今天讲的东西都不是来源于某一个理论、工具，是融会贯通后的结果。

我反复告诫学生们，做科学研究不是过去那种到北京天桥看把戏，哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”，科学研究就像在一个漆黑的夜晚找钥匙，大家喜欢聚在路灯底下找，但是很可能钥匙不在那个灯底下。

提问五：朱老师好，非常庆幸来听这个报告，我最后一个问题很简单。您说那几个时期，我想问一下秦朝到底什么时候能到？到秦朝的时候，数学的哪一块你认为，可能会被用做秦朝的武器或者最厉害的那个武器是什么。

朱：问得很好。什么时候会达到统一？这个事情中国有两个说法，都有道理。

一种说法叫做“望山跑死马”。你远远望见前面那个山快到了，你策马前行，可是马跑死都到不了，中间可能还有几条河拦住去路。那是我们对这个事情估计不足。

第二个说法是“远在天边，近在眼前”。能不能到达，决定于你这边的人的智慧和行动。什么时候统一、谁来统一，这决定于我们自己努力了。春秋和战国时期，思想家是最多的，诸子百家全部都出来了，那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞，我还有些问题想不通。

我们现在谈这个事情和框架，你觉得世界上有多少人在做？我的观察是：极少，也许一只手就可以数得过来。

你的第二个问题，如果要统一，那最厉害的数学工具是什么？我们要建立统一的知识表达：概率和逻辑要融合，和深度学习也要融合。我们看看物理学是如何统一的，他们里面各种模型（四大类的力与相互作用）必须融洽，然后解释各种现象。简单说我们需要搞清楚两点：

一、什么地方用什么模型？对比经典力学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似，各种模型有它们的范围和基础，比如我们常常听说的，吉布斯模型往往就在高熵区，稀疏模型在低熵区，与或图语法用在中熵区。这一块除了我的实验室，世界上没有其他人研究。

二、这些模型之间如何转化？前面我讲了一个例子，我写了一篇关于隐式（马尔科夫场）与显式（稀疏）模型的统一与过渡的信息尺度的论文，投到CVPR会议，结果，三个评分是“（5）强烈拒绝；（5）强烈拒绝；（4）拒绝”。大家根本就没想这个问题，眼睛都巴巴地看着数据集、性能提升了多少。刷榜成了CVPR科研的重要范式。在某些人眼中，刷榜成了唯一方式。我以前是批判这个风气，后来一想，其实应该多鼓励。我对那些把大众带到沟里去的学术领军人物，以前是批评，现在我特别感激Ta们。这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖，我都躲不开。我做研究喜欢清静，不去赶热闹，不去追求文章引用率这些指标。

王蕴红教授总结（整理）：今天朱教授的报告，大家可以感觉到两点。

一、纵横捭阖、举重若轻。纵论、横论整个人工智能六大领域很多深刻的题目，在很多层面上纵横交叉的线，他理得非常清楚、举重若轻，收发自如。非常幸运能听到这样的报告。

二、授人以渔而不是鱼。他讲的是如何去思考问题，如何去看世界，如何研究一些真正本质的东西。近几年深度学习被过多强调之后，有很多博士生还有一些研究者过于依赖工具，思考的能力被损坏了。其实研究的世界那么大，你一定要抬起头来看看，仰望星空。

鸣谢

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告。沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理出报告的中文初稿。假若没有他们的耐心、催促、鼓励和协助，这篇中文报告是不可能产生的。报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人协助整理。

感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版。其绪论被摘录在文中。我的思想受到这本书的启蒙。

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢美国多家机构对文中提及研究的长期支持。

声明：本文限于纯属学术观点的争鸣，不针对任何组织和个人，切勿对号入座。本文仅代表个人观点、不代表机构立场。

标签：朱松纯人工智能