沈向洋：通用大模型时代重新思考人机关系

来源：科创板日报　发布时间：2024-03-26 14:08:21　编辑：夕歌

导读：美国国家工程院外籍院士沈向洋发表演讲。他表示，大模型将横扫所有垂直行业，并且如果要达到通用模型的性能，都会去到万卡、上万亿参数的规模。他提到，未来，个人化的大模型也将是非常有意思的方向，而将个性化参数与云计算和端设备相结合，将开创出极具价值的新局面。

记者黄心怡

在2024全球开发者先锋大会上，美国国家工程院外籍院士沈向洋发表演讲。他表示，大模型将横扫所有垂直行业，并且如果要达到通用模型的性能，都会去到万卡、上万亿参数的规模。他提到，未来，个人化的大模型也将是非常有意思的方向，而将个性化参数与云计算和端设备相结合，将开创出极具价值的新局面。

对于广受热议的以大模型为代表的AGI（通用人工智能），他提出了5点思考。

第一，人机关系需要重新被思考，因为技术创新的最终目的是帮助人类。第二，随着通用大模型、行业大模型、企业大模型、甚至是个人大模型的发展，大模型将横扫所有垂直行业。第三，算力将是大模型的重要门槛。第四，AI技术正在经历与社会的融合。从冲击到磨合到融合的过程，与个人、企业、政府都息息相关。最后，沈向洋指出，虽然AGI蓬勃发展，但是深度学习理论仍非常欠缺，大家对智能的本质尚无清晰的认识。

以下为演讲全文，略作删减：

今天非常高兴回到美丽的上海，与大家交流我在人工智能、开发和技术等方面的心得。前面的发布非常振奋人心。我今天讲的题目是大模型时代的机遇和挑战。

对于AI开发者而言，上海是不二之选。刚才我看到“模速空间”里，很多公司新的大模型技术非常激动人心。

我首先介绍一下最近大模型的整体发展和自己的几点体会。

第一，过去这几年大模型的发展非常迅猛，风起云涌。最近开源社区的活力、生命力非常强大，这毫无疑问。今天的会上，非常强调开源模型的重要性，如Llama。我们要抓住这样的机会，让国内的整个开源生态越做越好。

过去这段时间，有三件关于大模型的事情让大家大为震撼。

第一件事情是文生图。以前我们说，“一图胜千言”。

这是我非常喜欢的一张照片，也是第一张登上了美国杂志的人工智能画的照片。这是Cosmopolitan杂志的宇航员封面图，用Open AI的DALL-E2做的。当时给系统出的prompt是：在浩瀚的星空中，一位女宇航员昂首阔步地走向这个广角镜头。就是这样一个简单的提示，可以做出这么了不起的照片，大家当时都非常震惊。

了不起的技术发展带给了我们很多社会方面的思考。在没过多久，一位德国摄影师用AI技术生成了这样一张照片，投稿给一个摄影展，然后得奖了。其他摄影师觉得照片看起来像一个真的摄影作品一样，而且是一个非常好的作品。但是这个摄影师拒绝领奖，因为他觉得不好意思，这是AI做出来的作品，不是他做出来的。这带给我们很多思考。

（德国摄影师作品）

第二件事情是ChatGPT。在文生文中，提示语言可以产生“一句顶一万句”的效果，问一句话可以给你很多非常好的答案。甚至要来上海做演讲前，我问它，我来参加全球开发者大会应该谈些什么？ChatGPT可以给出非常好的框架。现在我见领导之前会经常问它，见领导之前应该说什么？

其次是Sora的诞生。以下这个视频的提示词是，在悬崖上的土路上，尘土飞扬。

（视频截图）

如你们所见，效果非常震撼。这个视频非常高质量，而且是形成了一个长视频。这只是他们（OpenAI）发布出来的其中一个例子而已，还有很多这样的例子，大家都很受震撼。目前Sora还没开始对公众正式开放。相信国内已经有很多单位在做这样的事情，下半年会看到一些类似的系统面世。

大模型这几件事情问世后，国内已经有非常多的公司、开发者在做这些方面的工作了。有一个数据表示，全中国大概有两百多家做大模型的公司，所以叫“百模大战”。我觉得更像是“群模乱舞”（笑）。

大模型对开发者和做科研的人而言，是很振奋的事情，因为它带给了我们机会。实际上，你要把科研做好的话，创新是非常重要而且很有影响力的。那如果从这个角度来说，现在已经有这么多震撼的突破了，开发者可以朝哪一个方向思考接下来最大的技术机会在哪里？

从短期，甚至是长期而言，我个人觉得其中一个可能的方向是多模态的问题。为什么能做出Sora？Sora做出来后，以后3D的东西也会（推出得）很快。

今日，以Open AI为代表，技术上是把不同模态分开来做的。比如说，Open AI做了什么？他们内部肯定有两套体系，一套体系是从DALL-E文生图延展到现在的Sora、文生视频，整体走的是Diffusion的技术路线。而文生文走的是Transformer路线。这个之所以难做，是因为做视频的时候，你只是去预测下一个像素，而做文本的时候，是预测下一个token。到现在为止，这两条线路还没有完全统一下来。相信接下来这个领域里，中国的开发者、世界的开发者很快会有一些突破。

说到这里，简单介绍一下阶跃星辰的例子。他们在多模的理解方面做得相当优秀。

比如第一个例子里，是一位妈妈在看手机，小孩躺在地上打滚。这张照片叫“当代小朋友的无效技能”，不管怎么闹，他妈妈都不理他。多模理解得非常不错。

中间的例子是平面几何问题。比如画了一个X，边是X+15，面积是100，X算出来是多少？第三个例子是法律方面的问题，是判断一个事情有没有违反中国的广告法。

模型要有对这些概念的理解力，才能做出这样的内容。所以在这方面，垂直行业有很多机会。刚才财跃星辰发布的大模型，已经在国泰君安的场景有很好的落地。这是非常振奋人心的事情。

大模型几乎改变了一切。而除了大模型的技术突破，产品的设计也非常重要。举一个例子，在深圳的IDEA研究院过去四年在做一个产品叫“ReadPaper”，理念是“让天下没有难读的论文”，帮你读科研的论文。我们之前就做得挺好，大模型出来后，我们看到了更好的机会，做了相对垂类的大模型，接进去以后体验就更好了。

当今这个通用人工智能的时代，我们的机会到底在哪里？大家一直讨论的，都是同一个词，就是AGI，以大模型为代表的通用人工智能。那么，我们接下来应该怎么思考通用人工智能这件事情？

我简单分享五个方面的思考。

思考1：重新思考人机关系。大模型的问世“强迫”我们重新思考人机关系。我们要想，ChatGPT给我们带来的冲击里，到底有多少是机器智能的发展带来的？有多少是人机交互的震撼？推荐一本书叫Machine of Loving Grace。书里提到，计算机几十年的发展路程里，真正的赢家是做人机交互的。作者的观点是，不管是什么技术，最后的目的是帮助人类更好地使用机器。这是对应AI里一个词，叫IA（Intelligent Augmentation）。我很认可她的观点。我们要时常把真正的目的、初心想清楚。

思考2：大模型将横扫所有垂直行业。简单来说，以A100为参考，未来的模型如果要达到通用模型的性能，都会到万卡、上万亿参数的规模，而行业大模型可能是千张卡的训练规模。以企业为单位的模型会少些，可能是一百张卡百亿参数的规模。我个人觉得未来最有意思的是个人大模型。个性化参数以后，云和端设备可以结合起来，是非常有意义的。

思考3：算力是门槛。你需要非常强大的算力。黄仁勋当年送给联合创办OpenAI的马斯克世界上第一台英伟达 DGX-1。Sam Altman最近要筹7万亿美元继续发展AGI。以前有一句话叫“贫穷限制了想象力”，因为科研需要钱。现在可能不幸的是贫穷“扭曲”了我们的想象力。因为你没有卡以后，你能想象的、可以做的项目不太一样。

现在大家谈论得最多的是Scaling Laws。随着参数的增加，你对算力的需求几乎是平方的关系。随着参数的增加，数据量也在增加。做一个GPT3.5的话，可能要一万张卡，做一个GPT4，可能要两万五千张卡，而做GPT4.5，可能要5、6万张卡。大家做GPT5的话，可能要10万张卡。

思考4：AI的社会冲击。这里包括了对民众的冲击、公司的冲击、政府监管的冲击和社会发展的冲击，国际上都非常关注。ChatGPT问世后，为什么大家尤为关注这些议题？因为如果把搜索引擎类比为一个责任有限公司，则ChatGPT是责任无限公司，每句话都是它自己生成出来的。ChatGPT有一个很大的问题，就是“一本正经的胡说八道”，英语叫做Coherent nonsense。它coherent，但是它是nonsense，这样以后会产生很多问题。最近让大家非常担忧的是选举里出现了很多deep fake的现象，连美国总统的脸都可以fake。基于现在的情况，很多国家开始立法。中国政府一直高度关注这些问题，欧盟也非常严谨。整个国际社会都在努力。

思考5：虽然AGI蓬勃发展，但是目前大家对智能的本质尚未形成非常清晰的认知，深度学习理论仍欠缺。希望有一套大一统的理论，将智能的本质统一起来。当今深度学习领域还没有这样的理论，我称之为theory of anything。一直推动着这个方向的发展的是以前纽约大学的教授Gary Makers。他坚信，ChatGPT再怎么发展，现在的这套技术路线也无法带给我们真正的智能。我觉得这些都是学术上很好的不同观点，我们应该以一个开放的心态思考整个事情。像Transformer七作者与黄仁勋对谈的时候说过，他们相信世界上会出现比Transformer更好的架构。

以前大家常说，大模型大到一定地步，就会出现涌现。为什么？以及是到了多大，会出现涌现呢？这个问题没有人可以回答。去年，我在香港科技大学邀请了一些国际专家做了一个活动，谈涌现智能背后的数学原理。是不是（会有）涌现尚不可知，如果确实有涌现的话，背后是不是有数据原理？是否存在像水到冰的相变的过程？这些都值得大家做数学上的研究。

最后，在结束前我想分享的是，各位都在做创新的事情，而我一直相信，创新有三个层次。一个是技术的创新，一个是产品的创新，一个是商业模式的创新。有计算机和没计算机，是完全两码事。而有了计算机，没有互联网的话，就不存在电商这个概念了。所以这三种创新里，最根本的创新，尤其是对开发者而言，肯定是技术的创新。

所以以前大家会激动地说，要做PMF（product market fit），而在如今的大模型时代，给我们带来更大冲击的是TMF（technology market fit）。

ChatGPT出道即巅峰，一问世的两个月内就有了一亿用户。这些都给我们的开发者们一些鼓励。像我们在上海，把这样一个开发者系统好好地建立起来，大家互相帮助，在上海市政府的支持下，我们一定会把AI研发做得更好。谢谢大家！