当前位置:首页 > 创业圈 > 商学 > 论道 > 正文

沈向洋:通用大模型时代 重新思考人机关系

来源:科创板日报 发布时间:2024-03-26 14:08:21 编辑:夕歌

导读:美国国家工程院外籍院士沈向洋发表演讲。他表示,大模型将横扫所有垂直行业,并且如果要达到通用模型的性能,都会去到万卡、上万亿参数的规模。他提到,未来,个人化的大模型也将是非常有意思的方向,而将个性化参数与云计算和端设备相结合,将开创出极具价值的新局面。

记者 黄心怡

在2024全球开发者先锋大会上,美国国家工程院外籍院士沈向洋发表演讲。他表示,大模型将横扫所有垂直行业,并且如果要达到通用模型的性能,都会去到万卡、上万亿参数的规模。他提到,未来,个人化的大模型也将是非常有意思的方向,而将个性化参数与云计算和端设备相结合,将开创出极具价值的新局面。

对于广受热议的以大模型为代表的AGI(通用人工智能),他提出了5点思考。

第一,人机关系需要重新被思考,因为技术创新的最终目的是帮助人类。第二,随着通用大模型、行业大模型、企业大模型、甚至是个人大模型的发展,大模型将横扫所有垂直行业。第三,算力将是大模型的重要门槛。第四,AI技术正在经历与社会的融合。从冲击到磨合到融合的过程,与个人、企业、政府都息息相关。最后,沈向洋指出,虽然AGI蓬勃发展,但是深度学习理论仍非常欠缺,大家对智能的本质尚无清晰的认识。

以下为演讲全文,略作删减:

今天非常高兴回到美丽的上海,与大家交流我在人工智能、开发和技术等方面的心得。前面的发布非常振奋人心。我今天讲的题目是大模型时代的机遇和挑战。

对于AI开发者而言,上海是不二之选。刚才我看到“模速空间”里,很多公司新的大模型技术非常激动人心。

我首先介绍一下最近大模型的整体发展和自己的几点体会。

第一,过去这几年大模型的发展非常迅猛,风起云涌。最近开源社区的活力、生命力非常强大,这毫无疑问。今天的会上,非常强调开源模型的重要性,如Llama。我们要抓住这样的机会,让国内的整个开源生态越做越好。

过去这段时间,有三件关于大模型的事情让大家大为震撼。

第一件事情是文生图。以前我们说,“一图胜千言”。

这是我非常喜欢的一张照片,也是第一张登上了美国杂志的人工智能画的照片。这是Cosmopolitan杂志的宇航员封面图,用Open AI的DALL-E2做的。当时给系统出的prompt是:在浩瀚的星空中,一位女宇航员昂首阔步地走向这个广角镜头。就是这样一个简单的提示,可以做出这么了不起的照片,大家当时都非常震惊。

了不起的技术发展带给了我们很多社会方面的思考。在没过多久,一位德国摄影师用AI技术生成了这样一张照片,投稿给一个摄影展,然后得奖了。其他摄影师觉得照片看起来像一个真的摄影作品一样,而且是一个非常好的作品。但是这个摄影师拒绝领奖,因为他觉得不好意思,这是AI做出来的作品,不是他做出来的。这带给我们很多思考。

(德国摄影师作品)

第二件事情是ChatGPT。在文生文中,提示语言可以产生“一句顶一万句”的效果,问一句话可以给你很多非常好的答案。甚至要来上海做演讲前,我问它,我来参加全球开发者大会应该谈些什么?ChatGPT可以给出非常好的框架。现在我见领导之前会经常问它,见领导之前应该说什么?

其次是Sora的诞生。以下这个视频的提示词是,在悬崖上的土路上,尘土飞扬。

(视频截图)

如你们所见,效果非常震撼。这个视频非常高质量,而且是形成了一个长视频。这只是他们(OpenAI)发布出来的其中一个例子而已,还有很多这样的例子,大家都很受震撼。目前Sora还没开始对公众正式开放。相信国内已经有很多单位在做这样的事情,下半年会看到一些类似的系统面世。

大模型这几件事情问世后,国内已经有非常多的公司、开发者在做这些方面的工作了。有一个数据表示,全中国大概有两百多家做大模型的公司,所以叫“百模大战”。我觉得更像是“群模乱舞”(笑)。

大模型对开发者和做科研的人而言,是很振奋的事情,因为它带给了我们机会。实际上,你要把科研做好的话,创新是非常重要而且很有影响力的。那如果从这个角度来说,现在已经有这么多震撼的突破了,开发者可以朝哪一个方向思考接下来最大的技术机会在哪里?

从短期,甚至是长期而言,我个人觉得其中一个可能的方向是多模态的问题。为什么能做出Sora?Sora做出来后,以后3D的东西也会(推出得)很快。

今日,以Open AI为代表,技术上是把不同模态分开来做的。比如说,Open AI做了什么?他们内部肯定有两套体系,一套体系是从DALL-E文生图延展到现在的Sora、文生视频,整体走的是Diffusion的技术路线。而文生文走的是Transformer路线。这个之所以难做,是因为做视频的时候,你只是去预测下一个像素,而做文本的时候,是预测下一个token。到现在为止,这两条线路还没有完全统一下来。相信接下来这个领域里,中国的开发者、世界的开发者很快会有一些突破。

说到这里,简单介绍一下阶跃星辰的例子。他们在多模的理解方面做得相当优秀。

比如第一个例子里,是一位妈妈在看手机,小孩躺在地上打滚。这张照片叫“当代小朋友的无效技能”,不管怎么闹,他妈妈都不理他。多模理解得非常不错。

中间的例子是平面几何问题。比如画了一个X,边是X+15,面积是100,X算出来是多少?第三个例子是法律方面的问题,是判断一个事情有没有违反中国的广告法。

模型要有对这些概念的理解力,才能做出这样的内容。所以在这方面,垂直行业有很多机会。刚才财跃星辰发布的大模型,已经在国泰君安的场景有很好的落地。这是非常振奋人心的事情。

大模型几乎改变了一切。而除了大模型的技术突破,产品的设计也非常重要。举一个例子,在深圳的IDEA研究院过去四年在做一个产品叫“ReadPaper”,理念是“让天下没有难读的论文”,帮你读科研的论文。我们之前就做得挺好,大模型出来后,我们看到了更好的机会,做了相对垂类的大模型,接进去以后体验就更好了。

当今这个通用人工智能的时代,我们的机会到底在哪里?大家一直讨论的,都是同一个词,就是AGI,以大模型为代表的通用人工智能。那么,我们接下来应该怎么思考通用人工智能这件事情?

我简单分享五个方面的思考。

思考1:重新思考人机关系。大模型的问世“强迫”我们重新思考人机关系。我们要想,ChatGPT给我们带来的冲击里,到底有多少是机器智能的发展带来的?有多少是人机交互的震撼?推荐一本书叫Machine of Loving Grace。书里提到,计算机几十年的发展路程里,真正的赢家是做人机交互的。作者的观点是,不管是什么技术,最后的目的是帮助人类更好地使用机器。这是对应AI里一个词,叫IA(Intelligent Augmentation)。我很认可她的观点。我们要时常把真正的目的、初心想清楚。

思考2:大模型将横扫所有垂直行业。简单来说,以A100为参考,未来的模型如果要达到通用模型的性能,都会到万卡、上万亿参数的规模,而行业大模型可能是千张卡的训练规模。以企业为单位的模型会少些,可能是一百张卡百亿参数的规模。我个人觉得未来最有意思的是个人大模型。个性化参数以后,云和端设备可以结合起来,是非常有意义的。

思考3:算力是门槛。你需要非常强大的算力。黄仁勋当年送给联合创办OpenAI的马斯克世界上第一台英伟达 DGX-1。Sam Altman最近要筹7万亿美元继续发展AGI。以前有一句话叫“贫穷限制了想象力”,因为科研需要钱。现在可能不幸的是贫穷“扭曲”了我们的想象力。因为你没有卡以后,你能想象的、可以做的项目不太一样。

现在大家谈论得最多的是Scaling Laws。随着参数的增加,你对算力的需求几乎是平方的关系。随着参数的增加,数据量也在增加。做一个GPT3.5的话,可能要一万张卡,做一个GPT4,可能要两万五千张卡,而做GPT4.5,可能要5、6万张卡。大家做GPT5的话,可能要10万张卡。

思考4:AI的社会冲击。这里包括了对民众的冲击、公司的冲击、政府监管的冲击和社会发展的冲击,国际上都非常关注。ChatGPT问世后,为什么大家尤为关注这些议题?因为如果把搜索引擎类比为一个责任有限公司,则ChatGPT是责任无限公司,每句话都是它自己生成出来的。ChatGPT有一个很大的问题,就是“一本正经的胡说八道”,英语叫做Coherent nonsense。它coherent,但是它是nonsense,这样以后会产生很多问题。最近让大家非常担忧的是选举里出现了很多deep fake的现象,连美国总统的脸都可以fake。基于现在的情况,很多国家开始立法。中国政府一直高度关注这些问题,欧盟也非常严谨。整个国际社会都在努力。

思考5:虽然AGI蓬勃发展,但是目前大家对智能的本质尚未形成非常清晰的认知,深度学习理论仍欠缺。希望有一套大一统的理论,将智能的本质统一起来。当今深度学习领域还没有这样的理论,我称之为theory of anything。一直推动着这个方向的发展的是以前纽约大学的教授Gary Makers。他坚信,ChatGPT再怎么发展,现在的这套技术路线也无法带给我们真正的智能。我觉得这些都是学术上很好的不同观点,我们应该以一个开放的心态思考整个事情。像Transformer七作者与黄仁勋对谈的时候说过,他们相信世界上会出现比Transformer更好的架构。

以前大家常说,大模型大到一定地步,就会出现涌现。为什么?以及是到了多大,会出现涌现呢?这个问题没有人可以回答。去年,我在香港科技大学邀请了一些国际专家做了一个活动,谈涌现智能背后的数学原理。是不是(会有)涌现尚不可知,如果确实有涌现的话,背后是不是有数据原理?是否存在像水到冰的相变的过程?这些都值得大家做数学上的研究。

最后,在结束前我想分享的是,各位都在做创新的事情,而我一直相信,创新有三个层次。一个是技术的创新,一个是产品的创新,一个是商业模式的创新。有计算机和没计算机,是完全两码事。而有了计算机,没有互联网的话,就不存在电商这个概念了。所以这三种创新里,最根本的创新,尤其是对开发者而言,肯定是技术的创新。

所以以前大家会激动地说,要做PMF(product market fit),而在如今的大模型时代,给我们带来更大冲击的是TMF(technology market fit)。

ChatGPT出道即巅峰,一问世的两个月内就有了一亿用户。这些都给我们的开发者们一些鼓励。像我们在上海,把这样一个开发者系统好好地建立起来,大家互相帮助,在上海市政府的支持下,我们一定会把AI研发做得更好。谢谢大家!