当前位置:首页 > 创业圈 > 商学 > 论道 > 正文

商汤科技联合创始人:大模型让自动驾驶拥有更好的可解释性

来源:澎湃新闻 发布时间: 2023-07-13 12:47:26 编辑:夕歌

导读:大模型的长处在于能够找到新的解法,帮助解决新问题,一旦解决以后可以在狭窄领域产生大量数据,重新训练小模型。商汤推出了千亿参数大模型,也会推出针对不同垂直领域的百亿参数小模型,有的小模型甚至可以跑在终端上,成本更低。

大模型的长处在于能够找到新的解法,帮助解决新问题,一旦解决以后可以在狭窄领域产生大量数据,重新训练小模型。商汤推出了千亿参数大模型,也会推出针对不同垂直领域的百亿参数小模型,有的小模型甚至可以跑在终端上,成本更低。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚。

今年4月,人工智能软件企业商汤科技联合上海人工智能实验室等提出首个感知决策一体化的端到端自动驾驶大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构先河。

大模型+自动驾驶将带来哪些驾驶体验?在今年7月举办的2023世界人工智能大会期间,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在接受采访时表示,自动驾驶的挑战之一是AI模型的可解释性不高,但大模型尤其是语言模型不单是输出结果,还可以输出逻辑推理过程来解释原因,因此未来的自动驾驶系统将会有更好的可解释性。

大模型研发不是跟随国外成果

商汤科技以视觉算法起家,2019年起布局10亿参数规模的视觉模型,今年4月发布“日日新”大模型体系,涵盖千亿参数中文大语言模型应用平台“商量”、文生图生成模型“秒画”、AI数字人视频生成平台“如影”、3D内容生成平台“琼宇”(场景生成)和“格物”(物体生成)等。

在“百模大战”下,商汤如何保持竞争优势?王晓刚表示,一是软硬件基础设施,商汤建立了新型人工智能基础设施AI大装置,打通算力、算法和平台,降低人工智能生产要素价格,并从2019年开始研发大模型,较早建立软硬件基础设施并不断完善保障了大模型开发。

二是针对大模型带给行业的变化重塑研发体系。“过去几年,商汤一个公司的模型就有几万个,而现在是让一个大模型赋能各行业,所以需要针对这个特点重塑研发体系。”各研发团队基于基础大模型开发各个垂直方向的新研发体系和产品,前端产品深入到各行业后为基础模型团队带来有益反馈,不断更新和加强模型。

三是不断创新目标和方式,聚集大量人才。今年6月,商汤科技与上海人工智能实验室、武汉大学联合论文《以路径规划为导向的自动驾驶》(Planning-oriented Autonomous Driving,UniAD)斩获顶会最佳论文,该论文提出首个感知决策一体化的端到端自动驾驶大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构先河。“大模型的研发不是一直去跟随国外的成果,而是要基于大模型的应用有自己的创新。”

王晓刚还介绍了商汤智能决策今年在紧密模拟真实世界的畅销游戏《我的世界》中取得的突破。过去几年,人工智能研发机构OpenAI、DeepMind在智能决策上花了大量精力,基于强化学习完成开放世界里的任务,“它们过去几年一共解决了78个任务,而我们融合语言模型能够解决全部262个任务。”而智能决策的市场广阔,基于大模型,未来可以应用到机器人、自动驾驶等领域。

大模型将为自动驾驶带来三大变化

自动驾驶系统包含感知、预测和规划三大主任务。在自动驾驶大模型UniAD中,研究人员首次将三大类主任务及六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到一个基于Transformer(注:谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)的端到端网络框架下,实现了全栈关键任务驾驶通用模型,多目标跟踪准确率超越最佳性能20%,车道线预测准确率提升30%,预测运动位移和规划的误差分别降低38%和28%。

王晓刚表示,今天的自动驾驶之所以还不够智能,原因之一是尽管车上传感器种类多,但不同类型的传感器融合仍是挑战,判断和决策模块割裂。大模型的出现让感知、决策、规划、控制等众多模块实现端到端的优化,“原来这些模块都是割裂的,分别开发,然后通过手动的方式进行链条,现在以最终的驾驶体验为目标进行端到端的优化,可以提升开发效率和最终体验。”

王晓刚认为,未来大模型将为自动驾驶带来三大变化。一是在核心决策模块,语言模型将替代简单规则,这是因为语言模型展示出强大的逻辑推理和决策能力,尤其是面向开放世界的各种开放问题。

二是当决策模块变得强大,就可以更好融合从感知模块输出的各种信息。“现在感知模块的输出相对来说比较简单,就是一些检测框、标签,持续的感知信息融合也比较困难,因为我们的决策模块不够强大。当决策模块强大以后,感知输出也会变得更加丰富和强大,提升整体安全性和驾驶体验。”

三是未来的自动驾驶系统将会有更好的可解释性。自动驾驶的挑战之一是AI模型的可解释性不高。而大模型尤其是语言模型不单是输出结果,还可以输出逻辑推理过程来解释原因。所以未来基于大模型的自动驾驶在出现问题时,可以更好地诊断,帮助提升自动驾驶能力。

大模型商业化需选择高价值的行业应用方向

除了自动驾驶,大模型为各行各业带来的价值是多方面的,价值也有高低。有时候大模型可以是一个聊天工具,有时候可以将它作为大脑操纵其他App,有时候也可以把它当成编程工具。不同应用方式为行业带来的价值差别是巨大的。王晓刚表示,要对大模型进行成本考量,在大模型商业化过程中选择高价值的方向进行研究和落地。

他表示,商汤正朝着“视觉版ChatGPT”和多模态大模型方向努力,多模态大模型的应用价值体现在垂直行业里。其参与研发的200亿参数多模态大模型“书生”统一了自然语言指令,可定义各种开放式任务,对世界的理解更加完整和深刻。“原有的计算机视觉定义任务时,能够提供的信息非常有限。现在因为多模态模型对世界有了更好的理解,能够通过语言与实体世界连接,产生交互。比如老人到国外拿到菜单看不懂,拍一张照片模型就可以告诉他菜单里有什么、点菜的价格,老人可以提要求是吃荤的还是吃素的、预算是多少,模型就会推荐菜品组合。”

大模型的长处在于能够找到新的解法,帮助解决新问题,一旦解决以后可以在狭窄领域产生大量数据,重新训练小模型。这就好比把大模型想象成能力强大的运动员,“它能够演示一个新的体操动作,有了示范以后资质差的再去学习就会容易很多。我们推出了千亿参数大模型,也会推出针对不同垂直领域的百亿参数小模型,有的小模型甚至可以跑在终端上,成本更低。如果没有大模型,小模型也不会存在,因为小模型不知道怎么解决某个问题。”

大语言模型常常一本正经地“胡说八道”,针对大模型存在的这一“幻觉”,王晓刚表示,把准确信息放在知识库里,通过知识库的融合就可以较好解决“幻觉”问题。