当前位置:首页 > 创业圈 > 商学 > 论道 > 正文

王田苗对话四位科学家 未来具身智能将带来哪些产业机会?

来源:机器人大讲堂 发布时间: 2023-07-24 15:17:27 编辑:夕歌

导读:7月6日在北京由中关村智友研究院举办的2023 STIC 科技创变者大会上,北航机器人研究所名誉所长、中关村智友研究院院长王田苗邀请四位科学家,围绕“具身智能”人工智能与机器人的未来机会与挑战为话题展开深度讨论。

今年5月ITF World 2023大会上黄仁勋表示,人工智能下一个浪潮将是"具身智能",并宣布多模态具身智能系统NvidiaVIMA,能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界,甚至模拟物理学,标志着AI能力的显著进步。5月30日,受制于“具身智能”概念影响,英伟达开盘涨逾4%,突破万亿美元大关,市值相当于1.8个台积电、2.6个腾讯、3.3个茅台以及4.9个阿里。这也是仅次于苹果、微软、Alphabet、亚马逊的第五大科技公司。

圆桌论坛:创新对话 具身智能-人工智能与机器人的未来

简单来说,GPT 4火爆颠覆的是传统的AIGC产业,更多的是面向内容创作者与生成式AI领域,并不能对真实的物理世界产生太多实质性影响。但“具身智能”则可以通过真实物理硬件,通过传感器信息,利用机械执行器进行物理操作,或者通过机器人等具体实体与人类和环境进行实时互动。也因此,“具身智能”也被称作下一个机器人的产业风口。

王田苗对话四位科学家探讨具身智能未来产业机会

7月6日在北京由中关村智友研究院举办的2023 STIC 科技创变者大会上,北航机器人研究所名誉所长、中关村智友研究院院长王田苗邀请四位科学家,围绕“具身智能”人工智能与机器人的未来机会与挑战为话题展开深度讨论。

▍黄铁军:1-3年L4、L5自动驾驶落地 5-10年具身智能机器人出现

在对未来5-10年机会赛道预测,来自北京智源人工智能研究院院长,北大多媒体信息处理国家重点实验室主任黄铁军有着自己的看法。

北京智源人工智能研究院院长,北大多媒体信息处理国家重点实验室主任 黄铁军

黄铁军表示,“目前基于人工智能领域来看,以Chat GPT为代表的大语言模型处于历史窗口期,但下一个风口究竟是什么,我认为是具身智能,也可以称作为通用感知模型,他将赋予机器人与自动驾驶技术新的成长机遇。”

通用感知模型与大语言模型存在一定联系,在大语言模型突破之后,将会对通用感知模型打下一个很好的基础,语言是对这个世界的认知,通过语言认识这个世界可以解决大部分问题,但不能解决所有问题,如果进一步提升感知能力,那么基于类脑的感知计算模型就会进一步形成。

以自动驾驶技术为例,目前自动驾驶技术主要依靠视觉或激光雷达来对障碍物与路况进行判断,这是自动驾驶技术的感知模块,但这些模块只能感知障碍物的本体,并不具备更深度的分析与理解能力。

比如在开车时,前方出现一个黑色塑料袋,如果是目前的视觉或者激光雷达技术,在监测到障碍物时,由于缺少对物体的物理属性很清楚的认知,也许就会将车停下来。而人类驾驶员则会通过观察,判断黑色塑料袋不会产生什么风险,可能就直接开过去了。

自动驾驶与人类驾驶的本质区别在于人类对物理世界有清楚的认知,不仅能够通过观察还能通过感知来判断潜在风险,快速进行自主决策。这一点不管是雷达还是摄像头都是不具备的。但如果未来自动驾驶技术搭载大语言模型,就有可能具备这样的能力。

下一个AI大模型的爆发点,有可能是基于L4、L5级的自动驾驶,也有可能是类人大脑的机器人。传统依靠数据与算法提升自动驾驶与机器人决策精准性的模式将会失效,因为这个世界非常复杂,我们无法将所有数据都全部采集并写入到程序当中。

在传统程序算法中,我们只能解决物体本身的问题,如玻璃材质重量等外观属性,缺乏对物体在场景下的理解能力,比如玻璃杯掉在地上会摔碎,不同材质的杯子拿捏力度应该是怎样的,再比如地上有水,直接踩过去有可能会滑倒。而通用人工智能的出现弥补了传统仅仅依靠数据与算法的短板。

黄铁军认为:随着技术迭代速度加快,1-3年内L4、L5级别的自动驾驶技术就能实现,而搭载具身智能的机器人则会在未来5-10年出现,未来更加聪明的机器人能够走进工厂,对制造业进行颠覆与替代。同时也会随着量产后成本的降低走入普通家庭。

▍樊瑜波:聚焦人口老龄化 智能医疗三大赛道如何掘金?

智能医疗赛道与自动驾驶和机器人赛道不同,在被问及5-10年智能医疗赛道机会的时候,北航医学科学与工程学院院长、生物与医学工程学院院长樊瑜波对未来人口老龄化发表自己的看法。

北航医学科学与工程学院院长、生物与医学工程学院院长 樊瑜波

樊瑜波表示:“目前我国老年人的平均寿命已经达到80岁以上,这也意味着人口老龄化的到来,慢性病、失能半失能的状态也都会出现,如何为老年人提供辅助其实是一个很大的市场需求,但要支持产业应用则需要融合各个学科的知识与技术。”

樊瑜波认为,从科技的角度来看,未来生物活性智能材料是一个很重要的研究方向,目前包括人工关节当中经常使用的钛板、钢板等材料,但是与自然的东西相比,还是要差很多。

开一个玩笑来看的话,人每天吃一个馒头、喝一碗稀饭,大脑所进行的运算如果换用人工智能,需要大量服务器、消耗大量能量、占据相当大的数据资源才能实现。所以相对人工智能AI,我认为生物智能BI更博大精深。所以生物科学里的多样性,例如情感对人类身体形成的奖赏机制、惩罚机制,我们还远远不能定量化描述。我认为生物活性智能材料,以及由此带来的新传感,或者新的一些干预手段,还有很大的机会。

在被问及未来针对养老机构,陪伴与护理两大类机器人哪个更重要时,樊瑜波认为,两类产品都很重要。老人拥有基本的生活需求,也有情感陪伴需求。樊瑜波援引此前日本养老院案例,养老院中配备一款海豹机器人,这款海豹机器人也获得了美国FDA认证,但其实工作原理很简单,老人抚摸它时,它能发出一些模拟海豹发出的可爱的声音,,技术原理上面并没有多复杂,但养老院的老人非常喜欢。所以情感交互是重要的。当然人的坐卧行等日常活动的辅助也是必不可少的。

在被谈及未来智能医疗投资机会方面,樊瑜波对慢性病管理、生物材料、干细胞抗衰老三大赛道谈及了自己的看法。从商业化的角度来看,干细胞抗衰老赛道吸引力更大,因为这是从古至今大家都追求的一种状态,单从干细胞这个概念上来讲商业机会很大,不过是否有效还存在一些争议。其次是生物材料方面,因为每年都需要消耗大量耗材,所以也是相对比较稳妥的赛道。最后是慢性病管理,市场赛道过于拥挤,竞争也过于激烈,太容易被同行赶超。

▍邓志东:大模型赛道创业难度大 未来如何用好大模型是关键

清华大学教授、博导,清华人工智能研究院视觉智能研究中心主任邓志东表示:“基于人工智能发展,我比较看好人工智能和人形机器人、自动驾驶三个赛道,自2012年以来所谓的人工智能是以深度神经网络为代表的弱人工智能,基于弱人工智能很难实现自动驾驶L3、L4自动驾驶技术的产业落地。”

清华大学教授、博导,清华人工智能研究院视觉智能研究中心主任 邓志东

在去年Chat GPT为代表的通用人工智能出现之前,大家对人工智能产业是有怀疑的,虽然概念炒得很凶,但没有看到多少成功案例。直到通用人工智能出现之后,这个情况有所改变。如何使用大语言模型为代表的通用能力,来赋能自动驾驶技术和机器人技术显得尤为重要。

在弱人工智能时代,机器人与人工智能的结合并不是很多,但是现在有了大语言模型加持,不用再像之前一样通过调用大量数据进行训练,有可能通过预训练的模型已经训练好了,而你需要做的是用大模型的能力再加上微调。未来依靠大模型,思维链和提示词,将有可能实现零样本学习。未来与人工智能、自动驾驶以及机器人领域结合,将可以看到真正的产业落地,对于未来是一个巨大的机会。

此外邓志东认为,就大模型领域的创业而言,头部大厂通过自身场景以及数据流量的优势,已经在这个市场具备领先优势,现在去做大模型本身的创业是风险性很高的,实际上做大语言模型非常困难,只有少数企业才能做这个事,与其关注大模型本身,不如思考怎么用好大模型才是关键,未来使用大模型的能力非常重要,而且需要的算力也不是很高。

▍熊蓉:从专用到通用 未来机器人赛道需要庞大的产业支撑

谈到未来赛道机会方面,浙江大学求是特聘教授,迦智科技创始人熊蓉表示,“未来人工智能向通用智能发展,考虑到整个上下游产业链以及各个环节的成本与制造因素,机器人也将从专用转向通用,所以这也是为什么现在人工智能的热潮当中,人形机器人也成为一个热潮,因为它代表的是未来一个通用型机器人,可以适应各种应用场景。”

浙江大学求是特聘教授,迦智科技创始人 熊蓉

熊蓉认为,人工智能技术与机器人的结合能够不断地提升机器人的智能移动能力,智能操作能力,以及智能交互能力。

大模型的诞生从直观上来讲,我们可以看到机器人和人的自然语言交互以及视觉交互,都能够起到很好的提升作用。

熊蓉透露,我们早些年也在市场看到过一些主打家庭陪伴的聊天机器人,但当时只是热了一阵子,原因就是整体交互比较呆板不够智能,现在有了大语言模型就可以做到很好的提升。

此外,我们可以将语言与视觉大模型和机器人技能相结合进行学习,此前我们也做过尝试,通过预训练的视觉大模型、语言大模型和抓取模型三个模型相结合,从而实现更加灵活地下达指令,另一方面也可以实现有目标性的智能抓取,从而改变前面必须有模块化定义机器人的目标检测、定位和抓取决策,因为此前任何一个环节出错都会影响最后的抓取成功率。

熊蓉表示:早在2015年的时候,谷歌就使用16台机器人训练了长达6个月的时间,实现无目标抓取训练,并且只抓取不识别。但现在我们要做的是将两者结合起来,实现需要把感知智能与运动智能相结合,从而形成一种感知运动智能,进一步提升机器人在开放动态环境下的作业能力,推广到工业场景下,为产业赋能。