融数联智创始人兼CEO袁晔:国内更适合做垂直类大模型
导读:对于创业公司来说,需要考虑的事情包括团队、资金等各方面的能力。总体来说,沿着通用大模型创业还是比较难的。我们需要做的是拥抱新技术,去使用它、结合它,应用它。对于国内创业者而言,做通用大模型还是有难度,国内更适合在垂直行业做模型,开花结果。
ChatGPT掀起的热浪还是继续。
一方面,除了BAT等互联网科技大厂纷纷下场紧追ChatGPT步伐之外,国内科技圈迎来了一波创业潮,一瞬间,大模型赛道上热闹非凡。另一方面,也有不少人开始担忧起了未来,数据隐私安全、社会伦理等威胁论甚嚣尘上。
在此背景下,DoNews特别邀请了明略科技集团高级技术总监赵亮、赛智产业研究院院长赵刚、融数联智创始人兼CEO袁晔三位重量级嘉宾,以把脉ChatGPT技术的利好与落地为棋盘,同时聚焦于ChatGPT数据安全话题,探讨ChatGPT发展之路。
以下是融数联智创始人兼CEO袁晔的观点,为了方便阅读,DoNews在不改变原义的基础上进行了调整:
DoNews:ChatGPT到底是什么,或者说大家如何定义ChatGPT?是聊天机器人,还是AGI(通用人工智能),还是其他?
袁晔:我认为这是两个问题。正如ChatGPT名字一样,Chat就是聊天机器人,GPT整套框架包括大语言模型在内的一套涵盖算法、算力、数据等技术的体系。前一个还比较好理解,因为它已经呈现在大众面前,但后一个因为没有开源,所以大家很难去深挖它究竟是什么样的。GPT前几版本有开源的,但GPT3.5、GPT4已经被微软私有化了,我们很难知道它的边界是什么,只能通过只言片语去猜测一些信息。
所以说如果我们要去分析GPT到底是什么,以及GPT现在做的程度如何,我觉得还是很难去下定义或者去讨论。坦率来说,这就好像是你问微软,Microsoft的产品office word到底写了多少行代码,但这些代码都是闭源的,缺少基础信息,所以这是一件很难去下定义的事情。
DoNews:ChatGPT大爆发背后,如何平衡数据隐私安全和AI能力之间的关系?
袁晔:这个涉及方面比较多。我先从隐私保护的角度来谈。确实,像北美、欧洲和中国在隐私保护方面的政策是不一样的。所以我们可以看到Open AI在美国可以获得大量的数据去训练它的模型。此外,英语世界的语料是非常多的,数据整理和清洗的工作也做的比较好,这些都是在今天我们能够看到ChatGPT做的很好的重要因素之一。
欧洲为什么会有国家拒绝呢?是因为欧洲有一个法律叫GDPR,这是在隐私保护上非常严格的要求,这也是为什么意大利会首先拒绝,那么接下来可能欧洲其他国家也会跟进,因为这是法律的要求。
同样,国内也有个人隐私保护法、数据安全法等等,整体上与欧洲GDPR更接近。所以,从这个角度上来讲,如果说中文世界想做一个类似于ChatGPT这样的产品,面对的挑战有很多。现实情况是,首先数据相对较少,第二,数据清洗工作也相对做的没有英语世界做的多。第三,从法律的合规性和数据监管隐私保护的角度也是完全不一样的,所以这个也会从某种意义上影响国内想做ChatGPT产品的团队的具体执行。
Open AI现在达到的状态,可以说,哪怕是谷歌这样的公司也很难追赶,因为它基本上很好地调用了英语世界的语料,用于训练模型,并且形成了很好像雪球一样的滚动效应,也就是说,大量用户使用后,又产生了很多数据,并且不停地进行优化训练。
可以这样说,现阶段的ChatGPT就像是雪球在高速滑行状态,雪球会越来越大,其他的跟随者都很难在利用这些雪滚出这样大的球。
所以,某种意义上来说,在北美市场这个模式的战斗已经结束,ChatGPT这个事情上,欧洲也好,中国也好,或者世界上其他国家也好,可能会在垂直类大模型上生根发芽,而这对于隐私保护来说,才是一个现实的挑战。
早在20年的时候,就有研究人员针对ChatGPT做过相关数据隐私安全的研究。当时的这个研究就是说,大模型里面可能会隐藏着一些个人隐私的数据,只要通过一些手段就可以把它提取出来。因此,这也引发了一股担忧隐私数据泄漏言论。其实在这些新闻出来之前,很多学者就注意到了这个问题,并尝试做了一些工作。比如学术圈曾提到,通过一些方式来尝试减少和避免隐私数据泄漏。但目前来看,从技术层面上来说,好像还没有一个很好的方式能够绝对地避免这个问题。
此外,ChatGPT出现后,很多能力是我们暂时很难去解释的,或者说真正用原理去解释。这也引发了很多担忧,除了隐私数据的泄漏外,也会引发其他一些比如舆论引导等社会性、公共安全的担忧。
DoNews:怎么看待马斯克叫停GPT5这件事?
袁晔:我认为马斯克的担心有一定的道理。主要原因还是在于大家对GPT5的认知是模糊的,大家都不知道到底是怎么做的,这可能是一个很大的原因。如果开源的话,大家顾虑会相对少些。其实这也可以倒逼微软来开源这个部分。
但显然,ChatGPT的出现,在商业角度上来看是解决了一些问题的,比如说很多初级的工作,确实也可以被替换。
DoNews:除了互联网、科技大厂外,现在去做大语言模型的创业公司、连续创业者不再少数,还有像王小川、王慧文这样子的互联网老兵,大家认为谁能做出中国版的ChatGPT?
袁晔:我认为,我们很难再去做一个OpenAI他们一样做出的ChatGPT,哪怕是谷歌、亚马逊、Mate,当然,这也包括国内的一些公司。因为第一名已经跑很远了,并且像雪球一样越滚越大,我们很难去追赶。既然如此,为什么不另辟蹊径呢?
第二,从现实的角度来说,国内的相关法律法规跟北美也不一样,包括数据状况跟北美也不一样,所以我们也不太可能做出一模一样的东西来,而且也不可能去在英语世界做出这样一个应用。我们处在中文世界里,所以我们只能说不安其命,大家有自己的想法,大厂做出解决大厂自己问题的东西,初创公司有初创公司的玩法。然后无非就是看大家要解决的问题是什么,是真的要解决自己的业务问题,比如说大厂想要解决自身业务的问题,初创公司解决一个具体的业务场景问题。
所以,通用这个事情是比较难的,我认为国内做垂直类大模型的机会可能更大些。
DoNews:围绕着ChatGPT相关领域,您认为目前有哪些创业机会?围绕着数据隐私安全,有没有一些创业的方向?您对创业者有没有什么建议?同时对已经深耕ChatGPT领域的企业提出一些建议或看法?
袁晔:对于创业公司来说,需要考虑的事情包括团队、资金等各方面的能力。总体来说,沿着通用大模型创业还是比较难的。
我们需要做的是拥抱新技术,去使用它、结合它,应用它。对于国内创业者而言,做通用大模型还是有难度,国内更适合在垂直行业做模型,开花结果。
DoNews:ChatGPT是否会引发第四次工业革命?
袁晔:对第四代或第四个阶段的定义,其实之前像区块链、Web3,大家都会有类似的一些角度,比如说Web3顾名思义第三代互联网,区块链大家也讲是第三代互联网,包括 VR/AR/MR、元宇宙这些。至于ChatGPT本身,把大家带到了第四代还是怎么样,只能由历史来定,我们现阶段其实都是在猜。
但有一点,结合第一个咱们讨论的问题,我想简单说一下其他角度,就是说无论ChatGPT发展到什么程度,我觉得人类本身就是一个渺小的,而且在宇宙整个时间轴里都是很短暂的。
我们今天的人类其实跟100万年前的人类其实已经不一样了,甚至与在没有工业革命之前的人类也不一样。我们的体力、身体的结构其实多多少少都发生了微妙的变化,因为机器等带来的就是我们不需要那么强调体力、上肢及下肢。我们很多时候担心说AI去挑战人类,我觉得有点过虑了。
但有一点,我们去拥抱它,和它去做结合,包括脑机接口、假肢义肢,这些都是人与机器的融合。同时我认为,工业革命虽然带来很多工作岗位的消失,但同样也会创造大量的工作岗位。
DoNews:在这样的背景下,我们需要具备怎么样的技能才能应对ChatGPT带来的生产力的一个变革?
袁晔:特别简单——用,让他不断地学习。通过各种方法去用ChatGPT,他的API是开的,调用他的API去做一些简单的应用,才知道这个东西到底是什么,才知道怎么去结合它,否则就天天说,数学来了加减乘除很吓人,但是你从来不去学加减乘除,你就觉得它跟洪水猛兽一样的东西。
当你学了,你才知道你如何作为一个个体的人去跟他结合,我觉得核心就是要去用。