自研多模态深度生成式大模型,生数科技获蚂蚁集团领投近亿元天使轮融资
导读:北京生数科技有限公司(以下简称“生数科技”)正式宣布完成近亿元人民币的天使轮融资,本轮融资由蚂蚁集团领投,BV百度风投、卓源资本跟投,目前估值已达1亿美金。本轮融资后续将主要用于核心研发团队的建设,加速多模态大模型和应用产品的研发。
北京生数科技有限公司(以下简称“生数科技”)正式宣布完成近亿元人民币的天使轮融资,本轮融资由蚂蚁集团领投,BV百度风投、卓源资本跟投,目前估值已达1亿美金。本轮融资后续将主要用于核心研发团队的建设,加速多模态大模型和应用产品的研发。
生数科技成立于2023年3月,由瑞莱智慧RealAI、蚂蚁和BV百度风投联合孵化成立,致力于成为全球领先的生成式人工智能基础设施及应用建设者。团队核心成员主要来自清华大学人工智能学院,前瑞莱智慧副总裁唐家渝出任首席执行官。目前,生数科技正积极打造世界领先的可控多模态通用大模型,致力于通过生成式AI技术提升全人类的创造力与生产力。
自研多模态深度生成式大模型,生成能力领先国际水平
预训练大模型范式的出现,让模型在突破一定的规模界限后涌现出惊人的智能,面向未来,多模态融合将成为下一阶段智能涌现的关键。唐家渝表示,人类与真实世界的交互天然是多模态的,能够同时处理包括文本、图像、视频、语音等多模态信息,因此多模态感知和生成是发展通用人工智能的关键要素。但他也强调,拥有多模态能力不意味着拥有多模态大模型,多模态的发展不在于对不同跨模态能力的简单集成,而是需要在底层构建统一的通用基座,打通任意不同模态的输入、转化与输出,只有这样才能将不同模态间的知识真正有效地融合、转化与学习,进而涌现出更准确丰富的感知与生成能力。
秉承这一理念,生数科技成为国内最早布局多模态通用大模型的团队之一,于2023年初即开源了全球首个基于Transformer的多模态扩散大模型UniDiffuser,首次实现基于一个底层模型高质量地完成图生文、图文联合生成、图文改写等多种生成任务。基于此前积累,生数科技也正从0到1打造着产业级的多模态深度生成式大模型,覆盖文本、图像、3D模型、音视频等多个模态。目前该大模型正在快速迭代中,现阶段已于图像生成、3D内容生成、视频生成等任务中实现全球范围内超高水平的生成效果。
唐家渝表示,现阶段市面上的模型和产品仅仅解决了初级阶段的可生成性问题,但生成的结果仍有很大的不确定性和不可控性,模型对用户意图的把握、精确细节的控制仍存在很大的不足,比如难以对生成的图像画面中元素的位置、细节做到准确的控制,生成的3D模型在表面精细度、色彩光影的准确性方面仍处于较低水平。
可控生成是成熟商业化的重要前提,生数科技通过优化底层算法已于短时间内实现领先行业的生成效果,例如3D生成效果已大幅领先Shap-E(OpenAI)、DreamFusion(Google)、Magic3D(NVIDIA)等主流模型水平,能在无需任何3D训练数据的前提下,通过文本描述自动生成高质量的带纹理的三维网格与NeRF图,包括生成复杂效果和360°场景、根据同样的描述生成不同形式的3D内容,以及首个实现了基于三视图自动生成高质量的3D内容,是目前业内最接近产业级应用的3D生成效果。其次,图像生成已超过Stable Diffusion最新版基础模型水平,在构图、风格、画面精准度等方面能够更好地把握用户意图,预计将于年内赶超Midjourney最新版本。未来团队还将重点持续快速迭代底层多模态大模型能力,进一步提升高标准、高质量的可控生成水平,推动商业化的快速落地。
长期深耕基础理论,国内深度生成式模型领域的引领者
之所以能实现如此显著的技术优势,一切源自于团队多年在生成式模型理论方面的积累。生数科技研究团队主要来自清华大学人工智能研究院,长期致力于贝叶斯机器学习的基础理论和高效算法研究。早在2013年,就在国内率先开始了对深度生成模型、贝叶斯深度学习的研究工作,在生成式模型理论基础、高效学习和推理算法、模型预测性能提升,以及音乐生成、人脸合成、对抗攻击迁移性提升等应用方面均有诸多创新成果。团队于2017年发布贝叶斯概率机器学习平台“珠算”,这是国际上最早的面向深度概率模型的编程库之一,支持包括GAN、VAE、Flow等深度生成式模型在内的各种概率建模。
2020年以来,扩散模型(Diffusion Model)在图像生成等任务中展现出强大的生成潜力,催生了Stable Diffusion、Midjourney等明星应用。基于在生成式模型方向的多年深耕,生数团队也是在国内最早开展扩散概率模型基础研究的团队,覆盖基础理论、骨干网络、高速采样、可控生成等全栈底层原创研发能力,已于ICML、NeurIPS、ICLR等国际学术顶会发表相关论文20余篇,是目前在扩散概率模型领域发表论文成果最多的国内团队,并有诸多引领国际的代表性工作。例如,针对扩散模型采样速度缓慢、计算成本高的固有局限,团队从基础理论和底层框架层面提出解决思路,推动了图像生成领域的快速发展:2022年1月,提出了一种新颖的无训练推理框架Analytic-DPM,在无需额外训练的情况下,直接估计得到最优方差,大大加速了采样效率,相较传统模型DDPM加速了近20倍,该成果被评选为ICLR 2022杰出论文,同时被OpenAI应用于 DALL·E 2 模型处理策略中;同年6月,又提出了采样算法DPM-Solver,只用 10 到 15 步就能获得高质量的采样,该成果入选NeurIPS 2022 Oral,至今仍作为全球最快图像生成算法被Stable Diffusion等大量开源项目所采用。
值得一提的是,团队指导培养的多位学生也已成为生成式AI领域最顶尖的科研力量,包括扩散模型领域的知名研究者宋飏、宋佳铭以及ChatGPT两位华人研究者翁家翌、赵盛佳等。目前,生数科技还吸引了多位来自全球知名高校、顶尖科技公司和艺术机构的复合型背景成员,拥有多项全球领先的人工智能领域研究成果和十余项发明专利。唐家渝表示,作为当前科技领域最重要的演进方向,AIGC领域质变发展的关键就在于底层核心技术的持续突破,这也正是拥有深厚科研背景的生数科技所具备的核心竞争力之一。
以AI解放想象力,提升全人类的创造力和生产力
在AIGC的时代,创意的有限性将得以拓展和超越,在多模态生成式大模型能力的支撑下,人人都可以将心中多想快速地描绘出来,通过输入一段文字、一句语音或一幅图像就能创作一幅高质量的画作、一段音乐或视频。而在专业领域,生成式AI将作为想象力引擎,帮助创作者从简单、机械的工作中解放出来,更高效地服务于灵感的扩展和落地。
现阶段,生数科技正基于底层的多模态通用大模型,面向图像创作、3D资产创建的细分场景打造垂类应用。唐家渝表示,未来创作的物理边界也将被打破,例如将AIGC和传统3D打印等生产技术结合,可将所想的内容即时地生产出来,传统的生产制造模式也将迎来革新。AIGC时代已经全面开启,生数科技致力于成为新时代的AI基础设施和应用的建设者,通过打造领先的具备丰富模态感知与生成能力的AI产品,使每个人都能够从简单枯燥的任务和专业化工具的使用束缚中解放出来,不论是专业还是非专业人士都能将心中所想快速、自动化地实现,通过解放想象力进而提升全人类的创造力和生产力。