“清华帮”组队创业,要打破芯片能效天花板,对话苹芯科技CEO
导读:在创始团队光环加持下,苹芯科技从公开露面至今一直备受业界关注。就在本周,这家创企刚刚完成新一轮千万级美元融资,此前它已经完成三款存算一体芯片的流片,其科研成果还入选了今年举办的固态电路顶会ISSCC 2022。
作者 | 心缘
自文明诞生起,人类一直在寻求能够更加有效存储信息的方式。
从远古时代用结绳计数,到在木板、石块、纸本上记录文字,再到数字存储技术诞生,唱片、磁带、光盘、硬盘、闪存等风靡于世,每一轮存储介质的更新换代,都会开启新的市场机遇之门。
如今,创新帷幕再度拉开,被寄予打破“内存墙”限制、突破功耗瓶颈的存算一体芯片技术,在后摩尔时代拔地而起。
这在杨越眼中,是任何一次底层的技术革新都可能难遇的“人生机会”,可能每隔10年乃至更长时间,才会出现一次。
嗅到这一风向,2021年2月,一家领域专家集结的初创公司苹芯科技正式起航。
其核心团队技术背景深厚:由新型存储器及人工智能(AI)芯片领域知名学者、杜克大学电子与计算机工程系正教授、IEEE/ACM Fellow陈怡然,以及覆盖软硬件设计的技术专家杨越、章尧君、许振隆组成。
陈怡然和杨越是清华大学校友,陈怡然毕业于电子系,杨越毕业于自动化系,章尧君是陈怡然的首位博士毕业生,许振隆曾在台积电任职多年。
在创始团队光环加持下,苹芯科技从公开露面至今一直备受业界关注。就在本周,这家创企刚刚完成新一轮千万级美元融资,此前它已经完成三款存算一体芯片的流片,其科研成果还入选了今年举办的固态电路顶会ISSCC 2022。
苹芯科技联合创始人兼CEO杨越告诉智东西,苹芯除了目前三款IP芯片,今年下半年将有一款面向端侧低功耗应用的完整SoC流片,并以此规划打造完整“智能感知决策系统”,这颗SoC芯片将具备语音处理、人脸检测等多模态功能,用于完成系统商业化落地的目标。
一、清华“90后”师兄弟组队创业,要革传统计算体系的命
在清华园求学的那段时光,杨越和陈怡然并无交集,也不会想到多年以后,这位比自己大4届的师兄将在美国斯坦福大学旁的餐馆里,向自己发起组队创业的邀请。
1998年,杨越被保送进入清华自动化系,正值陈怡然学完本科课程、开启硕士学业。三年后,陈怡然赴美国普度大学读博士,期间索尼的一篇论文,给了他研发非易失性存储器技术的灵感。
杨越在清华读完书,又到加拿大多伦多大学计算机工程系攻读博士,开始接触存储相关技术,侧重研究软件方向。
另一边,毕业后的陈怡然选择先进入工业界历练一番。他曾在新思科技、希捷等芯片和存储名企做研发,早在2009年已经开始探索用非易失性存储器做神经网络加速。后来他转向学术界,2010年加入美国匹兹堡大学,后加入美国杜克大学电子与计算机工程系,长期潜心科研。
值得一提的是,因对新型存储器、神经拟态计算及深度学习加速等方面的学术贡献,陈怡然教授当选了IEEE和ACM双料Fellow。迄今他已发表近500篇论文,获得8次国际会议和研讨会的最佳论文奖、1次最佳海报奖和14次最佳论文提名,在存储及AI计算研究领域声名远扬。
杨越则在存储行业持续沉淀,先是博士期间参与创办一家固态硬盘(SSD)公司,并主要负责整个软件的开发测试;后来于2019年初到美国存储芯片巨头美光科技的3D XPoint组做首席系统架构师),其团队研发的前沿存储硬盘3D XPoint X100,性能比传统SSD快了1000倍。
▲杨越
就在他们专注于各自工作时,信息产业掀起一股新的巨浪——自2016年AI系统AlphaGo首次击败世界围棋冠军起,AI浪潮开始席卷全球,各类AI芯片如雨后春笋般破土而出。
彼时,传统的冯·诺依曼计算机体系架构,是大多数AI芯片的根基。但这类架构存在一大局限性:不必要的功耗浪费太多了。
对于动辄处理海量数据的AI计算来说,这种局限性日益显得捉襟见肘。该体系下,计算单元与存储单元完全分离,数据在两者之间频繁搬运,造成额外的延时和能耗开销。读写一次内存数据的能耗,甚至会比计算一次数据的能耗多几百倍。
当摩尔定律逼近极限,传统架构的芯片性能“天花板”近在咫尺,要做到10倍乃至100倍的性能提升,必须实现架构层面的颠覆式创新。
存内计算技术,作为极具潜力的AI芯片未来方向,终于从幕后走到台前。
随着新型存储器和AI硬件两大技术潮流交汇,计算与存储之间的界限变得模糊,一个史无前例的时代机遇,摆在了陈怡然、杨越等人的眼前——基于存内计算的底层架构创新,将是一条AI计算的通途。
二、“我们不想做第1001家AI芯片公司”
在斯坦福大学旁边,陈怡然跟杨越一起吃了顿饭,聊起创办存算一体AI芯片公司的想法。
两人一拍即合,杨越觉得,这非常符合他对新兴事物的追求,他相信存内计算的技术路线能将整个芯片系统的性能提上一个新的台阶。
顾名思义,存内计算方法用存储器做计算,从根本上解决时延、功率等方面的损耗,打破了“内存墙”、“功耗墙”的瓶颈,因此能做到数量级程度地提升相关的计算效率、能效比等核心指标。
再加上当前AI深度学习算法涉及大量矩阵乘加运算,这些矩阵摆放数据的方式与数据在内存中的存放方式相似,用存储器做AI计算加速的思路日渐成熟,各路资本也纷至沓来,争相下注。
此时不创业,更待何时?
另外两位技术大牛也决定和陈怡然、杨越组队“干大事”。
一位是章尧君,他毕业于上海交通大学,后在匹兹堡大学电子工程系读博士,师从陈怡然教授,他已在新型存储器领域工作十年,曾设计开发多款MRAM商用芯片。
另一位是许振隆,他本硕毕业于中国台湾新竹清华大学,多年任职于台积电,拥有逾
20年芯片设计经验,曾带领团队成功交付多款量产芯片。
当时参与规划组建这个团队的,还有同为清华校友、现任清华大学电子工程系系主任的汪玉教授。汪玉曾参与创办国内明星AI芯片企业深鉴科技,后来该公司被全球FPGA龙头赛灵思收购,他与杨越还是高中同窗。
就这样,2021年2月,苹芯科技呱呱坠地。
存内计算的英文是「Processing in memory」,缩写为PIM,苹芯科技的英文名「PIMCHIP」便由此而来。“苹芯”的“苹”,即是PIM的谐音。
苹芯创始团队兵分两路,陈怡然教授作为董事长总揽全局,CEO杨越和CTO章尧君在北京搭建起苹芯的初始团队,负责整个系统的研发;许振隆则带队负责搭建存内计算的内核。
“我们不想做第1001家AI芯片公司。”聊起创业初心,杨越希望在AI时代背景下,将苹芯科技发展成为非冯·诺依曼架构新计算范式的引领者。
在他看来,用一个新的技术去解决一个旧的问题,这没什么意思,存算一体的使命不只是为了迎合市场需求,而应该去开辟一些新的战场,这才是创新技术的长远价值所在。
“我们更多思考的是,在人工智能时代里面,关注的点到底是什么。你要去做1001家AI芯片公司,还是去为一个之前没有智能化的公司完成智能化转型,哪一个对我们来说是更有意义的?”
三、创业半年,SRAM存内计算加速器测试成功
什么对苹芯是更有意义的?
为了回答这个问题,苹芯团队走访了很多客户,了解对方的痛点、对技术的要求,以及能利用技术实现什么核心价值。
“我们一直对技术抱有敬畏之心,在战略层面沿着先做技术、再做平台、然后做产品的思路,发展过程中几条腿同时走路。”杨越相信比起与巨头狭路相逢,初创公司的机会更多是在细分领域中,能够快速迭代,了解新领域的know-how,快速满足用户的刚需。
令杨越很有成就感的是,苹芯的团队氛围非常融洽。“我能感觉到大家每天都是非常希望来上班的,工作目标、职业规划都制定得很清晰。”
在他眼中,这是一群特别靠谱的工作伙伴。
作为一家初创公司,苹芯必须保持很快的流片节奏。第二款芯片流片测试完成后,大家非常淡定,出去吃了顿简单的庆功宴,便马不停蹄地开始推进下一个研发任务。
2021年9月7日,苹芯科技宣布其基于SRAM架构的存内计算加速器S200已经测试成功。它可以将深度学习算法中占主导的基本运算在存储器内完成,能大幅提升计算效率,并能完成无损精度的运算。苹芯团队称,这款加速器「首次将商用存内计算带入28nm时代」。
▲S200芯片性能参数概览
该成果还发表在有“固态电路领域奥林匹克”之称的芯片顶会ISSCC 2022上。其32Kb无ADC架构SRAM存内计算加速单元基于28nm工艺搭建模块,能效比高达27.38TOPS/W INT8,同时实现1.041Mb/mm2的高面效比。
而在同等条件下,世界上多数加速器测试结果,通常介于2-3TOPS/W之间。
足足将能效比提升10倍,苹芯是怎么做到的?
四、两大技术优势,三个未来目标
苹芯的存内计算加速器S200有两大技术优势:28nm工艺和全数字化设计。
杨越说,选择28nm是综合考虑的决定。先进节点固然能带来更高性能,但也意味着更高的流片和量产成本,这与端侧芯片对成本的苛刻要求相矛盾。28nm则相对成本更低,同时也能展现出SRAM向高级制程节点兼容性好的优势。
此外,多家晶圆代工厂具备28nm制造能力,在供给产能方面更加稳定和充裕。
S200的另一重优势,是全数字化设计。
以前存内计算芯片主要是模拟芯片,优势是能效高,但会牺牲一定精度。而苹芯研发的无ADC架构SRAM存内计算加速单元,不仅能保障精度,能效性也能做到更加领先。除了整型数据的支持外,杨越提到浮点数据也在苹芯的技术支持范围内,处于持续优化验证的过程中。
▲苹芯科技存算一体AI芯片实物照片
软件研发同样是AI芯片公司的战略重心。
据杨越观察,端侧客户相对没那么关心芯片底层设计,他们更在乎端侧芯片的实际表现,包括性能、成本以及好不好用,有三种常见诉求:一是易用性,即上手不费劲;二是可定制性,客户可能有自己的算子,有二次开发需求;三是可扩展性,当硬件计算能力升级,软件不能成为瓶颈。
苹芯也非常重视软硬件协同工作,定义有自己的指令集,并围绕上述诉求展开研发,既支持做定制,又顾及升级至数百TOPS板卡时的支持。杨越透露说,苹芯还在做Turnkey方案的准备。
为了公司能够坚持自有发展战略规划的实施,苹芯在初期客户与合作伙伴的选择上非常慎重,除了发展理念的契合,还会考虑客户业务需求面临的痛点是否主要由传统冯·诺依曼架构的瓶颈导致。现阶段,他们希望能通过更多实践,能够充分展现存内计算技术的优势,让这一先进技术能够真正扎根于实际应用,并拓展更宽广的未来。
谈及未来三年目标,杨越说,首先是实现落地,二是继续巩固苹芯在SRAM存内计算方向的领先地位,三是在新型存储器研发方面有所突破。
“我们要维护苹芯本身的技术先进性和领先性,因此不管在SRAM还是新型存储器方向,我们都在持续进行着最前沿的探索。”杨越说。
五、探索打开高能效计算之门的金钥匙
在杨越看来,存算一体AI芯片公司直面的竞争对手不是彼此,而是那些传统的AI芯片公司。
“我觉得市场并没有进入同质化竞争的阶段。”他谈道,“更重要的是大家要拧成一股绳,把存内计算技术的先进性和可落地性展现出来。”
相较传统AI芯片,存算一体AI芯片的挑战会更加宽泛。存内计算本身是一门技术壁垒森严的设计方法学,需要多年经验积累、大量资源以及时间投入才能实现。也正因此,过去六年,存算一体AI芯片创业几乎均由技术专家主导。
▲国内在研存算一体AI芯片的企业(智东西制表)
当前存算一体AI芯片创业呈多元化趋势,有模拟芯片与数字芯片之分,有NOR Flash、ReRAM、SRAM、MRAM等不同新型存储器。其目标市场也各不相同,从可穿戴设备、智能家居、视频监控到智能驾驶、云端数据中心应有尽有。
这种“各自为政”的特点,使存算一体很难出现一个统一的编程标准,大家都是针对自己的应用场景和性能目标,各建各的软件栈。无论选择小算力还是大算力应用,企业都得摸着石头过河。
考虑到现阶段的实际情况与技术发展的现实规律,苹芯团队选择先在小算力上完成全技术通路和商业通路,积累更多能力后,再将算力做大。
▲当前主流AI芯片设计对比(智东西制表)
之所以选择SRAM来完成技术验证与落地,苹芯团队主要出于四点考虑:
一是SRAM在存储器历史长河中长期存在,技术相对成熟,稳定性和良率都有保障;二是它具备先进节点的兼容性,客户从65nm升级到16nm,能保证继续使用;三是在开发接口方面比非易失性存储器更简单;四是非常短的读写延迟和无限次的in-place擦写次数。
尽管SRAM属于易失性存储器,掉电后数据就丢了,但AI实际应用很少出现按分按秒的频繁断电情形,否则这对计算体系结构的其他部分伤害很大,是一个应该主要规避的问题。
杨越认为,无论从算力还是落地容易程度来看,SRAM最先可能在端侧取得较大规模的产业化。
AI时代的终端及边缘计算需求日益旺盛。如果所有计算都传至云端处理,传输过程会造成时延;此外,很多用户不愿意将自己的隐私数据上传至云端,AI计算本地化的需求正在兴起。这对AI芯片带来新的要求——更高效率、更低功耗,而基于SRAM的存算一体方法恰恰擅长于此。
“每一个SRAM的内核能够做到多少绝对算力,我们非常清楚。”杨越说,芯片的算力、面积、效率等基础指标互相牵制。如果想突出高能效比及成本等优势,那么算力难免要做些平衡。
相比其他类型的存储器,SRAM存在单元面积偏大、存在静态功耗高、成本略高等问题,但杨越认为,仅从SRAM本身来考虑,是不全面的。
存内计算在系统中扮演协处理器的角色,要比的不止是存储器,而应该从整个系统层面来看性能表现和成本影响。SRAM的这些短板,可以通过系统设计来矫正差距。
例如,端侧发生的大多事情都是主控设备不感兴趣的,利用这一特点,苹芯降低功耗的解决方案是在设备待机时将大部分SRAM存算单元关掉,只预留一个睡眠模式,在最小的模块里保持监测状态,当物体检测、语音交互等感兴趣的事件发生时,存内计算模块才会被唤醒。
当前存算一体芯片的拳头优势是能效比,其高能效比主要体现在存储单元层,但这个数字还没有跨越到系统级。这是因为内核与系统之间的通信,会受带宽和其他数据处理需求的限制,很多存内计算资源没有被饱和地利用起来,从而没有最大化的发挥存算一体的优势。
苹芯正在做面向存算一体的AI算法改良工作,即通过软硬件协同设计,提高计算单元利用率,释放其在兼顾吞吐量和效率方面的优势。
考虑到存储密度的限制,目前SRAM更适合做计算密集型应用。但在真实应用场景中,很多网络模型非常复杂,可能存储密集与计算密集兼而有之,因此苹芯还计划研发一个混合设计架构,让ReRAM或MRAM和SRAM搭配协作,不同的存储器各司其职,最终获得更好的整体性能。
毕竟,谁能率先设计出兼顾计算密度与存储密度的存内计算硬件架构,谁就拥有了打开高能效计算之门的金钥匙。
六、60个问题与CEO角色适应
现在,杨越的笔记本电脑里,正躺着一个长期思考的问题清单,里面已经列了60个关乎公司发展的重要问题,足足填满了5页slides。
杨越说,他需要化繁为简,先去解决前三项最重要的问题。
最近他在看一本书《我在硅谷管芯片:芯片产品线经理生存指南》,这是一位硅谷芯片产品线经理写的,总结了芯片设计、生产、销售、管理到市场营销和升级维护的工作全流程。
他觉得,CEO应扮演好两个角色,一是有销售的属性和精神,是一种不达目的不罢休的精神;二是成为一个好的产品经理,努力提升整个公司的一个形象和品牌,完成技术变现。
对于已在海外生活多年的杨越来说,回国创业意味着要融入新环境,但他并没有为此感到负担。他更看重“能够有机会参与科技的变革和升级的浪潮,并有幸做出贡献。这些人生际遇与经历的价值将远远胜过安稳的生活。”
“我这个人适应能力和学习能力都非常强。”杨越回忆起创业初期,朋友们给了他很多有价值的参考意见。如果非要说有什么需要适应的,那大概是环境的改变:国内外创业氛围大不相同,国内的创业冲劲好过世界上任何一个国家,节奏相对更快、对结果要求更多,而国外很多创业团队以技术为导向,更在乎对技术本身的追求。
“我本身是有技术洁癖的人,如果看到一些技术上的不求甚解,或者说没有打破砂锅问到底的态度,我都会指出并提出严格的要求。” 创业后,杨越的思维发生了一些转变,做公司不止是在技术上展现控制力,而是要在整个行业逐渐树立一个“先行者”的角色。
压力当然也是有的。
“每天都是在救火状态,”杨越说,每天大大小小的挑战接踵而至,包括公司的战略发展制定、合作伙伴沟通、日常运营,甚至研发中的debug,跟一众芯片公司抢夺人才等等。
由于苹芯团队扩张很快,他们还总是面临办公室空间不够用的问题。还有一些突发事件的应急。比如,今年上半年,连绵不绝的新冠疫情,给苹芯做封装、板级demo等方面带来一些进度延迟。因此,杨越还在持续学习、自我提升。
工作之余,他也会参加一些体育活动,比如他喜爱的足球。“在创业之后,踢球的时间越来越少,所以非常珍惜每次踢球的时间。”原来在上大学时,杨越曾是清华自动化系的足球队队长,获得过校联赛冠军;出国后,他还在高手云集的多伦多华人联赛中获得过最佳射手。
七、先让第一家客户用起来
现阶段的苹芯,面临“理想与面包”的选择问题。其商务拓展战略团队分布很广,既有跟进消费电子类的,也有智能制造、智慧农业等方向。
杨越很清楚,等需求到眼前再行动,会很被动。尤其是创企,必须主动创造需求,将技术带来的直观价值送到客户面前。AI芯片公司得先贴上一个“能落地”的标签,让第一家、第二家客户用起来,第三家到第一百家客户才会接踵而至。
“我们根本逻辑是想去解决一些能够拓展认知边界的问题,这样才叫人工智能。”杨越说,很多人希望AI将人类能完成的事情做到更好,但这不是AI真正的意义所在。“我们的想法是,让AI去完成人完成不了的事情,或者说是很难去完成的事情,换句话说,它应该去做雪中送炭的事,而不应该去做锦上添花的事。”
据他判断,AI的杀手级应用还在探索过程中,市场有巨大的开拓空间,目前AI芯片市场仍然处于爆发前的势态。但他相信很快将有一两家AI芯片公司,在非消费电子类行业里打开一个市场。
今年上半年,半导体行业普遍面临的资本缩圈问题,但杨越发现,也许是得益于技术先进性,这一趋势对存算一体芯片企业的融资进程和估值并没有造成很大的影响。不过他也观察到,技术先进性已经不是资本唯一的考量标准,现在投资正慢慢回归理性,投资机构要看落地方向、财务预期,以及一些芯片创业的经典逻辑。
看向未来,存算一体AI芯片要走向大规模商业落地,他认为关键在于解决市场需求问题。回顾当年美国半导体的兴起,科学及产业政策的驱动起到很大助力,仅靠补贴、优惠等策略,不足以解决实际需求问题,要带动上游芯片产业的发展,必须鼓励下游的企业使用新的技术产品。
在杨越看来,现阶段存算一体AI芯片产业发展面临的主要变量,是政策层面如何帮助芯片公司实现收入的从负转正,即构建正确的商业营收模型,帮助半导体公司生存下来。
至于技术难题,那终将会被克服。
结语:站着走出去,才是胜利
时间过得很快,苹芯科技转眼已创办18个月了。
芯片架构创新的必要性,正随着摩尔定律放缓而愈发凸显。当制程工艺演进逐渐逼近物理极限,后摩尔时代的芯片优化路径,需要借助先进制程、先进封装与架构创新的组合拳。
不同时代对计算的要求不同。某种程度上,杨越希望苹芯能够成为「人工智能时代的Arm」。
就如当年Arm解决了移动端的芯片需求,现在,苹芯团队也看到了类似Arm当年的机会——当一个硬件设计和创新,能实现更可靠、更稳定的AI计算,能做到多、快、好、省,那么终端智能将变得无处不在。
在充满变动的时代背景下,苹芯团队对很多事情也提前做好最坏的打算,为此储备粮草,控制好现金流,专注提升核心竞争力,持续提高自身抵抗风险的能力,以期走得更加长远。
进门虽已属不易,能站着走出去,才是胜利。