在巨头阴影下 AI芯片初创企业如何突围?
导读:AI芯片这个江湖,依旧是英伟达以GPU独霸江湖,在图形处理方面占据着绝对的优势,市场占有率达到了一半以上,英特尔、谷歌、亚马逊等巨头也纷纷追赶,不过江湖凶险,在AI芯片这块宝地还未明朗之前,谁也不敢确定会发生什么。
人类历史上第一次出现人工智能这个词,已经是半个多世纪以前的事了。近年来,在深度学习的驱动下,人工智能浪潮走入了一个新时代,AI芯片也遍地开花,创业公司如雨后春笋般出现。但是,AI芯片这个江湖,依旧是英伟达以GPU独霸江湖,在图形处理方面占据着绝对的优势,市场占有率达到了一半以上,英特尔、谷歌、亚马逊等巨头也纷纷追赶,不过江湖凶险,在AI芯片这块宝地还未明朗之前,谁也不敢确定会发生什么。
1.什么是AI芯片?
一般来说,AI芯片被称为AI加速器或计算卡,即专门用于加速AI应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。AI的三大关键基础要素分别是是数据、算法和算力。传统的 CPU一般都不是很适合人工智能算法的执行,主要原因在于其计算指令遵循串行执行的方式,没能发挥出芯片的全部潜力。与之不同的是, GPU 具有高并行结构,在处理图形数据和复杂算法方面拥有比 CPU 更高的效率。其实这个道理很简单,CPU负责逻辑推断,GPU负责处理图形数据处理,GPU拥有大体量的逻辑运算单元用于数据处理,对于密集型数据可以进行并行处理。最近提出的NPU以及谷歌的TPU都是整合数据、加强算力的一种手段,在CPU时代由于图形处理对性能提出更高的要求而出现英伟达,在下一个人工智能时代,在大数据驱动的时代,谁会抢下新一代处理器的算力巅峰成为下一个独霸江湖的王者呢?
2.下一个风口——通用
目前, GPU在训练方面已经发展到较为成熟的阶段。谷歌、 FACEBOOK、微软、 TWITTER 和百度等公司都在使用 GPU 分析图片、视频和音频文件,以改进搜索和图像标签等应用功能。但是英伟达也存在很大的问题,深度学习算法分为训练和推断两部分, GPU 平台在算法训练上非常高效。但在推断中对于单项输入进行处理的时候,并行计算的优势不能完全发挥出来。
由此,一些企业将目光投向专用处理芯片,专用处理芯片可以分为定制的ASIC和半定制的FPGA两大类, FPGA的前期启动成本低,后期可以进行再编程,但这种优势是以更高总成本、功耗以及牺牲性能为代价;ASIC运行速度比FPGA快,但设计和制造周期更长,适应性差,目前边缘计算和嵌入式应用市场应用较多。很多初创公司则往往从门槛较低的专用芯片入手。
在AI技术日趋复杂,用于实现智能化的神经网络架构越来越多的今天,“通用”才是AI的未来。它最理想化的方式是淡化人工干预的通用智能芯片,必须具备可编程性、架构的动态可变性等特点。就目前而言,实现通用AI的主要直面两大挑战:一是通用性(算法和架构),二是实现的复杂度。通用AI芯片的复杂度来自于任务的多样性和对自学习、自适应能力的支持。因此,我们认为通用AI芯片的发展方向不会是一蹴而就地采用某一种芯片来解决问题,因为理论模型和算法尚未完善。最有效的方式是先用一个多种芯片设计思路组合的灵活的异构系统来支持,各取所长,取长补短。一旦架构成熟,就可以考虑设计SoC来在一个芯片上支持通用AI。
目前,在AI芯片领域,由于在图形处理方面的出色表现,英伟达处于一家独大的局面,占据全球AI芯片50%以上市场份额。此外,英特尔作为多年的芯片巨头,英伟达保持了极大的投入力度,快速提高GPU的核心性能,增加新型功能,保持了在AI训练市场的霸主地位。
3.挑战英伟达
如果说云端训练芯片是NVIDIA一家独大,那云端推理芯片则是百家争鸣,各有千秋。 相比训练芯片,推理芯片考虑的因素更加综合:单位功耗算力,时延,成本等等。AI发展初期推理也采用GPU进行加速,目前来看,竞争态势中英伟达依然占大头,但由于应用场景的特殊性,依据具体神经网络算法优化会带来更高的效率,FPGA/ASIC的表现可能更突出。除了英伟达、谷歌、英特尔、赛灵思等传统芯片大厂涉足云端推理芯片以外,越来越多的初创公司也加入竞争,其中有一家以色列芯片公司Habana Labs十分突出。以英伟达在图形处理和算力方面的绝对优势,在人工智能芯片领域甚至未将英特尔、谷歌当作竞争对手,英特尔专注CPU、谷歌则精力多在于AI落地,这二者都不会对英伟达超过一半的市场份额造成冲击,英伟达方面曾提到,对自己未来在AI领域市场份额造成冲击的反而是一些新兴芯片企业,Habana就是其中之一。
这家芯片公司成立于 2016 年,在去年 9 月,Habana 曾推出名为 Goya 的人工智能推理芯片,并已拥有很多客户。而在去年 11 月,Habana 完成了价值 7500 万美元的 B 轮融资。去年 9 月,Habana 公司推出的 Goya 人工智能芯片着实吸引了一把眼球:其在 ResNet-50 上,四倍于英伟达 Tesla T4 的处理性能,两倍的能耗比,仅仅 1.01ms 的处理延迟让人们感受了 ASIC 的强大能力。
4.从零开始——Habana的架构优势
为何在更小的功耗下,Habana 的芯片有着更强的机器学习算力?答案在于架构。“CPU 和 GPU 的架构是以解决和深度学习完全不同的任务为导向构建的,CPU 面向通用计算,GPU 面向图形处理,”Habana 首席商务官 Eitan Medina 介绍道。“在人工智能方面,GPU 的成功几乎是“偶然”的,因为它具有更高的并行度。然而如果你从零开始,观察神经网络的特性的话,投入足够精力,你就可以获得一个更好的架构。这就是 Habana 正在做的事。 ”
“人工智能处理器的性能包括两点,计算和延迟。” Eitan Medina认为,原用于通用计算的GPU和CPU,适用于人工智能计算处理时,在架构上存在“先天不足”,因此从性能方面看,针对AI需求设计的专用芯片架构存在优势。
Habana自然考虑到了这点。据Eitan Medina所说,公司工程师从最早、最基础层面就开始对芯片的架构进行了设计,专门针对AI需求。其团队成员也主要来自处理器、DSP、系统设计以及网络设计等领域全球知名企业的精英,能够支持Habana从软件到硬件的研发需求。 在谈及处理器架构的时候,Habana中国区总经理于明扬表示,两款处理板卡的性能提升完全是来源于架构,而不是因为工艺。目前在Habana的研发投入中有有大约60%的人力是进行软件开发的,Habana在开始做AI芯片之前,其实是一个软件公司,所以他们非常了解软件工程师的想法,知道该在何处发力。
正如计算机科学家兰德艾伦K曾经说过:“真正认真对软件的人应该做自己的硬件。”,Habana由一个软件公司上溯到硬件,这种模式使其能够更好地整合硬件资源,目前Habana发布的Goya和Gaudi两款板卡都是采用16nm工艺,由台积电代工。
支持RDMA是AI训练芯片的下一代发展方向,也是Gaudi作出的突破之一,Gaudi更进一步,集成了RDMA over Converged Ethernet(即RoCE v2)功能,从而让AI系统能够使用标准以太网扩展至任何规模。Gaudi 中集成了 10 个 100GbE 带宽的 RoCE RDMA 以太网端口。这意味着 Habana 的用户可以用常规以太网环境实现扩展。并行处理就是在训练过程中把任务分解到每个处理器上,再通过高速网络把运算结果联系到一起。Habana 的芯片通过以太网链接可以实现树状结构的层级化,达到接近完美的吞吐效率。
Habana表示,其愿景是成为人工智能芯片领域的领导者。不过在目前AI大势未明之前,一切都有可能吧,让我们拭目以待。