AMD CTO访谈全文：AI推理芯片需求猛增，GPU供应短缺必将缓解

来源：华尔街见闻　发布时间：2024-03-04 11:27:54　编辑：夕歌

导读：AMD在这场AI芯片热潮中一路狂奔，华尔街仍用空前的热情为“英伟达最强劲的挑战者”买单。3月1日，AMD继前一日大涨9%后再涨超5%，股价创收盘历史新高。本周累涨14.8%，今年迄今涨幅达到30.6%。

AMD在这场AI芯片热潮中一路狂奔，华尔街仍用空前的热情为“英伟达最强劲的挑战者”买单。3月1日，AMD继前一日大涨9%后再涨超5%，股价创收盘历史新高。本周累涨14.8%，今年迄今涨幅达到30.6%。

AMD CTO及执行副总裁Mark Papermaster近期参加了播客节目《史无前例：人工智能、机器学习、技术与初创企业》，回答了AMD的战略、最新的GPU进展、推理芯片部署的位置、芯片软件栈，以及他们如何看待供应链，投资者应该对于2024年的AMD有哪些期待等问题。

主要内容包括：

与竞争对手相比，AMD的MI300芯片提供了更高的性能、更低的功耗和更少的架构空间，实现了更高效的计算。

AMD致力于开源因为它强化了合作和创新，通过不断开放其关键技术如ROCm软件堆栈，让客户可以自主选择，而不是把客户困在封闭系统中。

AMD确保其产品在主流深度学习框架上经过彻底测试和认证，并提供了高性能、稳定且易于部署的解决方案。

AMD获得了大量对AI定制推理芯片的需求，这些需求覆盖了广泛的嵌入式应用场景。因此，随着这一趋势的发展，AMD将提供更多定制化计算产品来回应这一需求。

当前GPU的供应仍然受到限制，但随着供应链逐步完善，未来供应限制将会消失。

电力是芯片产能后一个关键的限制因素。所有大型大语言模型运营商都在寻找电力来源，对于AMD这样的开发者来说，应该更关注能效，我们会在设计的每一代产品中推动能效的提高，这绝对是最高优先级之一。

摩尔定律正在放缓，而AMD异构计算可以为不同的应用部署合适的计算引擎，如在个人电脑和嵌入式设备中配置超低功耗AI加速器，利用芯片组合成一个整体，选择最佳技术节点，并考虑软件堆栈的设计。

步入云计算时代，计算负载越来越多地转移到服务器上，因此AI硬件公司在设计产品时应将减少延迟作为主要考虑。

2024年AMD将完成对其整个产品组合的AI效能，预计在云端、边缘计算、个人电脑、嵌入式设备及游戏设备等方面实现重大部署。

以下为全文问答整理：

问：你能先告诉我们一些你的背景吗？你研究了各种有趣的东西，从iPhone和iPad到最新一代的AMD超级计算芯片。

答：当然，我在AMD有一段时间了。真正有趣的是，我进入这个行业的时机非常好，作为德克萨斯大学电气和计算机工程专业的毕业生，我对芯片设计非常感兴趣，而我又生在芯片设计正在彻底世界的时代，今天每个人都在使用这种并研究技术。CMOS刚刚投入生产和使用。所以我参加了IBM的第一个CMOS项目，并创建了一些第一个设计。

我必须亲自动手，从芯片设计的每一个方面，在IBM工作了几年，我担任了不同的角色，推动微处理器的发展。首先，在IBM公司，有电力公司的PC。这意味着与苹果和摩托罗拉合作，以及我们在大型主机和大型风险服务器中使用的大型计算芯片。

真正得到了技术的各个方面，包括他们的一些服务器开发工作。但后来转向了苹果。史蒂夫·乔布斯（Steve Jobs）雇我运营iPhone和iPod。所以我在那里呆了几年。这是一个行业在下午发生重大转变的时刻。对我来说，这是一个很好的机会，因为我在2011年秋季结束了在AMD的工作，既是首席技术官，又负责技术和工程。就在摩尔定律开始放缓的时候，因此需要巨大的创新。

问：是的，我想谈谈这一点，以及我们在计算创新方面可以期待什么。如果我们不只是在做梦，芯片上更多的晶体管无法做到这一点。我想，我们的每一位听众都听说过AMD，但你能简要介绍一下你服务的主要市场吗？

答：AMD是一家有50多年历史的故事公司。它一开始作为第二供应商公司，带来了真正关键组件和x86微处理器。但你快进到我们今天所处的位置，这是一个非常广泛的投资组合。10年前，当我们的首席执行官Lisa Su以及我进入公司时，使命是让AMD重新获得非常非常强大的竞争力。

超级计算一直是AMD的重点。大约十年前，我们就开始恢复我们的CPU路线图。我们重新设计了我们的工程流程，其中之一就是采用更加模块化的设计方法，即我们开发可重复使用的部件，然后根据应用需求将其组合在一起。

我们投资开发了一系列新的高性能CPU，同时还努力将GPU提升到更高性能。这两种类型的处理单元都很重要，因为超级计算就是异构计算。它需要CPU和GPU协调工作，共同完成最繁重的任务。

世界上最强大的超级计算机就采用了AMD第三代霄龙7A53 64核心处理器和Instinct MI250X GPU加速器。

就在2022年2月，AMD收购半导体制造商Xilinx，对电子行业的合并产生重大影响，从而进一步扩大了投资组合，这次收购扩大了AMD的投资组合，使其在超级计算机、云计算、游戏设备和嵌入式设备等领域都有所涉足。AMD还收购了平桑托公司，进一步扩展了产品组合。

问：AMD在过去的十年里公司取得了令人瞩目的成就，尤其是在人工智能领域。自从你加入公司以来，一直在强调人工智能的重要性。过去十年中，人工智能的应用发生了巨大的变化，不仅包括传统的卷积神经网络（CNN）和循环神经网络（RNN），还包括变压器模型、扩散模型等新型架构的应用。

你能告诉我们更多关于最初在人工智能领域引起你注意的事情吗？那么随着时间的推移，AMD是如何开始越来越关注这一点的呢？你想出了什么样的解决方案？

答：我们都知道人工智能的发展早就开始了，竞争开始于应用程序领域的开放。而AMD的GPU在这场竞赛中发挥了关键作用，特别是在图像识别和自然语言处理方面的准确性提升方面。AMD意识到了人工智能领域的巨大机遇，并制定了深思熟虑的战略，以成为该领域的领导者。

因此，看看AMD在2012年到2017年之间的情况，其大部分收入主要基于个人电脑（PC）和游戏领域。

所以，关键是确保投资组合在构建系统模块化方面具有竞争力。这些基石必须是在领域的领导力，必引人们在AMD平台上使用高性能应用程序。因此，首先，我们实际上必须重建CPU路线图。那就是我们发布了Zen微处理器，在个人电脑上有一个Rising系列，以及在x86服务器系列中的Epic。所以这开始了公司的收入增长，并开始扩展我们的投资组合。

大约在同一时间，当我们看到异构计算的发展方向时，在我加入公司之前就已经提出了异构计算的理念。在Lisa加入公司之前，AMD进行了一次重大收购——收购了GPU制造商ATI，从而将GPU技术纳入了公司的产品组合，这是我被AMD的CPU和GPU技术吸引而加入了公司的原因。

事实上，它是唯一一家将CPU和GPU融合到一起的公司。对我来说，行业需要串行、标量、这些传统CPU工作负载的竞争，以及从GPU获得的大量并行处理能力, 因此AMDk考虑通过异构计算模式将它们结合在一起，以满足不同类型的计算需求。

我们早在2011年就开始为个人电脑应用程序制造联合CPU和GPU芯片，这比任何其他公司都要早。我们称之为APU（加速处理器单元）。然后，对于大数据应用程序，我们首先从HPC（高性能计算技术）开始，这种技术在国家实验室中使用，也在石油勘探公司中使用。因此，我们首先专注于大型政府招标项目，最终导致了我们在世界上最大的超级计算机中拥有AMD CPU和MDGP US。

这项工作几年前就开始了，它同样是硬件和软件的努力。我们一直在建立这种硬件和软件能力，直到去年的2023年12月6日，我们宣布了我们的旗舰产品MI300，分别为纯 GPU 的 MI300X 与 APU 架构的 MI300A，均采用 HBM3 内存，容量 192GB / 128GB。也是为高性能人工智能应用程序优化的一个变体，能够同时面向训练和推理。

所以这是一个漫长的旅程，我们很高兴我们的销量开始起飞。

问：现在太棒了，我猜当你推出MI300时，你得到了Meta、微软购买它的承诺。刚刚提到你对一系列应用程序感到非常兴奋。你能告诉我们更多关于你最感兴趣的或者今天最看好的应用程序以及云端应用部署的方面吗？

答：当然，当考虑到人工智能的主要应用领域时，你仍然会看到巨大的资本支出，为了提升大语言模型的准确性，包括训练和推理领域。这些模型像ChatGPT、Bard和其他语言模型一样，您可以向它们询问任何问题，它们试图吸收海量的数据，来对模型进行训练，这的确是人工智能和通用人工智能的终极目标。

这就是我们的重点所在。MI300是为了开始实现这一目标的，它是一个可以与行业领导者竞争的典范产品。事实上，MI300已经做到了,它在训练方面具有竞争力，且在推理方面领先，具有巨大的性能优势。我们为训练或推理处理所需的数学处理创建了非常高效的引擎。但我们也提供了更多的内存，以实现更高效的计算。

与竞争对手相比，MI300提供了更高的性能、更低的功耗和更少的机架空间，实现了更高效的计算。

问：竞争的一个重要方面，正如你刚才指出的那样，包括性能，例如整体性能，还有效率，以及软件平台等等。你如何考虑在优化数学库上的投资？你希望开发人员如何理解你们的方法？与竞争对手相比，你们的指导方式是什么？

答：这个问题非常好，在这个芯片领域竞争是多方面的。你会看到很多初创公司进军这个领域，但大部分的推理工作目前都是在通用目的的CPU上完成的，对于大型语言模型应用，几乎都是在GPU上完成的。

由于GPU在软件和开发人员生态系统中占据主导地位，因此AMD开始关注GPU的发展，在硬件和软件方面取得了成就。我们在CPU上是有竞争力的，我们的份额正在快速增长，因为我们拥有一代又一代非常强大的CPU。

但对于GPU，直到现在我们才真正开发出世界一流的硬件和软件。我们所做的是确保GPU的部署过程尽可能简单，强调利用所有GPU的语义，使得编码变得更加容易，尤其是对于使用低级语义的编码人员而言。我们支持所有重要的软件库和框架，包括PyTorch、ONNX和TensorFlow等，与开发人员密切合作，以确保他们的GPU能够与各种不同的软件环境无缝集成，并为开发人员提供灵活和高效的工具。

现在，由于我们拥有具有竞争力和领导力的产品，你会看到当你们使用AMD进行部署时非常容易。比方说，AMD与Hugging Face等合作伙伴紧密合作，确保他们的大语言模型在AMD平台上进行测试，并保证在与英伟达等其他平台上的测试结果表现相当。

同样，AMD在PyTorch等主流深度学习框架上也进行了测试，并成为了少数几个获得认证的产品之一，意味着AMD与他们的产品完全兼容。AMD也会定期进行回归测试，确保产品在各种情况下的稳定性和可靠性。AMD积极与客户合作，包括与一些早期采用其产品的公司合作，以获取反馈并优化产品。这有助于AMD确保他们的产品能够顺利部署，并在现有的业务环境中无缝运。

另外，AMD与一些早期合作伙伴进行合作，帮助他们将自己的大型语言模型（LLMS）部署到AMD的云端和机架配置中。这种合作意味着AMD已经开始与客户合作，并提供服务，以确保他们的产品能够在客户环境中顺利运行。

在AMD的十二月活动中，其他合作伙伴也站在了舞台上，这表明AMD与其他重要的合作伙伴合作，其中包括一些超大规模的合作伙伴。这种合作扩大了AMD的合作范围，并有助于将其产品推广到更广泛的市场。AMD还与许多OEM应用程序进行销售，并直接与客户合作。通过与客户直接合作，AMD可以更好地了解客户需求，并根据反馈加速产品的改进和优化过程。

这是一个非常受限制的环，缺乏竞争对每个人都不利。顺便说一句，如果没有竞争，行业最终会停滞不前，您可以看看在我们带来竞争前的CPU行业。它真的变得停滞不前了。你只是得到了渐进的改进。行业知道这一点，我们与众多伙伴建立了巨大的合作关系，我们对此非常感激。

作为回报，我们将继续提供一代又一代有竞争力的产品。

问：谈一谈rocm软件栈的开源原因、动机或者价值观。

答：这是个好问题，ROCm是AMD的开源GPU计算软件堆栈，旨在提供一个可移植、高性能的GPU计算平台。对于公司来说，开源是一个非常重要的问题，因为他们非常注重合作和开放的文化。开源技术将技术开放给了整个社区，这有助于推动技术的发展和创新。AMD的历史上一直致力于开源，CPU编译器LLVM就是一个开源项目。除了CPU编译器和GPU之外，我们还开放了ROCm软件堆栈，是他们的基础架构，对于赢得超级计算方面起着重要作用。选择支持开源的原因是因为相信这种开放的理念，同时强调这也是公司的理念之一。

所以，在2002年将 Xi Links 和 AMD 结合在一起，我所做的不仅仅是加深了对开源的承诺，关键是，我们不想通过专有的封闭式软件堆栈来锁定某人。我们想要的是以最佳解决方案取得胜利，我们致力于开源，并且致力于为我们的客户提供选择。

我们期望凭借最佳解决方案获胜，但我们不会将客户困在某一特定选择中。我们将凭借一代又一代的优势赢得胜利。

问：我认为目前发展迅速的一个领域是人工智能计算的云服务。显然，有来自微软的Azure、亚马逊的AWS和谷歌的GCP这样的超级云服务提供商。但也有其他新兴的参与者，比如BaseTen和ModalReplicate等。可以说，它们在提供不同的工具、API端点等方面提供了差异化的服务，而这些超级云服务提供商目前尚未具备。另外，它们部分原因是拥有GPU资源，而目前GPU资源短缺，这也推动了它们的利用率。在未来3到4年内，您如何看待这个市场的发展？也许GPU会变得更加易于获得，不再出现短缺或限制的情况？

答：这确实正在发生。我认为供应受限的情况将会消失，这是其中的一部分。我们正在加紧生产和发货，进展得相当顺利。但更重要的是，回答您的问题，我认为应该这样考虑：市场正在以令人惊叹的速度迅速扩张。我之前说过，今天大多数的应用程序都是从这些大规模的语言模型开始的，这些模型主要基于云，且不仅仅是基于云，而是基于超大规模的云，因为这需要一个庞大的集群，不仅用于训练，而且实际上还用于许多类型的生成型语言模型的推理。

但现在发生的情况是，我们看到一个接一个的应用程序呈非线性增长。我们看到的是一种泛滥现象，人们开始理解他们如何定制他们的模型，如何微调它，如何拥有更小的模型，不需要回答任何问题或支持任何应用程序。但它可能只是适用于您业务领域的某个专业领域。因此，这种多样性使得计算规模以及如何配置集群的需求变得非常丰富多样。市场正在迅速扩展，您需要为计算集群配置特定于应用程序的配置。它甚至进一步发展，不仅仅局限于这些庞大的高规模超大规模，而是向着我将其称为数据中心的阶层转变。

这一切都源于，当您考虑那些真正定制的应用程序时，它们可以在边缘设备上运行，直接在您的工厂车间实现非常低的延迟，将语言模型放在数据创建的源头，直接面向最终用户设备。

我们已经将我们的AI推理加速器集成到我们的个人电脑中，并在整个2023年持续发货。实际上，今年SES已经宣布了我们下一代AI加速个人电脑。而且，随着我们的Xilinx产品组合覆盖到嵌入式设备，
我们从行业中获得了很多对定制推理应用的需求，这些需求覆盖了广泛的嵌入式应用场景。因此，随着这一趋势的发展，我们将看到更多定制化的计算安装，以满足不断增长的需求。
答：坦率的说，供需平衡实际上是任何芯片制造商都必须管理的问题，你需要确保你的供应。回顾疫情期间，我们的设备需求大增，这使得我们的供应链紧张，因为当时PC电脑的需求大幅上升，人们在家工作，我们的X86服务器的需求也大幅上升。因此，在疫情期间，我们处于"紧急模式"。我们做得很好，虽然有基板短缺，但我们增加了更多的基板制造能力。

我们与我们的主要晶圆代工供应商台积电合作，与他们建立了深入的合作伙伴关系，我们已经合作了几十年。如果我们能提前预判并理解市场信号，我们通常能够满足供应，如果有短缺，通常也能够得到良好的控制。关于人工智能，很明显我们看到了需求的大幅增加。

晶圆厂正在作出响应，你必须不仅仅认为这是晶圆厂的问题，你绝对正确。关于封装，我们和我们的GPU竞争对手都使用了先进的封装技术。我会给你看的。虽然摄像头可能无法清楚地显示，但这是我们的MI300。你看到的是一整套芯片组。所以是较小的芯片，具有CPU功能、IO和内存控制器。它可以是我们专注于高性能计算的版本的CPU。

我们直接将我们的CPU芯片集成在同一个系统中。还有周围所有的高带宽内存，以供给这些引擎。这些芯片是侧向连接的，在MI300上，我们也将这些设备垂直连接。所以这是一个复杂的供应链，但我们在这方面非常非常擅长。我们是一家出色的公司，已经有18年了。我们的AMD供应链团队做得非常好，我认为总体来说，行业将会超越这类供应限制。

现在你提到了电力。我认为，这最终将是一个关键的限制因素。你看到所有主要的运营商都在寻找电力来源，对于我们这样的引擎开发者，这些引擎消耗的电力，我们非常关注能效，并且我们会在我们设计的每一代产品中推动能效的提高。这绝对是我们的最高优先级之一。

问：随着摩尔定律的终结，即集成电路上可容纳的晶体管数量每两年翻倍的速度放缓，如何通过创新来继续提高计算能力成为了一个重要话题。你曾经表示，这种挑战激发了你加入AMD的兴趣，特别是想了解AMD将如何在不同的创新方向上进行投资。此外，对三维堆叠技术表示好奇，希望以通俗易懂的方式获得解释，这是一种通过垂直堆叠芯片来增加集成度和性能的技术。

标签：AMD CTO访 AI推理芯片