中国工程院院士王恩东:AI算力不够用怎么办
导读:该如何弥补人工智能算力“鸿沟”?中国工程院院士、高效能服务器和存储技术国家重点实验室主任王恩东的答案是:计算技术与产业需构建新发展格局,加速计算向智算转型,其中多元算力融合是关键,算力供给基建化是支撑。
中国工程院院士王恩东
未来,人工智能对计算的需求将占全球计算需求的80%以上,而承载这种需求的就是智能计算中心
国家枢纽节点建设应做好网络、能源、算力、数据、应用等一体化发展,最终构建成以数据流为导向的新型算力网络格局
文 |《瞭望》新闻周刊记者 扈永顺
算力供给正呈现供不应求之势。
当前,AI技术渐趋成熟,智能农机、智慧农业等改变着延续上千年的农业生产方式;智能工厂让生产效率显著提升;无接触送货、无人机送餐成为智慧物流新亮点……
各种人工智能场景和数字化业务加速落地,对计算力需求旺盛。人工智能非营利组织OpenAI曾于2018年发布报告,提出自2012年以来,AI训练任务所运用的算力每3.43个月就会翻倍。到2018年,AI算力需求增长了30万倍。
该如何弥补人工智能算力“鸿沟”?中国工程院院士、高效能服务器和存储技术国家重点实验室主任王恩东的答案是:计算技术与产业需构建新发展格局,加速计算向智算转型,其中多元算力融合是关键,算力供给基建化是支撑。
AI算力供不应求
《瞭望》:人工智能时代,如何看待计算力的地位与作用?
王恩东:社会的数字化转型升级离不开智能化改造,随着AI融入各行业,我们正进入一个智慧时代,全社会数据总量暴发式增长,对计算力需求大幅提升。计算力正成为数字经济发展的核心驱动力。
计算力之于智慧时代就像电力之于电气时代,都是生产力的重要形式。我们可以通过计算力的情况,来分析一个国家的经济发展情况。根据国际数据中心(IDC)发布的《2020全球计算力指数评估报告》,计算力与经济增长紧密相关,计算力指数平均每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰。从各个国家GDP数字与服务器的出货量来看,GDP与服务器采购额呈现出明显的正线性相关。美、中两国不仅GDP远远领先于日本和德国,每万亿GDP的服务器数量也远远高于他们,数字经济的贡献占比明显高于他们。实际上,我国各省份的情况与此类似,北上广浙每千亿GDP的服务器出货量远大于其他省份。可以说计算力是衡量经济社会发展水平的重要指标。
从实体企业层面,在10年前,全球市值最高的企业大部分是能源公司、金融企业,市值靠前的IT公司仅仅微软一家。到了近些年,全球最值钱的公司几乎清一色的信息技术与服务公司,如亚马逊、苹果、微软、中国的BAT等。有趣的地方还在于,这些排名靠前的公司也是全球采购服务器最多的公司,海量的计算力为这些公司创造了巨大价值。根据IDC发布的《2020-2021中国人工智能计算力发展评估报告》,2020年中国人工智能基础设施市场规模高达39亿美元,服务器是人工智能基础设施的核心,支出占比达87%。数据直观地反映了算力在整个产业的重要性。
从更高维度看,我们正在向智慧时代转型,数据成为新的生产资料。海量数据的处理,必须依靠强大的计算力。据IDC预测,未来三年新产生的数据量将超过过去三十年的总和。虽然数据的总量在增长,但是真正被有效利用的数据占比仍然不足1%。如何有效抓取高质量的数据并通过这些数据建立精准的模型,则取决于AI算法。深度学习是人工智能的一种算法,要训练出一个深度神经网络模型,就需要足够强的算力支撑。
《瞭望》:目前AI算力能否满足各行业的需求?
王恩东:算力是设备计算能力的一种量化。虽然目前无法具体统计AI算力缺口数据,但中国正在加速数字化转型,AI应用版图随之不断扩大。AI在金融、制造、电信、医疗、交通等行业应用的深入加剧了算力短缺。由此可见,AI的应用扩展,对算力的需求只会越来越大,目前的算力供给已难以满足这一需求。
此外,进入智慧时代,企业普遍希望采用具有公共基础设施意义的人工智能算力基础设施。根据IDC调研,超过九成的企业正在使用或计划在三年内使用人工智能,其中74.5%的企业期望在未来可以采用具备公用设施意义的人工智能新型基础设施,这同样加剧了算力短缺。
智算中心将成为未来计算力的主要生产中心
《瞭望》:如何加速计算到智算转型?
王恩东:面对算力供给“鸿沟”,计算技术与产业需要构建一个新的发展格局,简单概括起来可以描述为:要通过多元算力融合和算力供给基建化加速计算到智算转型。
智能计算是借助自然界,特别是生物界规律的启示,设计出求解问题的算法。例如人工智能神经网络模仿人脑的生理结构和信息处理过程,模拟人类智慧。智能计算有着传统计算无法比拟的优越性,其最大特点就是不需要对问题自身建立精确的数学模型,非常适合于那些由于难以建立有效的形式化模型因而无法用传统数值计算方法解决的问题。
运行智能计算的有各种人工智能专用芯片和加速卡。数据显示,2020年,全世界以GPU为代表的AI加速芯片所交付的计算力总和已经超过了通用CPU,预计到2025年,AI加速芯片所提供的计算力可能超过全球算力总量的80%。智算将是智慧时代计算的主要形态,我们要加速这一转型进程。
加速计算到智算转型,多元算力融合是关键。进入智慧时代,算力多元化发展趋势愈加明显,主要体现在计算场景和计算架构的复杂多元。多架构引发了无法兼容、效率不高等问题。我们需要打破传统体系结构设计,创新智算体系结构,实现算力高效聚合和按需定义。
在体系结构方面,我们在2014年提出融合架构以及三步走技术路线,指明了数据中心体系结构的发展方向。目前已经从1.0走到2.0,实现了存储资源和FPGA、GPU、XPU加速设备池化,正逐步进入3.0阶段,提供更高效、灵活、智能的体系架构。在融合架构3.0阶段,可以通过芯片内大容量缓存、芯片外高带宽内存等存算一体方式实现计算数据结合,突破内存提供数据速度远远落后芯片处理数据速度的存储墙难题,加速数据在内存与芯片之间的搬运效率;通过高速互联交换网络,支持更广泛的CPU、GPU、FPGA等多元异构计算、支持新型存储资源池化,提高性能、降低能耗,实现更大规模资源可扩展,并进一步通过在互联处理单元中卸载控制平面,实现控制计算分离,进而达到更为灵活的资源可重构,提高算力供给的效率、灵活性。
《瞭望》:该怎样推动算力供给基建化?
王恩东:未来,人工智能对计算的需求将占全球计算需求的80%以上,而承载这种需求的就是AI算力中心,即智能计算中心,也叫智算中心。
根据2020年底国家信息中心信息化和产业发展部联合浪潮发布的《智能计算中心规划建设指南》的定义,智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、产业创新聚集,有力促进AI产业化、产业AI化及政府治理智能化。
2020年4月,国家发改委明确新型基础设施建设的范围包含以数据中心、智能计算中心为代表的算力基础设施,算力供给基建化已成为趋势。可以预见,在加快推进新基建背景下,智算中心将成为未来计算力的主要生产中心、供应中心,也将成为推动经济社会运行的重要基础设施。
现在我们要加快推动算力供给基建化。建设智算中心必须满足三个要求:一是开放标准。要求智算中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;二是集约高效。要求智算中心的建设要有超大规模,要采用领先技术,保证自身先进性;三是普适普惠。要求智算中心发挥基础设施的社会价值,服务大众。
目前,有越来越多的政府、企业开始进行智算中心的统筹布局和建设,南京、西安、成都、武汉等城市已有落地项目。以今年7月正式投入运营的南京智算中心为例,这是长三角地区规模最大的城市智算中心,由浪潮与中科寒武纪科技股份有限公司联合建设。南京智算中心采用业界领先的人工智能芯片和算力机组构建,通过算力的生产、聚合、调度和释放四大关键作业环节,提供人工智能应用所需的AI算力服务,重点支撑科技金融、智能制造、智慧零售、智慧医疗、智慧交通等领域的算力需求。
2月24日,北京市海淀区海淀城市大脑智能运营指挥中心正式投入运行 任超摄/本刊
深化东西部算力协同
《瞭望》:今年5月,国家提出加快实施“东数西算”工程,提升跨区域算力调度水平。为什么要“东数西算”?
王恩东:以前,我国的数据中心建设没有集约规划,存在粗放式问题,缺乏高效的资源配比。
数据中心对网络依赖性强,传统上,我国通信网络主要围绕人口聚集程度进行建设,网络节点普遍集中于北上广等一线城市,因此数据中心也集中于这些城市部署。但近年来,数字经济发展对数据资源存储、计算和应用需求大幅提升,数据中心规模快速扩张,特别是东部一些应用需求大的城市,能耗指标紧张、电力成本高,已难以满足大规模发展数据中心的要求;反观一些西部地区,可再生能源丰富,气候适宜,适合建设大数据中心,但因为网络带宽小、跨省数据传输费用高等瓶颈,无法有效承接东部需求。
因此,我们需尽快转变以通信网络节点为中心的发展模式,打造数据中心、云计算、大数据一体化的新型算力网络体系,形成以数据流为导向的新型算力网络格局。实施方案为我国布局算力新基建、推动数字经济发展擘画了蓝图。
国家已经明确将在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点。国家枢纽节点是我国算力网络的骨干连接点。通过国家枢纽节点布局,可以引导实现数据中心有序发展。
按照规划,对于京津冀、长三角、粤港澳大湾区、成渝等应用需求强烈的节点,重点统筹好城市内部和周边区域的数据中心布局。对于贵州、内蒙古、甘肃、宁夏等可再生能源丰富、气候适宜、数据中心绿色发展潜力较大的节点,重点承接全国范围需后台加工、离线分析、存储备份等非实时算力需求,打造成为面向全国的非实时性算力保障基地。
《瞭望》:如何实现算力统筹调度?
王恩东:算力统筹调度是实现算力资源高效供给的必要环节。强调算力统筹调度,将进一步优化算力供给情况。实施方案支持开展的“东数西算”工程,就是在数据中心集群和集群之间,建立高速数据中心直联网络,支撑大规模算力调度。
在算力统筹层面,要加大算力基础设施建设,对不同区域算力基础设施建设也要区分规划。智算的特点在于从智能模型训练、迭代到投入运行速度非常快,因此,必须在近场景、近数据、高带宽、低延迟的地方投入建设智算中心。日后,随着东部地区数字化与智能化转型的深入,对于智算的需求将日益凸显。传统的数据中心将有一部分逐步到西部建设。
在算力调度层面,需要通过算力生产方式的变革推动算力智能调度。未来的智能调度系统对算力技术的要求更高,为此,打造算力作业新模式十分必要,即实现生产算力、聚合算力、调度算力、释放算力等全流程、一体化的高效交付。