黄铁军演讲实录:新一代人工智能开源开放平台
导读:5月25日-26日,由中国人工智能学会主办,南京市麒麟科技创新园管理委员会与京东云共同承办的2019全球人工智能技术大会(2019 GAITC)在南京紫金山庄成功举行。北京大学教授、北京智源人工智能研究院院长黄铁军发表了主题为《新一代人工智能开源开放平台》的精彩演讲。
5月25日-26日,由中国人工智能学会主办,南京市麒麟科技创新园管理委员会与京东云共同承办的2019全球人工智能技术大会(2019 GAITC)在南京紫金山庄成功举行。
在第二天的人工智能开放平台与产业发展论坛上,北京大学教授、北京智源人工智能研究院院长黄铁军发表了主题为《新一代人工智能开源开放平台》的精彩演讲。
黄铁军
北京大学教授、北京智源人工智能研究院院长
以下是黄铁军的演讲实录:
我是新一代人工智能产业技术创新联盟的秘书长。2018 年 10 月 31 日,联盟高文理事长给中共中央政治局作报告时,提到我国发展人工智能的短板和一些优势;总书记在讲话中也特别强调,要加快建立新一代人工智能共性的技术体系,在短板上抓紧布局。我国发展人工智能的优势有多个方面,如强有力的战略引领、政策支持、应用场景、海量数据、开放的市场环境,还有青年人才集聚和技术优势。当然也有很多短板,如人工智能基础理论和原创算法差距较大,高端芯片、关键部件薄弱;另外没有形成具有国际影响力的开源开放平台,高水平人才相对不足。今天我要讲的就是人工智能开源开放平台这样一个工作。
目前,中国已有多款芯片研发出来,我相信在资本的强力支持下,芯片问题会逐渐解决。但是开源开放平台我们处在薄弱状态,现在用的最多的是 TensorFlow。 TensorFlow 发展也就是三四年时间,已成为全球第一的开源深度学习平台。一个开源平台的成功有很多原因,归根结底就是好用,好用才是它有生命力的关键。为什么都愿意用 TensorFlow ?因为它支持多种平台和多种算法(包括传统的机器学习算法);优化做得比较好,效率比较高;一系列的配套工具,很方便实用。但是,我们不能把鸡蛋都放在一个篮子里。2016 年10 月余凯提出了一个观点,就是 AI 作为一个产业,不能放在某个公司特定的平台上,长远来说这是不健康的,会出问题的,不仅是中国,全世界都一样,不能把命运放在一个平台上。
《新一代人工智能发展规划》是 2017年 7 月 20 日国务院发布的一个规划,规划中除了大家关注的定了三步走目标之外,还定了四个原则——科技引领、系统布局、市场主导、开源开放,这是规划的基本原则。新一代人工智能产业技术创新战略联盟是2017 年 7 月 23 日成立的。怎么做联盟?基本策略就是“一体两翼”,“一体”就是按照规划的开源开放基本原则,建设一个开源开放平台。平台是一个承载体,是新一代人工智能各种技术、理论的沉淀,沉淀在这个平台上,让大家去使用。2017 年11 月 15 日科技部正式启动新一代人工智能规划暨重大科技项目,这个平台上会有什么?按照规划、按照重大科技项目的要求,中国支持的新一代人工智能各种科技项目的那些成果要通过开源开放平台的方式让全社会去用,因此它将来会有什么?那就是我们规划了什么,科技部支持了什么样的项目,最后出来的这些结果和代码会通过这个平台让大家应用。规划上列举了大数据智能、跨媒体智能、群体智能、混合增强智能、自动智能系统,将来都可以在平台上应用;还有支撑系统和基础理论都在平台上开放,让大家去尝试。
新一代人工智能规划项目不久会发布出来,一系列的科技项目都会有产出,怎么检验它们做的好不好、是不是有用,这些都需要一个平台开放出去,这就是开放平台。
另外还有开放创新平台。这些创新平台本身不一定开源,但是鼓励大家去开源。其中开源的部分我希望通过平台进行共享、打通。无论是做医疗影像、自动驾驶,还是做智能视觉,它们会有很多共性的东西,希望这些共性的东西可以通过平台共享。
2018 年 3 月 31 日发布启智开源许可证时,我们定了几个原则。一是这个平台是完全开源的;二是完全开放的,不会收回来;三是完全免费的,开源硬件和软件可以直接用到商业;还有就是要尊重创新,用了就要像引用别人论文时要写上引用谁的论文一样,在平台上留下用了别人东西的痕迹,这是最起码的尊重,这也是唯一的对使用者的要求。像我刚才说的,将来会汇聚一系列科研成果上来。
从技术上来说,除了大家关心的深度学习,人工智能不仅是一个深度学习问题,未来还有很多发展,这些发展的东西是我们平台都要包含在内的,因此形象一点说,若深度学习是一栋很高的建筑物,开源平台就是一座城市。从发布启智开源许可证之后,我们陆续做了很多工作,有一个启智平台治理架构,并且开始运行;还有基金委员会和技术委员会。这样一个开放社区成员说了算,或者说会员说了算。会员也是按照开源的惯例,这里面分普通的成员,最高等的是核心成员,在大家加入之后就要签署相应的承诺。
从 2019 年 1 月 16 日这个机构成立,基本每个月都有一次面对面的会议,加上一些线下的活动。3 月 7 日开放了第一批社区项目,共四个项目(见下图)。
OpenI章鱼是一个资源管理系统(见下图),打通处于不同地理位置的硬件系统,支持人工智能训练等,进行远程资源调度管理,将来的开源平台不仅是提供代码,还可以在这个平台上运行。
第二个项目叫做 OpenI 珊瑚(见下图),这是华为牵头,是公司用的开源系统,是一个比较基础性生态的环境。
第三个是支持对代码的管理和开源活动评价,这是一个国家支持多年的群体化协同软件开发环境,面向人工智能需求,把它放到这个平台里,支持人工智能开发活动,这是一个比较成熟的平台。
第四个是来自百度的深度学习可视化平台。目前正在进行中的、准备开源的项目,包括联邦学习系统,叫做 OpenI 纵横;还有北京智源人工智能研究院的开放数据集,以及滴滴出行的 AI 基础平台框架等。 OpenI 开源项目培育孵化机制现在已经逐步建立,后续肯定会有越来越多的项目在上面运行。
未来我们希望它就像一个城市,是一个很大的——人工智能从基础理论算法到支撑平台 ( 见下图 ),可以用社区提供的硬件平台,也可以自己做系统,包括生态环境都可以建立起来。
有了这样一个开源平台后,联盟可以做很多事情,比如促进大家使用。让谁使用?首先是学生,在学校开人工智能课,让学生下载代码;甚至在上课中训练,你说自己没有硬件,没关系,给你开账号,学生可以直接在上面参与代码的修改,如果做的好,将来他可能就是开源社区的贡献者。包括地方、企业做活动时,可以使用开源平台,组织一些竞赛,在上面已有的代码和数据集上进行改进,改的好的在竞赛中获奖,同时能有更多改进的代码丰富开源平台。目前,微软亚洲研究院也在讨论以什么方向加入这样一个平台,最终应用到各个场景和产业里。
总之,这是一个在科技部领导下,按照国家的新一代人工智能发展规划,由新一代人工智能产业技术创新战略联盟组织的产学研长期合作平台,任何学术机构、自然人都可以参与,包括中国的、国外的,以及个人、机构。
目前支持平台运营的是云脑开源平台与智能应用场景,是深圳鹏城实验室提供的一个大规模系统,上面提到的资源管理系统还可以把更多地方,比如北京、合肥等的硬件设施利用起来,使训练能力更高,可以做更多事情。
目前整个体系已经运行,还有很多需要完善的地方,但是已经建立了共建共享机制,希望更多单位参加联盟,参与开源开放平台的建设,我们既是使用者,又是贡献者,一起为未来的人工智能发展,建设一个完全开放的平台。希望地方政府提供更多的支持,支持本地开展一些人工智能项目。以前很多这种项目都是重复的,我们应该鼓励被支持单位把成果拿出来,放到开源开放平台上,鼓励全国、全世界用;如果放上去,没人用,那么你支持的这个项目就是一种浪费。希望将来以开放创新的方式促进竞争、促进发展,希望通过这种方式降低各地方的重复开发项目,这样做既是对地方的贡献,也是对国家、对全世界人工智能的贡献,相信这会让中国的人工智能发展更快。
(本报告根据速记整理)