当前位置:首页 > 创业圈 > 商学 > 论道 > 正文

张钹:大数据推动人工智能发展

来源:中国信息界 发布时间: 2019-03-11 14:57:05 编辑:夕歌

导读:《中国信息界》记者专门采访了中国科学院院院士、清华大学人工智能研究院院长张钹。张钹是著名的计算机科学与技术专家,CCF终身成就奖获得者,并任俄罗斯自然科学院外籍院士,被业界视为我国人工智能泰斗。

张钹:大数据推动人工智能发展

当前,人工智能是全球关注的焦点。我国政府也非常重视人工智能的发展。10月31日中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。习近平总书记在主持学习时强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。要深刻认识加快发展新一代人工智能的重大意义,加强领导,做好规划,明确任务,夯实基础,促进其同经济社会发展深度融合,推动我国新一代人工智能健康发展。

为了更好地了解人工智能的发展,《中国信息界》记者专门采访了中国科学院院院士、清华大学人工智能研究院院长张钹。张钹是著名的计算机科学与技术专家,CCF终身成就奖获得者,并任俄罗斯自然科学院外籍院士,被业界视为我国人工智能泰斗。

《中国信息界》:人工智能和大数据都是当下的“热词”,那么,两者之间存在着什么样的关系?

张钹:可以说,大数据推动了人工智能的发展。大家都知道,从本世纪开始,人工智能又重新掀起高潮,这中间很重要的原因就是大数据带动了人工智能的发展。其中,有5个标志性事件,充分反映了大数据对人工智能的影响,即:1997年5月,IBM“深蓝”打败国际象棋世界冠军卡斯帕诺夫;2011年2月, IBM “沃森”在“危险边缘”智力竞赛中打败全美前冠军 Ken Jennings 和 Brad Rutter;2015年12月17日,在ImageNet 图像库上,微软图像识别系统的误识率低于人类。人类是5.1%, 而机器只有4.94%;2015年12月20日,百度宣布 Deep Speech 2 中文语音单句的误识率低于人类。人类是4.0%, 机器是3.7% ;2016年3月,AlphaGo打败世界围棋冠军李世石。

人工智能采用的第一种办法是知识驱动方法。以“深蓝”打败卡斯帕诺夫为例,这是在完全信息博弈的情况下实现的。所谓的完全信息,就是掌握所有的信息,下棋正是如此。“深蓝”取胜靠的是什么?靠的就是数据。“深蓝”学习了70万盘大师级棋手下过的棋局,同时学了大量的残局,在此基础上才战胜了人类冠军。可以说,并不是计算机战胜了人类,而是所有的国际象棋大师联合起来战胜了卡斯帕诺夫。我们可以看到,计算机之所以能够战胜人类,是因为它掌握了全部的完全的信息。根据这些完全信息,它可以找到最好的答案。换句话说,如果是不完全信息博弈,就不可能有这种结果。比如桥牌、麻将等,计算机就远不如人类。

在人工智能发展的早期,这方面的工作做得并不好,主要原因是知识非常有限,只能来自于专家,而专家的知识非常昂贵且稀缺。为什么到了20世纪以后,能够做得更好呢?其中一个重要的原因就是互联网的发展,我们可以从互联网上获得大量的大众知识,“沃森”之所以战胜人类,原因就在于此。“沃森”以压倒性优势取胜,主要是基于它获得的大量知识,共2亿页知识,4TB 级存储,包括词典、百科全书、主题词表、新闻专线文章、文学作品,以及全部WIKI百科的内容,它可以整合不同数据源的信息。这说明,在限定的环境和范围下,在人机对话上,机器可以战胜人类。

第二种办法是数据驱动方法,就是现在常常说的深度学习或者人工神经网络,一般用来处理图像和语音。因为图像和语音很难用语言表达,所以我们用的办法,就是用样本对机器进行训练。比如图像识别,我们用大量的图像样本让机器进行学习,学习以后我们再用测试的样本测试。用这种办法,在给定的图像和给定的状况下,机器的识别率可以超过人类;语音也是同样的办法,如果我们给出足够的语音库,在所给的语音库下,机器可以在单句的识别率方面超过人类。也就是说,用这种机器学习的方法,如果我们掌握了充分的样本,机器就可以做得像人一样好,甚至可以超过人类。

用一个例子说明数据的重要性。在2015年之前,人类做出的围棋程序最高只能达到业余五段,但是国际象棋程序在1997年就打败了人类世界冠军。围棋为什么晚于国际象棋?一个重要的原因就在于,下国际象棋是人类理性分析的行为,下的每一步,国际象棋大师都可以说出它的道理,过去做国际象棋程序的时候,是用理性分析的模型来做的。但当我们想用理性分析的模型做围棋程序时,都没有成功,我们咨询这些围棋大师的时候,问一个围棋大师在这盘棋局下为什么黑棋要落在这个地方,他可以讲一通道理,但是找不同的围棋大师说出的道理完全不一样。由此可见,下围棋是模式识别的过程,讲不出道理来,讲究的是棋感,是直觉。理解了这一点后,这个问题就迎刃而解了。什么叫围棋棋局?就是一张黑白图,这个黑白图非常简单,19×19,361个像素,这对计算机来讲,非常容易识别,它要做的就是自己跟自己下。开始做AlphaGo的时候,机器还会学习人类历史上下过的围棋,一共约有3000万个棋局,这样的数据量对于计算机来讲也太容易了,它把这3000万个棋局学习完,同时AlphaGo自己又和自己下过3000万个棋局,这样加起来是6000万个棋局,于是它就把国际围棋大师李世石和柯洁完全打败了,因为李世石和柯洁一生中最多下过几百万个棋局。后来到AlphaZero的时候,它已经根本不用学习人类下过的棋局了,就自己跟自己下,自己下到几亿个棋局,所以人类完全不是它的对手。这个问题非常简单,就是由机器自身来产生数据。所以在两年的时间里,计算机围棋程序从业余跳到专业,由专业跳到世界冠军,现在从世界冠军跳到超世界冠军,人类已经不是它的对手了。这个例子充分说明了数据的作用。

《中国信息界》:现在,以中美为代表的世界各国非常重视人工智能的发展,而人工智能技术要发挥作用,离不开产业化,您认为,未来人工智能会在哪些领域得到应用?

张钹:业界普遍认为,在2015-2030年的15年间,人工智能将主要应用于以下10大领域:交通、家庭/服务机器人、健康、教育、低资源群体、安全、雇员与工作场所、娱乐 ,以及金融和智能制造。前面8个是国外提出的应用,金融和智能制造是中国提出的应用。

关于人工智能的应用,我举一个深醒科技公司的例子,我是这家公司的首席科学家。深醒科技开发了一种人脸识别技术,它的应用场景首先定位在抓捕逃犯。据公安部统计,目前全国的逃犯约有25万人,按照过去的方法很难抓到。深醒科技首先在贵阳市的机场、火车站和长途汽车站装了13路摄像头,在2016年12月-2017年5月上旬的半年时间里,抓获各类犯罪人员150人,其中全国逃犯21人。而在没装“摄像头”之前,2016年全年贵阳市公安局只抓到1个全国逃犯。

又比如,当前对视频信息的机器识别需求非常大。现在我们获得的视频信息非常多,以北京市为例,全市各个路段共装了近90万个摄像头,上海市装的更多,约120万个。由此得到的视频信息量太大,通常存储一个月后就必须删掉,否则新的信息就没办法存进来了。如此大量的视频信息靠人来看是不可能完成的。

还有,医学影像识别。诚如我们所知,各种癌症的早期诊断非常重要,大家都投入很大的力量做这件事情,如果能够早期发现癌症,就可以挽救大量的人的生命,中国对此也非常重视,在这方面全世界最有名的是数据科学杯比赛,2017年就是由我的3个博士生获得了冠军。

此外,有了网络以后,在远程登录或移动登录的时候,身份验证变成了非常重要的问题,涉及安全。现在我们做的身份验证,早期用密码,后来用人脸、指纹识别等,但可惜的是,这些身份鉴别方法,如果你是在远程登录或移动登录的时候都可以做假。幸运的是,现在语音还没有办法做假,清华大学经过三十多年的努力,解决了用语音在远程登录或移动登录过程中防止造假的问题,这主要是要区分录音和真人说话,即使是双胞胎说话都能区别出来,目前,很多银行都在使用这一技术。

《中国信息界》:从您所描述的这些应用来看,人工智能真的是非常厉害的技术,那么,当前的人工智能技术存在局限性吗?

张钹:当然,人工智能技术也存在局限性。现在人工智能所能解决的问题需要5个条件限制:拥有丰富的数据或(和)知识、完全信息、确定性、静态(按确定的规则演化)、有限领域与单任务。只有满足这5个条件,人工智能才能做的很好,甚至超过人类;不满足这5个条件中的任何一条,人工智能发展就会很困难。

就像我们前面谈到的那样,如果是不完全信息,人工智能是无法超过人类的,这是数据和数量与质量的问题。大数据非常强调数量,但不是有了巨大的数量就可以做好人工智能,还必须要保证数据的质量。以图像识别为例,我们之所以要用几十万、上百万甚至上千万的图片对计算机进行训练,原因就在于训练所使用的图像并非每一张都是高质量的。往往有用的信息只有一点,而大量的信息是无用的,并且很多信息还具有欺骗性,这些无用或欺骗性信息对计算机的性能有很大的影响。如果用好的、质量高的图片训练人工智能,识别率可以达到80%,但是用质量差的信息训练,识别率只能达到百分之十以上。

目前,用大数据建立的系统还有很多问题。其中,网络数据质量不高,就是利用大数据面临的重要挑战。网络上有用的数据通常只占40%,大部分是垃圾、没用的、造谣的数据,而网络数据有标注的仅有7%,经过分析的仅有1%,也就是说,有用、好用的数据不到10%,所以在使用网络数据时,数据质量是必须要注意的问题。基于网络数据这样质量不高的大数据所训练出来的系统,性能难以避免地存在很多毛病,不可能训练出一个具有智能化的系统。

另外,在人工智能做医疗诊断方面,目前都遇到这样一个问题,人工智能对癌症的识别率甚至可以超过人,但是医生不敢用,为什么?因为不可解释。人工智能诊断有癌症,但医生解释不出来原因,这是现在使用大数据做出的人工智能系统存在的一个最大的问题。系统尽管做得非常好,但是医生不敢用,所以必须要解决这个真实性的问题。

除了真实性的问题,还有鲁棒性的问题。比如,一个炮兵阵地的图片,当我们只是加入一点点噪声,在人类看来,图片没有太大的变化,但是,计算机识别,它就变成了一个海滩,这就是鲁棒性,这一点正说明了人工智能带来的危险性。现在的人工智能系统,特别是用大数据建立的人工智能系统,非常容易被攻击,这就是美国人提出的所谓“算法战争”,以后打仗不一定用真刀真枪,就是用算法把系统搞垮,所以网络攻防、智能化的攻防变成非常大的课题,全世界都在研究。

自动驾驶也是如此。我们过去花很长的时间在这个领域,对图像进行实时分割和识别。经过多年努力,很多公司做到了这一点,现在基本上通过大数据学习,能够建立实时的建模,明确哪个地方是车辆、哪个地方是道路、哪个地方是行人,研究人员曾经认为,这个问题解决了,自动驾驶就解决了。但实际上并非如此,这样的自动驾驶只能在特殊的情况下使用,比如在专用道上。问题出在哪里?一个系统一旦有人类参与,就变得非常复杂。在一般的道路上,既有行人又有人类驾驶的汽车,而人类的行为大部分是非理性的,很多人是没有完全按照规则过马路或开车。这些人类的非理性行为加入进来,问题就变得很复杂,对机器而言就不好解决。

所以,就目前而言,人工智能要进行产业化,一方面,要选择合适的应用场景。一是拥有丰富的数据或(和)知识,二是完全信息,三是确定性,四是静态(按确定的规则演化),五是限领域与单任务。另外,还需加强基础研究,带来技术突破。