当前位置:首页 > 创业圈 > 商学 > 论道 > 正文

《统计学习方法》再版 我们和大牛李航聊了聊年轻人如何成长

来源:ByteStyle 字节范儿 发布时间: 2019-05-09 16:41:00 编辑:夕歌

导读:最近,李航的《统计学习方法》第二版即将发布,字节君和他聊了聊,他就新书的内容、加入字节跳动的体验、年轻技术人的成长、机器学习的未来和人工智能的发展趋势等话题与大家进行了分享。

《统计学习方法》再版 我们和大牛李航聊了聊年轻人如何成长

在李航身边工作是一种怎样的体验?

有的同学说,当然是很开心,都知道他是行业里的技术大牛,在微软亚洲研究院、华为诺亚方舟实验室等知名机构有着丰富的从业经历。还有很多同学说,其实也没有那么神秘,他总是穿着衬衫西裤而不是码农的T恤,开会带着纸质本子记东西,习惯用手表看时间,温和儒雅,一副大学教授的样子。

他的另一个身份是《统计学习方法》的作者,这本书被很多人亲切地称作“蓝宝书”,是不少同学入门机器学习的启蒙读物。他出版过三部学术专著,并在顶级国际学术会议和期刊上发表过上百篇论文,拥有40项授权美国专利。

最近,李航的《统计学习方法》第二版即将发布,字节君和他聊了聊,他就新书的内容、加入字节跳动的体验、年轻技术人的成长、机器学习的未来和人工智能的发展趋势等话题与大家进行了分享。

《统计学习方法》再版 我们和大牛李航聊了聊年轻人如何成长

关于新书

Q:《统计学习方法》第二版相对于第一版有哪些更新?

A:统计学习即机器学习,第一版主要是介绍了监督学习的算法与模型。第二版主要是在过去六年的时间里,补充了无监督学习的八个方法,并对第一版的监督学习方法做了一些修改。虽然目前90%以上的机器学习都是监督学习,但无监督学习其实是机器学习的重点和难点,即让机器自己发现数据里的规律,它是未来实现强大人工智能的重要推动力。未来我还准备花3-4年时间把深度学习和强化学习加进去。因为我都是业余时间写作,所以花的时间比较久。

Q:很多人把《统计学习方法》叫做蓝宝书,是入门机器学习的启蒙读物,但一些学生看这本书会觉得吃力,能不能推荐一些入门的方法?

A:这本书的内容本身是最基础的,也就是机器学习领域大家都应该掌握的东西,从这种意义上来说确实是一本入门书籍。但是我并没有从入门的角度写这本书,而是更多地把一些最基本的概念,提纲挈领地整理出来,也是我自己再学习和思考的过程。你也可以认为是从教材的角度来写这些内容,因此这本书适合多次阅读,需要经常查看,而不是看一遍就了事。

这本书比较适合有一定基础的读者,主要是数学基础。它不太适合特别入门的初学者,也不太适合概率论、统计学都不太了解的入门者,这些基础知识可以通过其它课程或教材快速补全。当然,读者也可以一边阅读《统计学习方法》,一边补全基础知识,这样学习可能效率更高。

当然,我希望《统计学习方法》不仅仅是教材,它还能为业界的工程师提供一些有用的帮助。

Q:能不能给我们分享一下经验,年轻技术人员如何自我成长?

A:我觉得有几件事情比较重要。一是建立远大的理想和目标,选择自己喜欢做的,擅长做的,能给自己带来利益的事情的交集去做。制定有挑战的目标,想想希望自己5-10年后成为什么样子。二是一旦有了目标之后,在日常的工作中扎扎实实地去做。其实没有捷径。

另外,我们谈到技术人员的工作的时候,科学家和工程师的思维方式应该是不一样的。工程师的思维方式应该是面向问题解决问题,而科学家的思维应该是建立普世价值的理论和方法。在AI Lab的同事们更是这样,需要明确自己当前做的工作是哪种性质的。理想是不断培养自己两方面的能力,但也有侧重。

关于加入字节跳动


Q:问答社区上有一个问题“如何评价李航加入今日头条母公司字节跳动?”,所以你为什么加入字节跳动?目前为止,感觉如何?

A:字节跳动有很好的产品和大量的用户,有人工智能研究需要的大数据,公司也有很多优秀的人才,总之这里拥有做技术开发最好的环境,有很多有意思的问题可以和大家一起去做。事实证明,这是一个正确的决定,公司的机制和文化很好,大家做起事来心情愉快,效率也很高。

Q:越来越多人工智能方向的专家从校园走向了工业界,怎么看待这种现象?

A:这取决于你自己想做什么事情,学校适合做研究,工业界更偏产品和应用。人工智能时代需要利用大数据,学校很难有这样的环境,促使很多老师选择到工业界。计算机科学领域,现在跟以前有很大的不同,以前的研究很多是大学先工业界后,现在是共同推进,甚至是反过来了。

我先后在NEC和微软的研究部门工作过,它们更像是传统工业界的研究部门,不直接负责产品的开发。字节跳动是我待过的第4家公司,这里的研究部门是这当中最接近产品的部门,很多东西需要在实际的场景中应用,这很接近美国的一些互联网公司的做法,既有偏产品的工作又有基础研究。

Q:你享受这种balance吗,难道它不是一种角力吗?

A:我个人意见:理想的情况是70%的精力做应用,30%放在相关的基础研究上,当然中间没有一个清晰的界限。我们需要为未来做一个很好的布局。这是这个时代技术发展的必然趋势。很多东西需要有现实数据以及实际场景去验证,机器学习本来也是这样一种技术。所以我很享受这种balance,而不认为是角力。

Q:现在主要在解决什么问题?

A:做好内容平台。目前主要是开发自然语言处理和机器学习的技术,希望能够开发出更好的智能信息处理技术,帮助大家更好地获得信息和知识。比如跟搜索团队合作的精准问答,是为了帮助用户更加精确地获取高质量的信息。还有在头条的新闻推荐,用算法帮助提高内容质量,打压低质内容,提高优质内容。

综合来说就是要让每个用户在信息获取过程中有更好的体验,真正得到自己想要的东西。最理想的状态就是我们每个人都有智能助手,想要什么信息助手就给你什么。

Q:你最初读的是电气电子工程专业,为什么最终进入了机器学习领域的研究?

A:算是机缘巧合吧。我最早接触人工智能,是大一的时候在京都大学的人工智能实验室,80年代末是人工智能很火的时候,那会儿看到机器翻译、图像识别就觉得很有意思。到90年代,我在日本NEC公司的研究部门工作,偶然的机会加入机器学习的小组,开始了研究之路。

这期间经历了人工智能的起起落落,但也感受到了整个领域的巨大发展。那个时候只有专家在讨论AI,现在变成家喻户晓,大家都能去评论的话题,最典型的就是AlphaGo。我们也已经在使用很多人工智能技术的产品,这是一个质的飞跃。不好的地方是,感觉大家会有一些浮躁,我们的研究和技术开发还是应该更扎实一些。

能坚持在研究路上的秘诀可能是保持年轻的心态吧,我感觉现在的心态跟20年前读博士的时候没有什么不同。做研究很痛苦,也很快乐。要去做出一个比已有的方法更好的方法很不容易,研究过程中的挫折和沮丧也挺多的。但当你把一个确实work的东西做出来的时候,你确实会有很大的成就感。可以比喻成长跑,跑的过程当中会觉得自己很累,但是当你到达了终点,会享受到完成一件事情的快乐,大概就是这种感觉吧。

Q:所以你算是见证了人工智能在中国的发展,你看好它的发展趋势吗?人工智能的未来到底是什么样的?

A:是的,2002年复旦大学组织过一个机器学习研讨会MLA,当时只有不到30人参会,但现在已经是近千人的规模了。不到20年的时间,人工智能在中国已经有了突飞猛进的发展,这是让人意想不到的。

中国市场大、人才多、从业者努力,这是别的国家没有的优势。但是也要注意到,我们在创新方面的能力离美国还有一定距离,这可能需要几代人的努力。目前最基本最核心的概念和方法大多还是在美国开发出来的,我们的快速发展更多还是体现在产品落地上。我相信我们速度很快,但还是需要不断努力,不断提高自己的创新能力,真正的创新还是需要挺长时间的。

我们可以把人工智能理解为人类很好的工具,不要把它特别的夸大,至少未来很长一段时间内是这样,就像你的秘书或者助手。

关于机器学习未来

Q:你最近的一篇论文重点讲了脑科学,有一个观点是说机器学习很重要的内容就是对人脑的研究,所以脑科学给人工智能带了来什么?

A:科学发展到今天,我们对外部宇宙有了不少了解,但是对我们自己内部的“宇宙”——人脑,我们了解得还远远不够,这是当今最大的一个未知领域。脑科学就是研究这个问题的科学领域。从计算机器的角度看,人脑是一个非常了不起的计算机,它的能耗还不到30瓦,就能做那么多复杂的计算。

人工智能希望开发智能性的工具,离不开对人脑信息处理机制的了解。脑科学的发展,对人工智能是有启发和指导作用的,特别是自然语言处理这一块。人工智能有三大应用领域——声图文,也就是语音、图像、文字,语言是最难的了。前两者是感知能力,而语言是认知能力。此外,看或听一个东西的时候,只是大脑的局部在工作,但使用语言的时候,是整个大脑在工作,所以说非常复杂。如果我们希望计算机能够像人一样去操作语言使用语言,那就需要对人的语言处理机制有进一步的了解,关注脑科学的研究成果,多去进行跨学科的研究。

Q:机器学习如何跟深度学习结合?

A:《统计学习方法》的第一版中,介绍了很多算法,都是非常基础与经典的机器学习方法,但是在深度学习时代,我们更多的是根据经验、实验和「启发式」方法理解模型,这些经典算法被大家关注得比较少,反观常见的深度学习方法与技巧,却不一定有传统方法那样的理论。

其实传统机器学习与深度学习在技术上是一脉相承的,中间并不可以割裂。在我面试员工的时候,也会发现这样的问题,大家对深度学习了解得很多,但对传统机器学习了解得非常少。这种现象并不好,例如我们在 TensorFlow 上实现某个模型,然后就直接跑实验,这样对很多基本概念了解得都不够。理想情况下,我们应该更全面地理解机器学习的概念与理论,再做深度学习实践,也就是说对传统机器学习的理解有助于更好地掌握深度学习技术。

此外,尽管深度学习在众多任务上都有极好的效果,但也不能说传统机器学习就没什么用了。例如在小数据集或简单问题上,SVM 或 GBDT 这些方法在实践中用得还是挺多的。

Q:有人说机器学习无疑是最有希望实现突破的方向之一,你怎么看待这个判断?对机器学习的未来有什么期待?

A:机器学习是人工智能的核心领域,几乎所有的人工智能技术其实都是机器学习技术,无疑机器学习技术的发展决定了人工智能的未来。希望机器学习能有更多的突破,促进整个领域的发展。我认为,长期来看,机器学习与推理和知识的结合,类脑学习或类脑计算是这个领域的未来发展大方向。

Q:近年各种自然语言对话系统如雨后春笋般地涌现,所以计算机多大程度上可以自如地和人进行对话?自然语言对话的挑战在什么地方?未来可能会有哪些突破?

A:从功能的角度,计算机也有可能能够像人一样,自如地进行自然语言对话,但是现在这个命题无法证真或证伪。原因是尚不清楚人脑的语言理解机制,用计算机完整模拟人的语言理解仍然非常困难。但在特定领域,特定场景下,和人一样进行自然语言对话的计算机的实现,我们已经看到。问题是如何进行扩展,能够以更低的开发成本覆盖更多的领域和场景。

语言理解的核心是向内部表征的映射。多义性和多样性是计算机进行语言理解最大的挑战。要完成具体的任务,体现计算机的智能性,定义和使用内部表征看来是不可或缺的。基于分析的方法本质上是重要的,甚至是在聊天机器人的场景。基于检索方法更适合于单轮问答的场景。基于生成的方法只能用于特定的场景。多轮对话要体现完成任务的整个逻辑,有限状态机表示。开放式的对话意味着动态地改变任务,所以在现在的技术条件下,是非常困难的;在特定领域任务明确的条件下的对话,现实可行。

近年,深度学习和强化学习的使用,使得对话有了长足的进步。主要体现在表征学习、端到端学习上。事实上需要符号表征和神经表征,深度学习和符号处理的结合,这应该是未来发展的重要方向。

Q:最后分享一部你最喜欢的科幻电影吧?

A:我看的电影不多,印象深刻的AI相关的是斯皮尔伯格导演的《AI》,让人去思考机器与人的智能的本质区别。