Siri说话更像人了,苹果究竟对它做了什么?
导读:新版的Siri随着今天的iOS 11一起来了。不止是交互界面有所变化,新版Siri还增加了一个美式英语的女性口音,说话也“更自然”、“更顺畅了”。
(原标题:Siri 说话更像人了,苹果干了什么?)
徐弢
会更多本地语言,语音也更流畅了。
新版的Siri随着今天的iOS 11一起来了。不止是交互界面有所变化,新版Siri还增加了一个美式英语的女性口音,说话也“更自然”、“更顺畅了”。
Siri 的语音仍然是用语音合成技术来做,但在人工智能算法、语音内容上做了改进。具体的技术内容,公布在了苹果公司7月份开始更新的机器学习网站上。
根据 Siri 团队的说法,苹果公司从数百位候选人中筛出了一位“新的、有语音天赋的女性”,让她读10-20 小时的书、笑话、导航和问答等文本内容,并录制下来。Siri 团队希望新的语音内容可以帮助改善 Siri 语音的流畅度。
随后,这些录制的语音内容被拆分成更小的语音单位,例如这里拆分后的单位是半个单音——单音是构成语音的最小单位。Siri 再根据文本将这些单个的语音单位拼接起来,形成需要的语音内容。
在算法层面上,Siri 团队用15 个小时的语音内容训练一个机器学习的模型,加强了对这些语音单位的挑选,以便放于合适的语句中。例如在疑问句、肯定句中,元音、辅音的发音就会产生不同,还可能根据不同的情绪、场景发生变化。Siri 团队希望用 AI 技术来提升合适语音的能力。
苹果语音团队负责人亚历克斯·阿塞罗(Alex Acero)几年前开始处理 Siri 的后端系统,并且招募一些合适的人选来给 Siri 提供语音内容。Siri 目前支持 21 种语言,例如新近增加的上海话就会招募本地的人来录音。
从结果来看,新版的 Siri 确实有所改进。在介绍 Siri 新技术的苹果官网上,Siri 团队上传了 iOS 9、iOS 10 和 iOS 11 上搭载的 Siri 对同一组文本的语音阅读结果,总共有 6 组英文。
可以明显听出来,iOS 11 上的新版 Siri 咬字更清楚,句子中的停顿也更多了些,整句英文的表述接近于英语教学课的发音。
此外,Siri 团队似乎想让语音保留更多的个人口音特征,新的美式口音较为接近于加州的口音。
《大众科学》杂志咨询了一位语言学专家,英属哥伦比亚大学语言学系的助理教授茉莉·巴贝尔(Molly Babel)研究了 Siri 的新口音,确认其很接近于加州人的口音。
有趣的是,今天苹果公司的 Siri、亚马逊的智能语音助理 Alexa,以及微软的 Cortana 都更多的是以女性口音存在(事实上也提供男性口音),例如微软一开始就给小冰设计了?16 岁少女的设定,亚马逊的 Alexa 也会回应说自己是女性角色。
一个主流的说法是,女性声音更容易被接受。印第安纳大学的研究以及微软、亚马逊的市场调研都表明,女性声音更容易被男女两种性别所接受。
另外,Siri 的地位看上去也在苹果公司的内部经历调整。本月初,原本艾迪·库伊(Eddy Cue)负责的 Siri?被转去了苹果软件负责人克雷格·费德里吉(Craig Federighi)的手中,可能是 Siri 被更重视了。