谷歌想用AI帮言语障碍者“说话” 数据集是最大挑战

来源：新浪科技　发布时间： 2019-07-13 08:35:46　编辑：Emily

导读：近几年AI领域对于残障人士的关注越来越多，企业和技术专家致力于通过AI赋能信息无障碍。

近几年AI领域对于残障人士的关注越来越多，企业和技术专家致力于通过AI赋能信息无障碍。日前在“Google Solve with AI”活动上，Google AI产品经理介绍了Google AI在针对听障和言语障碍患者人群推出的应用新进展和覆盖情况。

据Sagar Savla介绍，目前全球有 4.66 亿人患耳聋或听力障碍，这一数字在 2055 年可能会增加至 9 亿。听力受损使得人们很难与周围的世界沟通交流，这是人类社会中一项严峻的挑战。

而语音识别 (speech recognition) 功能Live Transcribe的出现，就是为听障人群解决现实问题。该功能可以实时自动转录对话，让人们参与到原本无法参与的对话中。

目前，Live Transcribe应用程序支持超过70种语言,通过在手机屏幕上把现实生活中的语音转录为文本，帮助耳聋和听障人士与他人沟通。

此外，言语障碍患者也是一个较大的群体。Google AI 产品经理Julie Cattiau在接受新浪科技采访时提到，Google今年启动的Euphonia项目，正在通过招募志愿者，积累更大的残障人士语言数据库，希望最终帮助所有的言语障碍患者进行交流。

据悉，该功能通过为言语障碍患者建立语音识别模型，和能够识别其他沟通方式( 如手势,眨眼等)的基于计算机视觉的模型，让机器去理解他们说话的方式，用AI语音技术帮这些患者“说话沟通”。

在活动现场，Julie Cattiau通过一段视频，展示了通过该功能，可以相对准确地读取出有语言障碍人士的表达。

不过，要让AI读懂言语障碍患者的表达，也存在一定的挑战。Julie Cattiau在采访中表示，现在一般的语言识别已经有大量的数据了，有很多人在使用这个平台。但是在Euphonia这个项目中，其实没有太多人参与，很多有语言障碍的人很少愿意来参与。目前，正在通过招募很多言语障碍患者志愿者，让他们朗读一些词汇，积累表达，这样就能建立一些数据。

“这些数据实际上没有那么多，虽然我们在语音识别方面取得了很大的进展，但依然存在这样的挑战”，Julie Cattiau坦言。

语音识别对于患有某些健康状况的人来说是一项至关重要的技术，但许多产品即使在最理想状态下也表现平平。

据了解，通过和这些非营利组织的合作，Euphonia项目团队需要记录更多患者的声音，然后将这些声音来训练人工智能，从而创建能够识别这些语音的算法和频谱图。

目前，由于没有人收集到足够大的数据集，语音识别技术可能不适用于有语言障碍的人士，而这将是Euphonia着手研究的部分。