当前位置:首页 > 投融资 > 产业 > 产业看点 > 正文

智能语音产业:翻译机成新落地场景 各巨头争相入局

来源:21世纪经济报道 发布时间: 2018-08-03 11:14:49 编辑:诚富

导读:“智能语音目前最实在落地的场景便是翻译,如果产品确实能够做好的话,市场空间很大。”赛迪顾问人工智能研究中心副总经理向阳向21世纪经济报道记者表示。

“智能语音目前最实在落地的场景便是翻译,如果产品确实能够做好的话,市场空间很大。”赛迪顾问人工智能研究中心副总经理向阳向21世纪经济报道记者表示。

在智能语音领域,如果说去年火了智能音箱,那么今年火的便是翻译机了。

这不仅是因为翻译机产品种类的火爆,在京东搜索翻译机,能够出现超过7300件商品。在这背后,则是越来越多的玩家争相步入该市场:科大讯飞(29.550, -0.34, -1.14%)自2016年底便推出晓译翻译机,经过2017年底的升级后,于今年4月推出讯飞2.0翻译机;今年1月,搜狗公司的旅行翻译宝正式亮相,3月在京东正式启动预售;5月,小米生态链公司香蕉出行推出魔芋AI翻译机,并在微软Build开发者大会上得以展示;7月19日,猎豹移动发布AI翻译产品——小豹AI翻译棒,为翻译机市场再添战火。

除此之外,据21世纪经济报道记者不完全统计,目前市面上还有准儿翻译机、网易有道翻译蛋、百度途鸽翻译机等。甚至,有智能手机厂商还专门推出主打翻译功能的手机。

“智能语音目前最实在落地的场景便是翻译,如果产品确实能够做好的话,市场空间很大。”赛迪顾问人工智能研究中心副总经理向阳向21世纪经济报道记者表示,“不过现在许多产品性能并不足够稳定,效果也不太突出,仍有待进一步改进。”

技术趋成熟

翻译机的工作流程总体可以解读为三个步骤。

首先是翻译机内置麦克风辨识使用者说话的语言及内容,并将语音转换为文字,然后通过机器翻译引擎进行文字对文字的翻译,将原始语言转化为目标语言。最后,将翻译的内容进行语音合成并播放出来。

因此,翻译机的工作离不开三项技术核心:自动语音识别(Automatic Speech Recognition)、机器翻译(Machine Translation)和语音合成(Speech Synthesis,或称Text-to-Speech,TTS)。

其中,语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。自2009年以来,将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,提高了声学模型的准确率,同时借助大数据语料的积累,语音识别技术取得突飞猛进的进步。

在此方面,微软公司研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%。近几年来,各大科技巨头自动语音识别能力几乎均提升至95%以上。根据Gartner预测,到2020年,人类30%的浏览活动将由语音识别系统帮助完成。

语音合成又名文语转换,是将文本转换为语音的技术。如果说语音识别技术是让计算机学会“听”人的话,将输入的语音信号转换成文字,那么语音合成技术就是让计算机程序把我们输入的文字“说”出来,将任意输入的文本转换成语音输出。从语音合成发展历史来看,表现力、音质、复杂度和自然度是合成技术的技术难点所在。不过随着技术演进,当前语音合成技术在音质、复杂度和自然度方面已有了极大改善。

机器翻译同样在近几年内经历了剧变。在2013年之前,基于统计模型的机器翻译一直都是主流,此后基于人工神经网络的机器翻译(NMT, Neural Mahcine Translation) 逐渐兴起。

21世纪经济报道记者了解到,人工神经网络翻译拥有一个有海量节点的深度神经网络,通过传导运算,实现生成另一种语言的译文。2016年底,谷歌翻译开发并使用了Google神经机器翻译系统(GNMT, Google NMT)。与之前的统计模型相比,神经网络机器翻译具有译文流畅、准确易理解、翻译速度快等优点。

在种种技术成熟的加持下,如今的翻译机也具备了相当的实力。讯飞翻译负责人翟吉博向21世纪经济报道记者透露,通过语音识别、语义理解等AI技术,讯飞翻译机2.0语音识别准确率能够达到98%,目前已能够实现对34种语言的即时互译;讯飞语音引擎也已支持22种中国方言识别,该能力将逐步整合进讯飞翻译机,目前2.0产品支持粤语、河南话、四川话、东北话四种方言。

搜狗相关人士则向记者介绍,搜狗翻译硬件采用了搜狗相关AI技术。在语音识别方面,搜狗可做到准确率超过98%。

市场需求大

相关智能语音技术已基本成熟,而之所以催生出翻译机这一硬件形态,则源于天然巨大的市场需求。

据《2017年中国出境旅游大数据报告》显示,2017年中国公民出境旅游突破1.3亿人次,花费达1152.9亿美元,中国已成为泰国、日本、韩国、越南、俄罗斯等多个国家的第一大入境旅游客源地。但一直以来,语言不通是出境游人群最大的痛点。

“翻译本身是一个重大的市场需求。”搜狗副总裁吴滔表示,“中国每年出境人次很高,旅行、留学、商务等各类跨国交流需求都很旺盛,中国每年的出境人数在全球范围内处在非常高的位置,人们对翻译机的需求一直都在,跨越语言的交流都需要翻译来帮忙,但是之前是受限于技术无法实现很好的翻译效果。随着技术的进步,有了更好的翻译模型,能把翻译做得更好、更准。所以放眼未来,翻译产品的受众不会是窄众。”

然而,在手机翻译软件盛行的情况下,为何一定要以硬件形态出现?翟吉博表示,软硬件一体化产品能够更好解决真实场景的用户需求。“我们的用户大多是用过翻译APP,但在使用过程中感受并不佳。”他向21世纪经济报道记者解释道,例如,在国外嘈杂的环境下,手机对音源的识别率并不高;若通过文本输入再翻译,则非常耗时且便捷性不够。

此外,在翟吉博看来,手机作为私人物品,并不符合人与人当面交流的沟通工具的属性,在国外复杂网络环境下,手机APP也未必能达到好的体验。因此,他认为,在真实环境下,软硬件一体化产品是更优解决方案。

从产品的热销情况可一窥其火爆程度。据翟吉博介绍,目前讯飞翻译机2.0在京东平台拥有99%的好评率,销售额破亿。搜狗方面人士则告诉21世纪经济报道记者,搜狗旅行翻译宝在开售一小时后各地陆续售罄,当天销售额破1000万。

不过,围绕当下愈演愈烈的翻译机战场,各家也在基本的翻译功能之上,加入更优化的体验。翟吉博强调,定义AI+翻译的四大标准包括清、懂、准和美。讯飞翻译机2.0不仅做到了语音和物件、语音和图像翻译,更在离线翻译、方言翻译等A.I.翻译最具有难度的环节上持续发力。

与此同时,针对真实使用环境,讯飞翻译机拥有诸多考虑。例如,嘈杂环境下,翻译机在硬件和算法上进行了特殊处理,在网络情况不稳定时翻译机可变云端翻译为NMT离线翻译功能。在对背景噪音处理上,翻译机通过四麦拾音降噪,帮助更好地识别人声。

搜狗方面则表示,搜狗翻译宝目前支持中英日韩 4 种语言的离线互译,并推出拍照翻译功能,帮助翻译路牌、菜单等。

不过目前,翻译机仍处于新兴市场,且价格普遍徘徊在几百元至数千元不等,而大多数游客每年出国旅游不过两三次,线下使用频率不高。“目前翻译机垂直市场中,用户对企业的认知还需要一段时间。”吴滔表示,“不过未来随着用户认知的提升,翻译硬件市场逐步打开,我相信这个市场将会非常巨大。”