根据5月26日美国科技媒体Engadget的报道,百度的DeepVoice TTS系统日前取得了巨大进步,该系统如今不仅能与人类的声音更为接近,甚至可以精准的模仿不同地区的口音。
百度方面则表示,如今的Deep Voice 2可以实现学习数百种不同的语音。虽然从每个说话者那里吸收的数据不到半个小时,但却依旧可以实现很高的音质,而以前这个过程至少需要20小时的训练。在短短几个月的时间内,Deep Voice 2系统就已经在效率上远远地超越了谷歌家的WaveNet。
百度称与Deep Voice 2之所以进步如此迅速的原因,是因为与之前的TTS系统不同,现如今的Deep Voice 2可以完全凭借自己的能力找到进行训练的语音之间的共同特点,不需要接受任何事先指导。
与此同时,百度还在一篇论文中总结道,Deep Voice 2的神经网络只需要通过数百个不同的讲话者吸收很小的声音样本便可创作很好的语音效果。
其中不得不提的一点,就是所谓的TTS其实是Text To Speech的缩写。翻译过来就是将“从文本向语音”。而这也正是人机对话的一部分,是让机器能够说话的重要因素。在内置芯片的支持之下,通过神经网络的设计,TTS可以把文字智能地转化为自然语音流。
而如何才能与机器进行自然的语音交互,是我们一直以来追求的方向。不过即便如今语音识别已经达到了相当高的准确度,但在语音交互的回路中不只有语音识别,深度神经网络在促进语音合成的发展上也有非常大的潜力。
如今百度在语音交互的探索,可以说是在BAT中,发力最猛,布局最广的企业,大有将宝压在语音交互上的意思。而百度为此不仅聘请了世界顶级的语音交互专家,同时百度还组建了多个涉及到语音交互的项目团队。
由此看来,可能要不了多久就能听到数字语音助手用更加自然的语音与我们交流。
电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。
作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。
投稿、商务合作请联络微信公众号
声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。