众所周知,谷歌近年来在人工智能领域做了大量的实验。今天,谷歌在这一领域又向前迈进了一步。Google声称其ai驱动的语音合成系统tacotron 2最新版本基本达到了人类语音的效果。Google还上传了一些tacotron 2的语音样本,让大家体验最新的技术。

Tacotron 2是谷歌的第二代语音到文本转换技术,结合了两个深度神经网络,达到近乎完美的输出效果。神经网络的第一层负责将文本转换为声谱图(pdf),并渲染具有视觉效果的音频。转换成声谱图后,提交给wavenet,这是一个由deepmind开发的系统,deep mind是字母表的人工智能研究实验室。Wavenet读取频谱图并生成与之类似的声音元素。

[科技资讯] 谷歌称语音合成系统Tacotron 2已达人类说话效果

语音转文本技术当然不是新技术。但谷歌声称其文字转语音技术高于市场上大多数同类技术,与人类发音没有区别。

Tacotron 2的发音会结合上下文,不同于市面上一个字一个字读的方式。此外,系统会对标点符号做出反应,并强调句子中的大写单词。

想体验这种对比音频的玩家可以点击这个链接。有两个语音样本,Google并没有指明哪一个是tacotron 2读的,哪一个是人类读的。但是如果你深入挖掘文件来源,你就能发现哪个音频来自tacotron 2。

听了语音样本,通过源代码模式找出哪个段落是tacotron 2写的,可以发现Google确实交出了一个惊人的答案。这个声音真的很接近人类的发音,虽然不完全一致,但是已经很接近了。比起市面上那些类似机器的技术,要好得多。而且我们还能听到文本中的标点符号和相应的节奏变化。

标题:[科技资讯] 谷歌称语音合成系统Tacotron 2已达人类说话效果

地址:http://www.heliu2.cn/xw/3397.html