百度提出 Deep Voice:实时的神经语音合成系统
游客
2025-07-15 20:01:45
4
百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。
百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量文本转语音系统。而如今建立这样一个系统最大的障碍就是音频合成的速度,因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题,并且已经做到了实时的语音合成,这相比以前的 WaveNet 推理的实现有 400 倍的加速。
从文本合成人工语音,也就是我们所熟知的文本转语音(TTS),在许多的应用中都是非常重要的组件,比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上,它使得人类在不需要视觉界面的情况下能与科技进行交互。
现代 TTS 系统主要基于复杂的、多阶段处理流程(pipeline),每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性,开发新的 TTS 系统需要大量的人力,也非常的困难。
Deep Vioce 受启发于传统的文本转语音处理流程采用了同样的架构,但使用神经网络取代了所有组件且使用了更简单的特征。这使得我们的系统更适用于新数据集、语音和没有任何手动数据注释或其他特征调配的领域。
Deep Voice 为真正的端到端语音合成奠定了基础,这种端到端系统没有复杂的处理流程,也不依赖于人工调配(hand-engineered)的特征作为输入或进行预训练(pre-training)。
我们目前的流程并不是端到端的,由音素模型(phoneme model)和语音合成组件所构成。下面的剪辑是通过整个流程由文本合成的语音。音频可点击原文链接http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/ 查看。
这个声音有机械的性质是因为整个流程的结构和音位模型,如果只是语音合成组件的话会生成更自然的语音。以下是仅仅使用语音合成组件的语音剪辑,其使用的特征直接来源于实际的语音而不是音位模型。
这些样本听起来非常接近原始音频,这也表示我们的语音合成系统组件能很有效地生成人类语音。
深度学习变革了包括计算机视觉和语音识别在内的许多领域,我们相信语音合成如今也到了一个跳变点。我们期待看到深度学习社区能想到新的东西,并希望通过分享我们的文本转语音系统能加速此进程。
更多的细节,可查看我们的论文:
论文:Deep Voice: Real-time Neural Text-to-Speech
摘要:我们提出了一种高质量的、完全构建于深度神经网络的文本转语音系统 Deep Voice,它为真正的端到端神经语音合成奠定了基础。该系统包含 5 个重要基础:定位音素边界的分割模型、字母到音素(grapheme-to-phoneme) 的转换模型、音素时长预测模型、基础频率预测模型、音频合成模型。对分割模型,我们提出了一种使用深度神经网络完成音素边界检测的新方法,它使用了 CTC(connectionist temporal classification)损失函数。对音频合成模型,我们部署了 WaveNet 的变体,它要比原始的 WaveNet 需要更少的参数、训练速度更快。在每个组件上使用神经网络,我们系统要比传统的文本转语音系统更简单、更灵活(传统的组件需要费劲的人工调配以及大量的专业知识)。最后,我们演示了无论是 GPU 还是 CPU 上使用我们的系统进行推理,能够比实时的、说是最好的 WaveNet 推理核函数更快,比已有的实现快了 400 多倍。
原文链接:http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《百度提出 Deep Voice:实时的神经语音合成系统》
标签:百度
- 搜索
- 最新文章
- 热门文章
-
- 7月上分推荐:戈娅发育路一枝独秀,吕布对抗路枯木逢春
- OPPO K13新机曝光:骁龙8sGen4+“亚索风扇”,性能大幅提升
- 小米16外观曝光:两款小屏+两款大屏,全面对标iPhone17系列
- 预算低于3000!既要小屏又要续航,除了一加13T还有谁?
- 全系高刷加持!但等级依旧森严,感觉iPhone 17不香了小结
- 华为老机型还能用多久?系统更新卡脖子,用户纠结换机难题
- 为什么说iPhone17会是一款真香机?这两大升级很关键
- 短视频优化该怎么写文案?如何提升视频内容的吸引力和观看率?
- 抖音干倒了剪辑师会怎么样?视频内容创作的未来趋势是什么?
- 抖音剪辑制作高清视频怎么做?有哪些技巧和步骤?
- 怎么练习抖音剪辑?掌握这些技巧快速提高视频编辑能力?
- 快手关键词怎么设置?掌握这些技巧让你的内容更易被发现?
- MSI四强尘埃落定!LPL正式重回第二赛区!Bin自信晋级决赛引热议
- 快手短剧推广二次剪辑的最快方法是什么?
- 小红书怎么找关键词?找关键词的有效方法有哪些?
- 营销必逛网站视频怎么拍?拍摄技巧和常见问题解答?
- 如何制作影视剪辑抖音热门作品?需要掌握哪些技巧?
- 抖音广告美食剪辑版怎么做?如何快速吸引观众?
- 苹果新品发布会官宣:9月,十几款新品轰炸全场
- 抖音视频剪辑技巧有哪些?如何快速高效剪辑抖音视频?
- 热门tag