我是新来的librosa
和voice/sound
分析的人。我已经搜索了这个简单的问题SO
,google
但是没有得到可以理解的答案。
考虑有两个声音A
和B
。我想转换voice A
成voice B
。
有了这两种声音,是否有可能做一些A
听起来像的声音B
?
这类任务有时称为“样式转换”,其中使内容(说的话)保持相同,但通过样式(韵律,说出方式)来更改表达。要搜索的一些关键字是语音样式转移,语音样式转移,音频样式转移,语音翻译,语音克隆,韵律转移。这是该领域的从业人员Kyle Kastner的一些方法的解释。
良好的言语风格转换是一项艰巨的任务,并且最近几年有很多研究论文。许多使用神经网络的语音转换系统都是文本转语音(TTS)/语音合成模型的改编,例如Tacotron,Tacotron 2或Wavenet。
Github上有许多开源的神经语音样式转换论文实现,但是其中许多需要大量设置才能使用(下载数据集,模型,格式化输入等)。最受欢迎的替代方法之一是实时语音克隆,它应该能够以5秒钟的音频克隆语音。另一个示例是https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/
感谢您的回答。