Real-Time-Voice-Cloning - 5秒克隆语音,实时生成任意语音

Created at: 2019-05-26 16:56:15
Language: Python
License: NOASSERTION

实时语音克隆

此存储库是使用实时工作的声码器从说话人验证到多说话人文本到语音合成 (SV2TTS) 的迁移学习的实现。这是我的硕士论文

SV2TTS是一个分三个阶段的深度学习框架。在第一阶段,人们从几秒钟的音频中创建声音的数字表示。在第二和第三阶段,此表示用作参考以生成给定任意文本的语音。

视频演示(点击图片):

工具箱演示

已实施的文件

网址 指定 标题 实现源
1806.04558 SV2TTS 将学习从说话人验证转移到多说话人文本到语音合成 此回购
1802.08435 WaveRNN (声码器) 高效的神经音频合成 胖弦/波弦
1703.10135 塔科特龙(合成器) Tacotron:迈向端到端语音合成 胖弦/波弦
1710.10467 GE2E (编码器) 扬声器验证的通用端到端损耗 此回购

小心

就像深度学习中的其他一切一样,这个存储库很快就会过时。许多其他开源存储库或 SaaS 应用程序(通常付费)将为你提供比此存储库更好的音频质量。如果你关心要克隆的语音的保真度及其表现力,以下是替代语音克隆解决方案的一些个人建议:

  • 查看 CoquiTTS 以获取更新的开源存储库,具有更好的语音克隆质量和更多功能。
  • 查看其他存储库的论文和语音合成领域的最新研究。
  • 查看 Resemble.ai(免责声明:我在那里工作)以获得最先进的语音克隆,几乎没有麻烦。

设置

1. 安装要求

  1. Windows和Linux都受支持。建议使用 GPU 进行训练和推理速度,但这不是强制性的。
  2. 建议使用 Python 3.7。Python 3.5或更高版本应该可以工作,但你可能不得不调整依赖项的版本。我建议使用 设置虚拟环境,但这是可选的。
    venv
  3. 安装 ffmpeg。这是读取音频文件所必需的。
  4. 安装 PyTorch。选择最新的稳定版本、你的操作系统、你的包管理器(默认情况下为 pip),如果你有 GPU,最后选择任何建议的 CUDA 版本,否则选择 CPU。运行给定的命令。
  5. 使用 安装 剩余要求
    pip install -r requirements.txt

2. (可选)下载预训练模型

预训练模型现在会自动下载。如果这对你不起作用,你可以在此处手动下载它们。

3. (可选)测试配置

在下载任何数据集之前,可以先使用以下方法测试配置:

python demo_cli.py

如果所有测试都通过,你就可以开始了。

4. (可选)下载数据集

对于单独使用工具箱,我只建议下载LibriSpeech/train-clean-100。提取内容,因为其中是你选择的目录。工具箱中支持其他数据集,请参阅此处。你可以自由地不下载任何数据集,但是你将需要自己的数据作为音频文件,或者你必须使用工具箱进行录制。

<datasets_root>/LibriSpeech/train-clean-100
<datasets_root>

5.启动工具箱

然后,你可以尝试使用工具箱:

python demo_toolbox.py -d <datasets_root>


python demo_toolbox.py

具体取决于你是否下载了任何数据集。如果你正在运行 X 服务器或遇到错误,请参阅此问题

Aborted (core dumped)