VoiceCraft是一种token填充神经编解码语言模型,在有声读物、网络视频和播客等野生数据的语音编辑和零镜头文本到语音(TTS)方面都达到了最先进的性能。
VoiceCraft 采用 Transformer 解码器架构,并引入了令牌重排过程,该过程结合了因果屏蔽和延迟堆叠,以实现在现有序列中生成。
在语音编辑任务中,VoiceCraft 生成的经过编辑的语音在自然度方面与未经编辑的录音几乎没有区别(经人类评估); 对于零样本 TTS,我们的模型优于之前的 SotA 模型,包括 VALL-E 和流行的商业模型 XTTS v2。
这些模型是在具有挑战性和现实的野生数据集上进行训练的,这些野生数据集包括不同的口音、说话风格、录音条件以及背景噪音和音乐,并且与其他模型和真实录音相比,我们的模型始终表现良好。 能够复制或克隆或甚至编辑你从未听过的语音,VoiceCraft 只需几秒钟的参考时间。
开始使用
1. clone the repo on in a directory on a drive with plenty of free space
git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft
2. assumes you have docker installed with nvidia container container-toolkit (windows has this built into the driver)
# https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/1.13.5/install-guide.html
# sudo apt-get install -y nvidia-container-toolkit-base || yay -Syu nvidia-container-toolkit || echo etc...
3. First build the docker image
docker build --tag "voicecraft" .
4. Try to start an existing container otherwise create a new one passing in all GPUs
./start-jupyter.sh # linux
start-jupyter.bat # windows
5. now open a webpage on the host box to the URL shown at the bottom of:
docker logs jupyter
6. optionally look inside from another terminal
docker exec -it jupyter /bin/bash
export USER=(your_linux_username_used_above)
export HOME=/home/$USER
sudo apt-get update
7. confirm video card(s) are visible inside container
nvidia-smi
8. Now in browser, open inference_tts.ipynb and work through one cell at a time
echo GOOD LUCK