贺水乡！将AI进行到底，【Perfect】与AI对对碰 + AI替声教学干货 - 2024年1月22日文学城存档

白宫发言人

一年多

楼主 (文学城)

恭喜水乡荣任版主
新春对对碰，何不与自己的AI碰一碰

01. 真人 and AI 对唱
02. AI 仿声独唱
03. 真人独唱
04. 这个最牛叉 - Ed Sheeran的原唱

00:00 00:00

如果您是电脑小白，对电脑一无所知，谢谢听歌。请点赞并退出
你可能会问，全民还有大把平台提供AI仿声，点解还要费劲巴拉自己整。。别急，把整篇读完再问不迟。。不过这干货啊通常都是裹脚布

下面是干货，如何用你的声纹替换大明星们的原唱 - 完全免费，完全免费，完全免费
首先你得有台电脑，配备Nvidia或AMD或Intel的显卡。
下载Retrieval-based-Voice-Conversion-WebUI软件:
用Nvidia显卡的用以下链接：
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC1006Nvidia.7z
用AMD或Intel的用以下链接：
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC1006AMD_Intel.7z
文件较大，解压后大概10G+。然后用command line/终端窗口进入该解压目录并运行一个叫“go-web.bat”的程序，整个过程不要关闭此终端窗口：

稍等片刻系统会打开这个界面，就可以开始操作了：

界面看似复杂，上方一共有6个子界面，我们只需要用到前3个。

在开始训练AI之前，你首先要准备足够的个人干声，10-50分钟的纯净干声 - 没有配乐，没有混响的那种，可以是你以前录歌时的干声。如果你天生五音不全，也没关系，毛语录或习思想，念个二三十分钟就成。然后把干声文件放在一个文件夹下，下面的步骤会用到。这些文件可以是一个个单独文件，也可以把这些单独文件拼接成一个大文件，大小及形式（mp3/wav）不限 - 例如，我把我的干声拼接成一个文件，并放在C:\Users\click\Downloads\RVC\myvocal 文件夹下：

以上准备工作完成后，我们可以正式开工咧。

Step1. 想用AI帮你替换声音，首先当然要训练AI来提取你的声纹特征，所以我们先点选第三个子界面“Train/训练”：
1a. 给这个声优起个名字，比如"nidaye"。
1b. 输入你存放干声的文件夹路径。
1c. 点击“Process data”, 稍等片刻右侧“Output infomation”会显示结果。
1d. 点击“Feature extraction”, 稍等片刻右侧“Output infomation”会显示结果。
1e. 这个因人而异，训练的世代“Epochs”越多，AI会对你的声纹特质掌握的更精确，当然耗时也更长。“Batch size per GPU”通常是“8”，除非电脑配备高端GPU。
1f. 点击“One click traing”。这一步耗时取决于上一步的Epoch数量，及电脑配置。我的笔电是i9 Gen13/128GB RAM/4090的顶配，200个Epochs耗时75分钟；基于电脑配置，这一步AI学舌有可能耗时数小时，甚至整晚。

当你的终端窗口出现类似如下字样时，恭喜你，你已经获得了一只用你的声纹发音几乎可以乱真的AI声优咧。

Step2. 接下来就是取得目标歌手的原始干声。这一步可以通过第2子界面所提供的工具来剥离原声及伴奏音乐。网上也有不少免费的AI声乐剥离服务，效果近似，所以我在这里就不赘述。
然鹅，不论是本地或线上剥离的干声，或多或少都会有少许漏音，从而影响AI的替因效果。除非你是专业人士，否则很难去除这些漏音。那么有什么办法可以获取大牌歌手们的纯净干声呢？答案就是尽可能搜到他们的官方原声。
许多大牌歌手在打歌同时会释出录音棚原声，我们只需要搜索“Studio Acapella”或者“Offical Acapella”就会跳出很多资源。这里我们以歌手蕾哈娜为例：

我们下载她的“Don't stop the music”原声。需要注意的是，大部分“studio acapella”是带混响效果的，对AI来讲带混响的原声会产生部分失真，所以最好是对歌手原声进行去混响处理。但如果你对最后作品的要求不是很苛刻，可以省掉去混响的步骤，直接跳到Step 3。
下面我简单介绍下通过第2子界面所提供的工具来去除混响。该界面很简单，包含需要被处理的原声所在文件夹路径，干声输出路径，伴奏输出路径，及工具包选项：HP2/HP3/HP5用于剥离声音及伴奏，“onnx_dereverb"去混响，"VR-DeEchoAggressive"加强去回声，"VR-DeEchoDeReverb"即去混响又去回声，"VR-DeEchoNormal"普通去回声。软件作者建议是先“onnx_dereverb"去混响，再用"VR-DeEchoAggressive"加强去回声。个人建议是每处理一次听一下输出的干声，如果觉得可接受，就没必要再处理：

我对蕾哈娜的原声只做了"onnx_dereverb"去混响处理，效果听起来是这样滴：

我认为没必要再处理，可以执行最后的Step3了。

Step3. 下面就是用咱们刚刚驯化的AI声优来替换蕾哈娜的环节，我们点选子界面1，“Model Inference”：
3a. 刷新声优目录。
3b. 在下拉菜单中点选刚刚创建的声优 - nidaye。
3c. 输入经处理过的蕾哈娜干声的路径。
3d. 在下拉菜单中点选nidaye相应的索引文件。
3e. 男替女通常得降12个key。
3f. 点击“替换”

几秒后，蕾哈娜就变成了你雷大爷