“实在是太像了”只需要1分钟声音样本,就可以克隆你的声音!

科技乐小天 2024-05-11 14:15:30

这是目前非常好的声音克隆软件,只需要准备1分钟左右的声音样本,就可以快速的将你的声音完成文本转换成语音,让你从此告别每个视频都要自己录制声音的烦恼。

今天天哥给大家带来一款声音克隆软件,这款软件叫GPT-SoVITS,这是一款开源并且免费的文字转语音应用,它利用AI语音模型,能将任何人的声音进行克隆。

只需要你提供1分钟的声音样本,就可以对该声音的语气,语调,包括说话的习惯进行抓取,训练成为对应的语音模型,然后我们就可以使用该语音模型对我们输入的文字进行配音。

首先我们先把GPT-SoVITS下下来,下好之后解压缩。为了节约时间我已经解压好了。

然后打开解压好的文件,进入根目录,双击go-webui.bai,这里要注意不要以管理员身份运行,然后会弹出一个命令行的运用页面,我们需要等待一会就会出现软件的操作页面了。

第一步需要做的是对声音样本进行处理,去除声音样本的杂音和背景音,让声音样本的语音更纯净,最后生成的语音效果好坏,声音样本的质量会起到重要的作用。

我们勾选开启uvr5,然后会弹出音频分离的操作页面,把准备好的声音样本拖到这个位置,声音样本文件一定要英文名称,然后选择模型,选择哪个模型上面文字都有介绍,我选择HP2这个转换出来听听效果,转换的格式选择MP3,然后点击转换等待转换完成。

转换好之后我们打开软件根目录,找到output打开,再打开uvr5_opt这个文件夹,转换之后的语音文件就在这里,把背景声音删除掉,就剩下语音声音。

第二步是对分离好的人声样本进行切割,这里会将语音样本切割成5到10个语音片段,我们在这里填上人声样本的路径,然后其他的选项就保持默认,点击开启语音切割。

切割完成后,在output这个文件夹下的slicer_opt文件夹里面就可以看到切割好的片段了。

第三步是对声音样本做语音转文字的处理,这里的主要作用是让模型理解文字该怎么读,发什么音,为之后文字转语音做准备。在这里输入切分好的语音文件夹路径,也就是slicer_opt这个文件夹,填写好之后点击开始离线批量ASR。

结束后在asr_opt这个文件夹中会生成一个文件名为slicer_opt.list文件,可以使用文本文件打开这个文件查看里面的内容是否正确,如果有不正确的可以进行修改。

第四步进行数据格式化,我们选择1-GPT-SoVITS-TTS这个选项,在这里我们只需要填写正确的文本路径即可,文本标注文件里填写list的文件路径,训练集音频文件目录里填写人声切割的文件夹路径,填写好之后点击一键三连。

第五步模型训练,我们先给模型起个名字,这里注意一定要使用英文,显卡这里我们就设置为2,训练总轮数我们设置15,其他设置默认,设置好之后分别开启训练,这里注意第一个训练完成之后再开启第二个训练。

两个训练都完成了我们会在SoVITS_weights和GPT_ weights这两文件夹中看到训练好的语音模型。

第六步推理文字转语音,这里就是我们的最后一步了。点击刷新模型路径,在模型列表里面会出现刚才生成好的语音模型,我们选择轮数最多的模型,点击TTS推理会弹出文字转语音的操作界面。

在开始文字转语音之前我们需要一个参考语音文件,它主要的目的是决定最后生成的语音文件采用什么样的速度,什么样的语调,这个参考音频的时间在5到8秒左右,参考音频的文本这里填写好参考音频里面的说话文字内容。

在需要合成的文本里面填写好你需要生成的语音的文本内容,我这里随便找了一段文本内容,选择按标点符号切,当然怎么切根据你的实际需求,看生成的语音质量再做切换,点击合成语音,我们来听听最后的语音效果。

怎么样,效果还是不错的吧!整个操作方法就是这样,你可以通过以上的方式来录制好自己的声音样本,然后生成出属于自己的配音了,希望能通过这个软件给大家的日常工作带来便利!

0 阅读:27

科技乐小天

简介:为大家提供优质软件资源。利用高效工具可节省时间。