本文背景

前段时间,直播头部公司三只羊还未走出「月饼门」,又陷入「录音门」。

一段疑似三只羊高管的录音内容被曝光,内容低俗,涉及到多位高管、主播,后来警方调查,音频内容不实,为 AI 伪造。好多人还真是无法相信,如今的AI能够到达如此以假乱真的地步。

还有短视频平台上出现了大量“雷军AI配音”的恶搞视频。

51964764-55c1-431d-8eb0-4c9c64f631c1

在这些视频中,“雷军”宣布捐款给某大学、用小米SU7撞人、远程控制小米手机进行爆炸等。到现在平台上相关话题浏览量已经过亿。

在雷军的微博评论区中也是炸锅了,各种各样评论

3b7c35de-8edd-4655-898a-e41c60085711

到底是用的什么制作的?

觉得这款工具厉害是因为它在我了解的所有语音工具中,处理长文本的能力是最强的,绝对的无可匹敌。

它可以一次性处理5000个字符,或者更多的文本。 而且还能通过3秒以内的声音样本,进行快速声音克隆,雷军语录,就是用这款工具合成的。

效果特别逼真,最重要的是,它不仅功能强大,还具备高度的自然语言处理效果。能够精确的模拟情绪,并生成高质量的音频效果

部署安装

方法一:官网安装

简介官方地址:https://github.com/SWivid/F5-TTS

2c953f71-efc3-49a6-8bb9-745828d5516d

官网的介绍是需要科学的网络环境,才能够安装相关依赖,

具体的部署教程在下方也有

a2cefa0d-0ea9-45ee-94ed-20dd206a63be

方法二:整合包直接安装

如果大家觉得麻烦,可以使用整合包,好处不需要在服务器上面部署环境,直接打开就可以使用

打开软件: 07906a9d-a586-4e40-8f8a-2bb3f6d43b64

稍等片刻

29b71941-09e9-4d55-a1df-8a53d1757a42 浏览器就会自动进入主体界面

921d13b7-34f0-4db6-8412-87c9ca4459ba

其中里面的Batched TTS就是输入文案的界面。

使用教程

在这里上传自己的音频或者你想模仿的音频。 dad4a659-2e4b-4da9-8ce9-29c5e47606bb

然后在Reference Text输入这段音频的文字,也可以不用输入,为了更精确还是输入的好,反正不需要太长

01c0facd-eb69-4df8-aa74-5f728e60c286

因为上次雷军事件,有律师说这个违法,所以我这里不示范雷军的音频了,我直接找了一个小姐姐的音频导入。

203979d9-b868-442f-9bc2-f517ae92a660

点击Synthesize开始生成,之需要等几分钟生成完毕

等待下面加载中

abb39361-2b3b-4a4e-a817-eb6ed4329594 完成 0b4fc906-8dc7-4c54-9d36-374c8cc46a30

其中这款软件还有对话声音变色的功能

对话可以通过输入两个不同的音色,整合成一个音频,而不需要你自己手动剪辑整合。 6e12b610-88c8-4e39-a23d-794ab02ee336

声音变色就是让声音有不同的情绪,可以高兴、悲伤、生气等等,当然每个情绪都需要上传对应不同的音频,高兴就上传高兴的音频,悲伤就上传悲伤的,以此类推。

78b2d0fd-41b3-4b24-9286-05a1d1c0fe7d

总结

有个小技巧大家在用的时候需要注意一下,F5支持中英文,但是不支持数字,这个点就非常的尴尬,所以你需要把数字处理一下变成中文。比如,369,变成“三六九”。F5就能正常识别了。

至于文案方面,方法太多了,最常用的还是借鉴其它的文案,目前新增了第三版重写指令,能够无字数差别重写,深度减少AI味

119181c5-f4a3-4463-92b2-8da205d89c39
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。