不二如是 发表于 2025-9-11 11:00:00

「IndexTTS」B站开源中文最强TTS模型!生成的声音超级逼真



基于大型语言模型(LLM)的文本到语音(TTS)系统因其高自然度和强大的零样本文本到语音克隆能力,逐渐成为行业的主流。

在线感受:

https://www.bilibili.com/video/BV1owHXz7EhF

项目地址:**** Hidden Message *****

在这里,我们介绍IndexTTS系统,该系统主要基于XTTS和Tortoise模型,并增加了一些新的改进。

具体来说,在中文场景中,我们采用了一种结合字符和拼音的混合建模方法,使多音字和长尾字符的发音变得可控。

我们还对声学语音标记的码本利用进行了矢量量化(VQ)与有限标量量化(FSQ)的对比分析。

为了进一步增强语音克隆的效果和稳定性,我们引入了基于Conformer的语音条件编码器,并用BigVGAN2替换了语音码解码器。

与XTTS相比,它在自然度、内容一致性和零样本语音克隆方面取得了显著改进。

对于流行的开源TTS系统,如Fish-Speech、CosyVoice2、FireRedTTS和F5-TTS,IndexTTS具有相对简单的训练过程、更可控的使用方式以及更快的推理速度。

此外,其性能也超过了这些系统。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

不二如是 发表于 2025-9-11 13:13:01

感谢分享!!跟着小甲鱼老师学习编程!AI时代不掉队{:13_428:}

鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕超喜欢这里{:13_438:}
页: [1]
查看完整版本: 「IndexTTS」B站开源中文最强TTS模型!生成的声音超级逼真