鱼C论坛

 找回密码
 立即注册
查看: 122|回复: 5

[已解决]cosyvoice用内置音色的最简单代码合成“我是中国人”这句话的python代码是啥?

[复制链接]
发表于 2024-12-11 18:12:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
cosyvoice用内置音色的最简单代码合成“我是中国人”这句话的python代码是啥?
最佳答案
2024-12-11 19:18:14
blackantt 发表于 2024-12-11 19:18
内置模块应该是   CosyVoice-300M 吧? CosyVoice-300 ...


CosyVoice-300M和CosyVoice-300M-SFT都是CosyVoice的模型版本,它们之间的区别主要在于训练目标和用途:

1. **CosyVoice-300M**:这个模型通常用于一般的语音合成任务,强调标准语音生成。

2. **CosyVoice-300M-SFT(Supervised Fine-Tuning)**:这个版本包含了监督微调,在特定任务或数据集上进行了进一步训练,可能针对特定用途(例如特定风格或域)进行了优化。

至于合成速度,通常情况下,这两个模型在相同的硬件和条件下应该有类似的合成速度,因为它们的架构规模相同。但是,具体的性能可能也会依赖于模型调整和优化策略。如果速度是首要考虑因素,建议进行实际测试来比较两者在相同环境下的性能。
from cosyvoice.cli.cosyvoice import CosyVoice
import torchaudio

# 使用内置的CosyVoice-300M模型
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M', load_jit=True, load_onnx=False, fp16=True)

# 列出可用的声音
print(cosyvoice.list_avaliable_spks())

# 合成“我是中国人”这句话
for i, j in enumerate(cosyvoice.inference_sft('我是中国人', '中文男', stream=False)):
    torchaudio.save('我是中国人_{}.wav'.format(i), j, 22050)

这个代码示例使用CosyVoice-300M模型进行语音合成。根据需要,您可以选择不同的模型版本来最大化性能或匹配具体的应用要求。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-12-11 18:17:23 | 显示全部楼层
要使用CosyVoice合成“我是中国人”这句话,可以使用以下Python代码。确保你安装并配置了CosyVoice:
import cosyvoice

# 初始化CosyVoice
voice = cosyvoice.CosyVoice()

# 合成语音
voice.speak("我是中国人")

以上代码使用CosyVoice库的内置音色,简单合成指定的中文句子。记得在运行代码前安装cosyvoice库。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-12-11 19:03:52 | 显示全部楼层
用这个代码来修改:
from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT', load_jit=True, load_onnx=False, fp16=True)
# sft usage
print(cosyvoice.list_avaliable_spks())
# change stream=True for chunk stream inference
for i, j in enumerate(cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女', stream=False)):
    torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-25Hz') # or change to pretrained_models/CosyVoice-300M for 50Hz inference
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
    torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)
# vc usage
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
source_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_vc(source_speech_16k, prompt_speech_16k, stream=False)):
    torchaudio.save('vc_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-12-11 19:04:12 | 显示全部楼层
blackantt 发表于 2024-12-11 19:03
用这个代码来修改:from cosyvoice.cli.cosyvoice imp ...


要使用给定的代码模板来合成“我是中国人”这句话,我们可以修改为以下代码:
from cosyvoice.cli.cosyvoice import CosyVoice
import torchaudio

# 初始化CosyVoice
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT', load_jit=True, load_onnx=False, fp16=True)

# 列出可用的声音
print(cosyvoice.list_avaliable_spks())

# 合成“我是中国人”这句话
for i, j in enumerate(cosyvoice.inference_sft('我是中国人', '中文男', stream=False)):
    torchaudio.save('我是中国人_{}.wav'.format(i), j, 22050)

这个代码将使用`CosyVoice`的内置模型来合成语音,并将结果保存为Wave文件。请确保你有对应的预训练模型文件以便正确运行代码。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-12-11 19:18:03 | 显示全部楼层
内置模块应该是   CosyVoice-300M 吧? CosyVoice-300M-SFT  跟 CosyVoice-300M 有啥区别?  哪个合成速度快?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-12-11 19:18:14 | 显示全部楼层    本楼为最佳答案   
blackantt 发表于 2024-12-11 19:18
内置模块应该是   CosyVoice-300M 吧? CosyVoice-300 ...


CosyVoice-300M和CosyVoice-300M-SFT都是CosyVoice的模型版本,它们之间的区别主要在于训练目标和用途:

1. **CosyVoice-300M**:这个模型通常用于一般的语音合成任务,强调标准语音生成。

2. **CosyVoice-300M-SFT(Supervised Fine-Tuning)**:这个版本包含了监督微调,在特定任务或数据集上进行了进一步训练,可能针对特定用途(例如特定风格或域)进行了优化。

至于合成速度,通常情况下,这两个模型在相同的硬件和条件下应该有类似的合成速度,因为它们的架构规模相同。但是,具体的性能可能也会依赖于模型调整和优化策略。如果速度是首要考虑因素,建议进行实际测试来比较两者在相同环境下的性能。
from cosyvoice.cli.cosyvoice import CosyVoice
import torchaudio

# 使用内置的CosyVoice-300M模型
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M', load_jit=True, load_onnx=False, fp16=True)

# 列出可用的声音
print(cosyvoice.list_avaliable_spks())

# 合成“我是中国人”这句话
for i, j in enumerate(cosyvoice.inference_sft('我是中国人', '中文男', stream=False)):
    torchaudio.save('我是中国人_{}.wav'.format(i), j, 22050)

这个代码示例使用CosyVoice-300M模型进行语音合成。根据需要,您可以选择不同的模型版本来最大化性能或匹配具体的应用要求。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-24 05:24

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表