[已解决]cosyvoice用内置音色的最简单代码合成“我是中国人”这句话的python代码是啥？

blackantt · 发表于 2024-12-11 18:12:14

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

cosyvoice用内置音色的最简单代码合成“我是中国人”这句话的python代码是啥？

最佳答案

月排行榜 / 总排行榜

FishC

2024-12-11 19:18:14

blackantt 发表于 2024-12-11 19:18
内置模块应该是 CosyVoice-300M 吧？ CosyVoice-300 ...

CosyVoice-300M和CosyVoice-300M-SFT都是CosyVoice的模型版本，它们之间的区别主要在于训练目标和用途：

1. **CosyVoice-300M**：这个模型通常用于一般的语音合成任务，强调标准语音生成。

2. **CosyVoice-300M-SFT（Supervised Fine-Tuning）**：这个版本包含了监督微调，在特定任务或数据集上进行了进一步训练，可能针对特定用途（例如特定风格或域）进行了优化。

至于合成速度，通常情况下，这两个模型在相同的硬件和条件下应该有类似的合成速度，因为它们的架构规模相同。但是，具体的性能可能也会依赖于模型调整和优化策略。如果速度是首要考虑因素，建议进行实际测试来比较两者在相同环境下的性能。

from cosyvoice.cli.cosyvoice import CosyVoice
import torchaudio
# 使用内置的CosyVoice-300M模型
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M', load_jit=True, load_onnx=False, fp16=True)
# 列出可用的声音
print(cosyvoice.list_avaliable_spks())
# 合成“我是中国人”这句话
for i, j in enumerate(cosyvoice.inference_sft('我是中国人', '中文男', stream=False)):
torchaudio.save('我是中国人_{}.wav'.format(i), j, 22050)

复制代码

这个代码示例使用CosyVoice-300M模型进行语音合成。根据需要，您可以选择不同的模型版本来最大化性能或匹配具体的应用要求。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

跳转到最佳答案楼层

FishC · 发表于 2024-12-11 18:17:23

要使用CosyVoice合成“我是中国人”这句话，可以使用以下Python代码。确保你安装并配置了CosyVoice：

import cosyvoice
# 初始化CosyVoice
voice = cosyvoice.CosyVoice()
# 合成语音
voice.speak("我是中国人")

复制代码

以上代码使用CosyVoice库的内置音色，简单合成指定的中文句子。记得在运行代码前安装cosyvoice库。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

blackantt · 发表于 2024-12-11 19:03:52

用这个代码来修改：

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT', load_jit=True, load_onnx=False, fp16=True)
# sft usage
print(cosyvoice.list_avaliable_spks())
# change stream=True for chunk stream inference
for i, j in enumerate(cosyvoice.inference_sft('你好，我是通义生成式语音大模型，请问有什么可以帮您的吗？', '中文女', stream=False)):
torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-25Hz') # or change to pretrained_models/CosyVoice-300M for 50Hz inference
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)
# vc usage
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
source_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_vc(source_speech_16k, prompt_speech_16k, stream=False)):
torchaudio.save('vc_{}.wav'.format(i), j['tts_speech'], 22050)
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter>[laughter][breath]
for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时，他展现了非凡的勇气与智慧。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)

复制代码

FishC · 发表于 2024-12-11 19:04:12

blackantt 发表于 2024-12-11 19:03
用这个代码来修改：from cosyvoice.cli.cosyvoice imp ...

要使用给定的代码模板来合成“我是中国人”这句话，我们可以修改为以下代码：

from cosyvoice.cli.cosyvoice import CosyVoice
import torchaudio
# 初始化CosyVoice
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT', load_jit=True, load_onnx=False, fp16=True)
# 列出可用的声音
print(cosyvoice.list_avaliable_spks())
# 合成“我是中国人”这句话
for i, j in enumerate(cosyvoice.inference_sft('我是中国人', '中文男', stream=False)):
torchaudio.save('我是中国人_{}.wav'.format(i), j, 22050)

复制代码

这个代码将使用`CosyVoice`的内置模型来合成语音，并将结果保存为Wave文件。请确保你有对应的预训练模型文件以便正确运行代码。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

blackantt · 发表于 2024-12-11 19:18:03

内置模块应该是 CosyVoice-300M 吧？ CosyVoice-300M-SFT 跟 CosyVoice-300M 有啥区别？哪个合成速度快？

FishC · 发表于 2024-12-11 19:18:14

blackantt 发表于 2024-12-11 19:18
内置模块应该是 CosyVoice-300M 吧？ CosyVoice-300 ...

CosyVoice-300M和CosyVoice-300M-SFT都是CosyVoice的模型版本，它们之间的区别主要在于训练目标和用途：

1. **CosyVoice-300M**：这个模型通常用于一般的语音合成任务，强调标准语音生成。

2. **CosyVoice-300M-SFT（Supervised Fine-Tuning）**：这个版本包含了监督微调，在特定任务或数据集上进行了进一步训练，可能针对特定用途（例如特定风格或域）进行了优化。

至于合成速度，通常情况下，这两个模型在相同的硬件和条件下应该有类似的合成速度，因为它们的架构规模相同。但是，具体的性能可能也会依赖于模型调整和优化策略。如果速度是首要考虑因素，建议进行实际测试来比较两者在相同环境下的性能。

from cosyvoice.cli.cosyvoice import CosyVoice
import torchaudio
# 使用内置的CosyVoice-300M模型
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M', load_jit=True, load_onnx=False, fp16=True)
# 列出可用的声音
print(cosyvoice.list_avaliable_spks())
# 合成“我是中国人”这句话
for i, j in enumerate(cosyvoice.inference_sft('我是中国人', '中文男', stream=False)):
torchaudio.save('我是中国人_{}.wav'.format(i), j, 22050)

复制代码

这个代码示例使用CosyVoice-300M模型进行语音合成。根据需要，您可以选择不同的模型版本来最大化性能或匹配具体的应用要求。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

[已解决]cosyvoice用内置音色的最简单代码合成“我是中国人”这句话的python代码是啥？

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块