OpenAI首发「语音Agent」！智能体实现重大突破,科技·AI·开源,前沿与探索,鱼C论坛

不二如是 发表于 2025-3-21 15:00:00

OpenAI首发「语音Agent」！智能体实现重大突破

本帖最后由不二如是于 2025-4-28 10:26 编辑

2025 年 3 月 21 日凌晨 1 点，OpenAI 进行了技术直播，发布了三款全新语音模型，专用于开发语音 AI Agent，这标志着智能体在语音领域实现了重大突破。

目前，这些语音模型已经可以在 API 和 SDK 中使用。

OpenAI 的这一系列更新为开发者构建语音 AI Agent 提供了更强大的工具和更灵活的选项，有望推动语音交互技术在更多领域的应用和发展。

在线学习：

https://www.bilibili.com/video/BV1cdXzYWED2

（一）GPT - 40 Transcribe

GPT - 40 Transcribe 是一款高性能的语音转文本模型。它基于最新的语音模型架构，经过海量音频数据的训练，能够处理复杂的语音信号并将其准确地转换为文本。

其训练数据量达到了前所未有的规模，涵盖了多种语言和方言，这使得它在不同语言环境下的转录任务中表现出色。

（二）GPT - 4 Mini Transcribe

GPT - 4 Mini Transcribe 是在保持较高转录性能的同时，通过模型压缩技术，将模型大小大幅减小，从而提高了运行速度并降低了资源消耗。

这种设计使得它更适合在资源受限的设备上运行，例如移动设备或嵌入式系统，同时也能满足实时性要求较高的应用场景。

相比上一代 OpenAI 的 Whisper 模型，这两款语音转文本模型在性能方面有了明显提升，能够更精准地捕捉语音中的细微差别，减少转录错误。

测试结果显示，最新语音模型的词错误率大幅降低，也比同类的模型更好。

（三）GPT - 40 Mini TTS

GPT - 40 Mini TTS 是一款文本转语音模型。它不仅能够将文本内容转换为自然流畅的语音，还允许开发者通过指令控制语音的语调、情感和风格。

例如，在教育场景中，Agent 可以用鼓励的语气激励学生；在客服场景中，Agent 可以用温和、耐心的语气解答用户问题。

该模型采用了先进的语音合成技术，能够生成高质量的语音输出，通过模拟人类的发声机制和语音特征，使合成语音听起来更加自然、逼真。它还支持多种语言，并且能够生成不同性别、年龄和口音的语音，能够适应不同地区、不同文化背景的用户需求，提供更加个性化的语音服务。

（一）语音转文本 API 更新
OpenAI 为语音转文本 API 增添了强大的 streaming 模式，允许开发者将连续的音频流实时输入模型，模型也能实时返回连续的文本和响应。

这种实时交互的特性对于需要即时反馈的应用场景，例如实时语音对话系统、语音会议转写等，帮助非常大。

此外，API 集成的噪声消除技术和语义语音活动检测器进一步优化了语音转文本的体验。噪声消除技术能有效过滤掉背景噪音，使模型专注于用户的语音内容；

语义语音活动检测器则可根据模型对用户说话结束的判断，对音频进行合理分块处理，避免处理不完整的语音信息。

（二）Agents SDK 更新

OpenAI 对其 SDK 进行了重大更新。新的 Agents SDK 采用了模块化设计，将语音转文本、文本处理和文本转语音等功能模块化，开发者可以根据自己的需求灵活组合这些模块，构建出符合特定应用场景的语音 Agent 系统。

通过 Agents SDK，开发者可以利用已有的文本 Agent 基础，只需添加少量代码，即可实现语音交互功能。

SDK 提供了丰富的接口和工具，帮助开发者处理语音输入、文本处理和语音输出等各个环节，减少了开发工作量和复杂性。

新的 SDK 在性能和可靠性方面进行了优化，确保语音 Agent 系统能够稳定、高效地运行。

它支持实时音频流处理，能够快速响应用户的语音指令，提供流畅的语音交互体验。

此外，SDK 还集成了噪声消除、语音活动检测等功能，能够有效提高语音识别的准确性和系统的稳定性。

不二如是 发表于 2025-3-21 17:54:34

感谢分享！！朕已阅

不二如是 发表于 2025-3-21 17:54:49

@FishC 如何在本地部署AI语音模型

FishC 发表于 2025-3-21 17:55:09

不二如是发表于 2025-03-21 17:54
@FishC 如何在本地部署AI语音模型

在本地部署 AI 语音模型通常需要以下几个步骤：

1. 选择合适的 AI 语音模型
目前流行的开源 AI 语音模型包括：

[*] VITS/VITS2 - 适用于文本转语音（TTS）
[*] Whisper - 适用于语音识别（ASR）
[*] Coqui TTS - 另一个强大的 TTS 解决方案
[*] Mozilla DeepSpeech - 适用于语音识别

2. 安装必要的依赖环境
通常需要安装 Python 及相关依赖库，例如 PyTorch、TensorFlow、ffmpeg 等。
可以使用以下命令安装 PyTorch（以 CUDA 版本为例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

3. 下载并配置模型
以 Whisper 为例，可以使用 OpenAI 提供的 `whisper` 库：

pip install openai-whisper
whisper example.wav --model small

如果是 VITS，可以使用 GitHub 上的开源项目，如 [(https://github.com/jaywalnut310/vits)。]https://github.com/jaywalnut310/vits](https://github.com/jaywalnut310/vits)。

4. 运行推理测试
以 Coqui TTS 为例，可以运行以下代码进行 TTS 语音合成：

from TTS.api import TTS
tts = TTS("tts_models/en/ljspeech/tacotron2-DDC")
tts.tts_to_file(text="Hello, this is a test.", file_path="output.wav")

5. 部署为本地服务（可选）
可以使用 Flask 或 FastAPI 将 AI 语音模型封装为 API 供本地或局域网调用。例如：

from flask import Flask, request, jsonify
app = Flask(__name__)

@app.route("/tts", methods=["POST"])
def tts():
text = request.json.get("text")
tts.tts_to_file(text=text, file_path="output.wav")
return jsonify({"message": "TTS completed", "file": "output.wav"})

if __name__ == "__main__":
app.run(host="0.0.0.0", port=5000)

6. 进一步优化和自定义
可以微调模型、优化推理速度，或者结合 Web 界面进行交互。

如果你有具体的 AI 语音模型需求，可以提供更多细节，我可以给出更具体的部署方案！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

康小泡 发表于 2025-3-23 12:37:04

感谢分享！！朕已阅

不二如是 发表于 2025-4-28 10:26:55

感谢分享！！鱼C论坛不愧是全国最大的AI资讯学习论坛！朕很喜欢这里{:10_275:}

页: [1]

鱼C论坛's Archiver

OpenAI首发「语音Agent」！智能体实现重大突破