「DeepSeek R1」vs OpenAI O1 vaClaude 3.5 Sonnet｜实测结果惊人！

不二如是 · 发表于 2025-2-3 11:00:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

ea7992058264fbf428cde6dae9d4e6e54bd994ee.jpg@308w_174h.jpeg

在线学习：

DeepSeek R1是由幻方量化旗下的AI公司深度求索（DeepSeek）在2025年1月发布的模型。

该模型在发布时即开源了模型权重。它在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

在数学、代码、自然语言推理等任务上，性能比肩OpenAI O1正式版。

核心特性：
高级推理：通过革命性的强化学习方法，实现包括自我验证和反思在内的复杂推理行为。
数学卓越性：在AIME 2024上达到79.8%的准确率，在MATH-500上达到97.3%。
编程专长：在Codeforces上获得2029 Elo评分，超过96.3%的人类参与者。
多阶段训练：结合强化学习和监督微调的全面训练策略。
知识整合：在MMLU上达到90.8%，在MMLU-Pro上达到84.0%。

性能指标：
语言理解： MMLU 90.8%，MMLU-Pro 84.0%，AlpacaEval 2.0 87.6%。
编程与工程： Codeforces 2029 Elo，GPQA Diamond 71.5%，ArenaHard 92.3%。
数学推理： AIME 2024 79.8%，MATH-500 97.3%。

部署选项：
模型蒸馏：提供保留推理能力的更小、更高效的模型。
云端集成：在云平台上部署，实现性能优化。
本地部署：使用优化的推理框架在本地运行。

开源信息：
模型开源License：统一使用MIT License，完全开源，不限制商用。
模型蒸馏：允许用户利用模型输出通过模型蒸馏等方式训练其他模型。

OpenAI O1是OpenAI在2024年9月发布的一系列推理模型。

这些模型设计用于在回答问题前进行深入思考，并生成一条内部推理链。

这种设计使得O1在尝试解决问题时可以识别并纠正错误，将复杂的步骤分解为更简单的部分，并在当前方法无效时尝试不同的途径。

核心特性：
深入思考：在响应用户之前产生一个很长的内部思维链。
复杂任务处理：能够处理科学、编码和数学中的复杂任务。
安全性：通过强化学习提高模型的安全性和对齐。
多版本：包括o1-preview和o1-mini，后者更高效、划算。

性能指标：
学术基准：在物理、化学和生物学挑战性任务上的表现与博士生相似。
数学和编码：在国际数学奥林匹克（IMO）资格考试中，正确解答了83%的问题。
编程能力：在Codeforces比赛中达到89th percentile。

部署选项：
API访问：通过ChatGPT和API访问。
ChatGPT Plus和Team：用户可以手动选择o1-preview或o1-mini。

Claude 3.5 Sonnet是由Anthropic在2024年6月发布的全新大模型。

它在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude 3 Opus。

Claude 3.5 Sonnet的运行速度、成本与自家前代Claude 3 Sonnet相当。

核心特性：
高性能：在研究生水平推理、知识掌握以及编码等能力方面有显著增强。
快速运行：运行速度是Claude 3 Opus的两倍。
视觉能力：在所有标准视觉基准测试中都超越了前代Claude 3 Opus。
Artifacts功能：扩展用户与Claude交互方式的新功能。

性能指标：
编码能力：在内部代理编码评估中解决了64%的问题。
视觉推理：在视觉数学推理、科学图表、视觉问答等任务中表现突出。
基准测试：在多数基准中领先GPT-4o、Gemini 1.5，以及Llama-400B的模型。

部署选项：
免费试用：已经在Claude.ai和Claude iOS应用程序上免费提供。
API访问：通过Anthropic API、亚马逊云科技Bedrock等渠道使用。
成本：每百万输入token的价格为3美元，每百万输出token的价格为15美元。

鱼油最喜欢用哪个？

tomok · 发表于 2025-2-3 17:00:20

继续优化！

小甲鱼的二师兄 · 发表于 2025-2-3 20:51:29

感觉 DeepSeek 对于中文的驾驭要比 O1 强很多，估计跟喂的饲料有关系~

不二如是 · 发表于 2025-3-9 18:42:16

感谢分享朕学到了！

账号		自动登录	找回密码
密码			立即注册

[最新资讯] 「DeepSeek R1」vs OpenAI O1 vaClaude 3.5 Sonnet｜实测结果惊人！

马上注册，结交更多好友，享用更多功能^_^

相关帖子

浏览过的版块