鱼C论坛

 找回密码
 立即注册
查看: 87|回复: 2

[最新资讯] 「DeepSeek R1」vs OpenAI O1 vaClaude 3.5 Sonnet|实测结果惊人!

[复制链接]
发表于 3 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
ea7992058264fbf428cde6dae9d4e6e54bd994ee.jpg@308w_174h.jpeg

在线学习:



DeepSeek R1是由幻方量化旗下的AI公司深度求索(DeepSeek)在2025年1月发布的模型。

该模型在发布时即开源了模型权重。它在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

在数学、代码、自然语言推理等任务上,性能比肩OpenAI O1正式版。

核心特性:
高级推理: 通过革命性的强化学习方法,实现包括自我验证和反思在内的复杂推理行为。
数学卓越性: 在AIME 2024上达到79.8%的准确率,在MATH-500上达到97.3%。
编程专长: 在Codeforces上获得2029 Elo评分,超过96.3%的人类参与者。
多阶段训练: 结合强化学习和监督微调的全面训练策略。
知识整合: 在MMLU上达到90.8%,在MMLU-Pro上达到84.0%。

性能指标:
语言理解: MMLU 90.8%,MMLU-Pro 84.0%,AlpacaEval 2.0 87.6%。
编程与工程: Codeforces 2029 Elo,GPQA Diamond 71.5%,ArenaHard 92.3%。
数学推理: AIME 2024 79.8%,MATH-500 97.3%。

部署选项:
模型蒸馏: 提供保留推理能力的更小、更高效的模型。
云端集成: 在云平台上部署,实现性能优化。
本地部署: 使用优化的推理框架在本地运行。

开源信息:
模型开源License: 统一使用MIT License,完全开源,不限制商用。
模型蒸馏: 允许用户利用模型输出通过模型蒸馏等方式训练其他模型。



OpenAI O1是OpenAI在2024年9月发布的一系列推理模型。

这些模型设计用于在回答问题前进行深入思考,并生成一条内部推理链。

这种设计使得O1在尝试解决问题时可以识别并纠正错误,将复杂的步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。

核心特性:
深入思考: 在响应用户之前产生一个很长的内部思维链。
复杂任务处理: 能够处理科学、编码和数学中的复杂任务。
安全性: 通过强化学习提高模型的安全性和对齐。
多版本: 包括o1-preview和o1-mini,后者更高效、划算。

性能指标:
学术基准: 在物理、化学和生物学挑战性任务上的表现与博士生相似。
数学和编码: 在国际数学奥林匹克(IMO)资格考试中,正确解答了83%的问题。
编程能力: 在Codeforces比赛中达到89th percentile。

部署选项:
API访问: 通过ChatGPT和API访问。
ChatGPT Plus和Team: 用户可以手动选择o1-preview或o1-mini。



Claude 3.5 Sonnet是由Anthropic在2024年6月发布的全新大模型。

它在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude 3 Opus。

Claude 3.5 Sonnet的运行速度、成本与自家前代Claude 3 Sonnet相当。

核心特性:
高性能: 在研究生水平推理、知识掌握以及编码等能力方面有显著增强。
快速运行: 运行速度是Claude 3 Opus的两倍。
视觉能力: 在所有标准视觉基准测试中都超越了前代Claude 3 Opus。
Artifacts功能: 扩展用户与Claude交互方式的新功能。

性能指标:
编码能力: 在内部代理编码评估中解决了64%的问题。
视觉推理: 在视觉数学推理、科学图表、视觉问答等任务中表现突出。
基准测试: 在多数基准中领先GPT-4o、Gemini 1.5,以及Llama-400B的模型。

部署选项:
免费试用: 已经在Claude.ai和Claude iOS应用程序上免费提供。
API访问: 通过Anthropic API、亚马逊云科技Bedrock等渠道使用。
成本: 每百万输入token的价格为3美元,每百万输出token的价格为15美元。

鱼油最喜欢用哪个?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 3 天前 | 显示全部楼层
继续优化!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 3 天前 | 显示全部楼层
感觉 DeepSeek 对于中文的驾驭要比 O1 强很多,估计跟喂的饲料有关系~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-6 09:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表