|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
在线学习:
DeepSeek R1是由幻方量化旗下的AI公司深度求索(DeepSeek)在2025年1月发布的模型。
该模型在发布时即开源了模型权重。它在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
在数学、代码、自然语言推理等任务上,性能比肩OpenAI O1正式版。
核心特性:
高级推理: 通过革命性的强化学习方法,实现包括自我验证和反思在内的复杂推理行为。
数学卓越性: 在AIME 2024上达到79.8%的准确率,在MATH-500上达到97.3%。
编程专长: 在Codeforces上获得2029 Elo评分,超过96.3%的人类参与者。
多阶段训练: 结合强化学习和监督微调的全面训练策略。
知识整合: 在MMLU上达到90.8%,在MMLU-Pro上达到84.0%。
性能指标:
语言理解: MMLU 90.8%,MMLU-Pro 84.0%,AlpacaEval 2.0 87.6%。
编程与工程: Codeforces 2029 Elo,GPQA Diamond 71.5%,ArenaHard 92.3%。
数学推理: AIME 2024 79.8%,MATH-500 97.3%。
部署选项:
模型蒸馏: 提供保留推理能力的更小、更高效的模型。
云端集成: 在云平台上部署,实现性能优化。
本地部署: 使用优化的推理框架在本地运行。
开源信息:
模型开源License: 统一使用MIT License,完全开源,不限制商用。
模型蒸馏: 允许用户利用模型输出通过模型蒸馏等方式训练其他模型。
OpenAI O1是OpenAI在2024年9月发布的一系列推理模型。
这些模型设计用于在回答问题前进行深入思考,并生成一条内部推理链。
这种设计使得O1在尝试解决问题时可以识别并纠正错误,将复杂的步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。
核心特性:
深入思考: 在响应用户之前产生一个很长的内部思维链。
复杂任务处理: 能够处理科学、编码和数学中的复杂任务。
安全性: 通过强化学习提高模型的安全性和对齐。
多版本: 包括o1-preview和o1-mini,后者更高效、划算。
性能指标:
学术基准: 在物理、化学和生物学挑战性任务上的表现与博士生相似。
数学和编码: 在国际数学奥林匹克(IMO)资格考试中,正确解答了83%的问题。
编程能力: 在Codeforces比赛中达到89th percentile。
部署选项:
API访问: 通过ChatGPT和API访问。
ChatGPT Plus和Team: 用户可以手动选择o1-preview或o1-mini。
Claude 3.5 Sonnet是由Anthropic在2024年6月发布的全新大模型。
它在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude 3 Opus。
Claude 3.5 Sonnet的运行速度、成本与自家前代Claude 3 Sonnet相当。
核心特性:
高性能: 在研究生水平推理、知识掌握以及编码等能力方面有显著增强。
快速运行: 运行速度是Claude 3 Opus的两倍。
视觉能力: 在所有标准视觉基准测试中都超越了前代Claude 3 Opus。
Artifacts功能: 扩展用户与Claude交互方式的新功能。
性能指标:
编码能力: 在内部代理编码评估中解决了64%的问题。
视觉推理: 在视觉数学推理、科学图表、视觉问答等任务中表现突出。
基准测试: 在多数基准中领先GPT-4o、Gemini 1.5,以及Llama-400B的模型。
部署选项:
免费试用: 已经在Claude.ai和Claude iOS应用程序上免费提供。
API访问: 通过Anthropic API、亚马逊云科技Bedrock等渠道使用。
成本: 每百万输入token的价格为3美元,每百万输出token的价格为15美元。
鱼油最喜欢用哪个? |
|