OpenAI Day2发布会「强化微调（reinforcement」

不二如是 · 发表于 2024-12-8 11:00:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

3973a2d76a7b33d6dae4494baf0e083e477d33ac.jpg@308w_174h.jpeg

在线学习：

OpenAI连续12天发布会：第2天发布会完整视频：强化微调（reinforcement finetuning），通过少量数据，让模型在专业领域到达专家水平。

跟之前的微调不一样，它不是通过数据记住答案，而是在微调的过程中训练自己在某个领域的推理能力找到正确答案，有点像给 AI 一本棋谱，让它自己训练自己下棋。

这种微调有两个不同数据集合，一个是微调数据集，一个是测试数据集合。

模型先基于微调数据集合去训练，然后用测试数据集合验证，反复自我推理训练验证，最终达到很高的水平。

强化微调后的模型在验证数据集上的表现显示了模型的概括能力，而不仅仅是记忆症状和基因的映射关系。

OpenAI计划在

游客，如果您要查看本帖隐藏内容请回复

正式公开发布强化微调产品，并扩展Alpha计划，让更多人能够挑战o1模型的极限。

小甲鱼 · 发表于 2024-12-9 01:37:12

感谢分享~

快速收敛 · 发表于 2024-12-9 08:53:49

感谢分享~

账号		自动登录	找回密码
密码			立即注册

[最新资讯] OpenAI Day2发布会「强化微调（reinforcement」

马上注册，结交更多好友，享用更多功能^_^

相关帖子