OpenAI Day2发布会「强化微调(reinforcement」
在线学习:
https://www.bilibili.com/video/BV1csq5YCEtg
OpenAI连续12天发布会:第2天发布会完整视频:强化微调(reinforcement finetuning),通过少量数据,让模型在专业领域到达专家水平。
跟之前的微调不一样,它不是通过数据记住答案,而是在微调的过程中训练自己在某个领域的推理能力找到正确答案,有点像给 AI 一本棋谱,让它自己训练自己下棋。
这种微调有两个不同数据集合,一个是微调数据集,一个是测试数据集合。
模型先基于微调数据集合去训练,然后用测试数据集合验证,反复自我推理训练验证,最终达到很高的水平。
强化微调后的模型在验证数据集上的表现显示了模型的概括能力,而不仅仅是记忆症状和基因的映射关系。
OpenAI计划在**** Hidden Message *****正式公开发布强化微调产品,并扩展Alpha计划,让更多人能够挑战o1模型的极限。
感谢分享~ 感谢分享~
页:
[1]