宇树科技CEO「王兴兴」:我对VLA模型抱怀疑态度!VLA加上强化学习还不够!求人才
本帖最后由 不二如是 于 2025-8-11 15:07 编辑大家也知道,目前相对比较火的是VLA模型。
VLA(Vision-Language-Action)模型是一类将视觉、语言理解与机器人动作控制融合在一起的新型多模态基础模型。
它通常以一个视觉语言模型为基础,输入图像(或视频)和指令,然后直接输出机器人可执行的低级动作,从而实现从感知、理解到动作的一体化控制流程。
由于具有预训练的视觉语言能力,再结合机器人示教数据进行微调,VLA模型在理解高层指令并执行复杂动作方面展现出较强能力。
在线学习(口令提示文中提到模型的英文原文):
https://www.bilibili.com/video/BV1AzbVzKEDn
不过我个人对VLA模型仍保持比较怀疑的态度。当前,这类模型在与真实世界交互时,往往面临数据质量不足的问题,无法完全满足实际操作的需求。
因此,一个自然的想法是给VLA模型加入强化学习(RL)训练。但是我们和业界实践发现,仅仅加上RL训练还不足以彻底解决问题。
直接使用在线RL会导致训练不稳定、算力负担过重等问题。为了应对这些困难,一些研究提出了混合微调策略,例如iR-VLA框架,以在线RL与监督学习迭代结合、冻结视觉语言模型仅训练动作头等方式,提高训练稳定性和效率。
还有方法如ConRFT,通过离线行为克隆与Q学习结合在线一致性策略,辅以人类干预,实现高样本效率和安全探索,仅在线微调45到90分钟即可显著提升性能,在真实操作任务中成功率达到96.3%。
比纯监督微调提升144%,轨迹长度也缩短近一半。
尽管已有进展,这种模型架构仍需进一步升级优化。
综合来看:
目前VLA模型结合RL训练确实是研究趋势与未来方向。但要让其在现实机器人系统中真正稳定高效运行,模型架构和训练机制还需进一步升级,例如引入更高效、稳定的RL算法(如PPO等)以提升泛化能力及执行鲁棒性
王兴兴,宇树机器人团队核心成员,长期专注于多模态机器人智能研究与应用落地。
在VLA模型与强化学习结合方向具有深入探索。他主导了多个实验项目,尝试将迭代型微调方法应用于真实机器人系统中,以提升模型的泛化性与交互稳定性,并注重工程安全与样本效率。
此外,他还积极推动团队在ConRFT、iRe-VLA等最新研究成果方面的实践,探索机器人智能控制的新范式。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif
本帖最后由 不二如是 于 2025-8-11 15:06 编辑
VisionLanguageAction Vision Language Action VisionLanguageAction 快速收敛 发表于 2025-8-11 15:03
Vision-Language-Action
恭喜~ 不二如是 发表于 2025-8-11 15:06
恭喜~
中了吗,但是没有领到红包{:13_445:} 快速收敛 发表于 2025-8-11 15:05
VisionLanguageAction
VisionLanguageAction 本帖最后由 不二如是 于 2025-8-11 15:24 编辑
VisionLanguageAction sunshine_8205 发表于 2025-8-11 15:22
VisionLanguageAction
{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:} VisionLanguageAction Vision Language Action 怎么不对 sfqxx 发表于 2025-8-11 15:54
Vision Language Action
无限接近 Vision,Language-Action 本帖最后由 不二如是 于 2025-8-11 16:31 编辑
不二如是 发表于 2025-8-11 16:08
无限接近
$+\infty$
Vision Language Action
(我不隐藏) 本帖最后由 不二如是 于 2025-8-11 16:31 编辑
Vision Language Action $$ \lim_{x \to \infty} f(x) = 0 $$ Vision Language Action VisionLanguageAction 梦想护卫舰官方 发表于 2025-8-11 19:30
VisionLanguageAction
就差一点点
页:
[1]
2