宇树科技CEO「王兴兴」：我对VLA模型抱怀疑态度！VLA加上强化学习还不够！求人才,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2025-8-11 15:00:00

宇树科技CEO「王兴兴」：我对VLA模型抱怀疑态度！VLA加上强化学习还不够！求人才

本帖最后由不二如是于 2025-8-11 15:07 编辑

大家也知道，目前相对比较火的是VLA模型。

VLA（Vision-Language-Action）模型是一类将视觉、语言理解与机器人动作控制融合在一起的新型多模态基础模型。

它通常以一个视觉语言模型为基础，输入图像（或视频）和指令，然后直接输出机器人可执行的低级动作，从而实现从感知、理解到动作的一体化控制流程。

由于具有预训练的视觉语言能力，再结合机器人示教数据进行微调，VLA模型在理解高层指令并执行复杂动作方面展现出较强能力。

在线学习（口令提示文中提到模型的英文原文）：

https://www.bilibili.com/video/BV1AzbVzKEDn

不过我个人对VLA模型仍保持比较怀疑的态度。当前，这类模型在与真实世界交互时，往往面临数据质量不足的问题，无法完全满足实际操作的需求。

因此，一个自然的想法是给VLA模型加入强化学习（RL）训练。但是我们和业界实践发现，仅仅加上RL训练还不足以彻底解决问题。

直接使用在线RL会导致训练不稳定、算力负担过重等问题。为了应对这些困难，一些研究提出了混合微调策略，例如iR-VLA框架，以在线RL与监督学习迭代结合、冻结视觉语言模型仅训练动作头等方式，提高训练稳定性和效率。

还有方法如ConRFT，通过离线行为克隆与Q学习结合在线一致性策略，辅以人类干预，实现高样本效率和安全探索，仅在线微调45到90分钟即可显著提升性能，在真实操作任务中成功率达到96.3％。

比纯监督微调提升144％，轨迹长度也缩短近一半。

尽管已有进展，这种模型架构仍需进一步升级优化。

综合来看：

目前VLA模型结合RL训练确实是研究趋势与未来方向。但要让其在现实机器人系统中真正稳定高效运行，模型架构和训练机制还需进一步升级，例如引入更高效、稳定的RL算法（如PPO等）以提升泛化能力及执行鲁棒性
王兴兴，宇树机器人团队核心成员，长期专注于多模态机器人智能研究与应用落地。

在VLA模型与强化学习结合方向具有深入探索。他主导了多个实验项目，尝试将迭代型微调方法应用于真实机器人系统中，以提升模型的泛化性与交互稳定性，并注重工程安全与样本效率。

此外，他还积极推动团队在ConRFT、iRe-VLA等最新研究成果方面的实践，探索机器人智能控制的新范式。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获，别忘了评分{:10_281:} ：

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif

快速收敛 发表于 2025-8-11 15:03:08

本帖最后由不二如是于 2025-8-11 15:06 编辑

VisionLanguageAction

快速收敛 发表于 2025-8-11 15:04:04

Vision Language Action

快速收敛 发表于 2025-8-11 15:05:06

VisionLanguageAction

不二如是 发表于 2025-8-11 15:06:06

快速收敛发表于 2025-8-11 15:03
Vision-Language-Action

恭喜~

快速收敛 发表于 2025-8-11 15:10:55

不二如是发表于 2025-8-11 15:06
恭喜~

中了吗，但是没有领到红包{:13_445:}

sfqxx 发表于 2025-8-11 15:18:11

快速收敛发表于 2025-8-11 15:05
VisionLanguageAction

VisionLanguageAction

sunshine_8205 发表于 2025-8-11 15:22:29

本帖最后由不二如是于 2025-8-11 15:24 编辑

VisionLanguageAction

不二如是 发表于 2025-8-11 15:24:03

sunshine_8205 发表于 2025-8-11 15:22
VisionLanguageAction

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

快速收敛 发表于 2025-8-11 15:44:40

VisionLanguageAction

sfqxx 发表于 2025-8-11 15:54:57

Vision Language Action

sfqxx 发表于 2025-8-11 15:55:28

怎么不对

不二如是 发表于 2025-8-11 16:08:59

sfqxx 发表于 2025-8-11 15:54
Vision Language Action

无限接近

某一个“天” 发表于 2025-8-11 16:12:01

Vision,Language-Action

sfqxx 发表于 2025-8-11 16:17:17

本帖最后由不二如是于 2025-8-11 16:31 编辑

不二如是发表于 2025-8-11 16:08
无限接近

$+\infty$
Vision Language Action
(我不隐藏)

快速收敛 发表于 2025-8-11 16:27:29

本帖最后由不二如是于 2025-8-11 16:31 编辑

Vision Language Action

sfqxx 发表于 2025-8-11 16:31:50

$$ \lim_{x \to \infty} f(x) = 0 $$

梦想护卫舰官方 发表于 2025-8-11 19:29:42

Vision Language Action

梦想护卫舰官方 发表于 2025-8-11 19:30:34

VisionLanguageAction

不二如是 发表于 2025-8-11 19:37:58

梦想护卫舰官方发表于 2025-8-11 19:30
VisionLanguageAction

就差一点点

页: [1] 2

鱼C论坛's Archiver

宇树科技CEO「王兴兴」：我对VLA模型抱怀疑态度！VLA加上强化学习还不够！求人才