做网站对比报告子域名网址查询
🔗论文地址:https://www.arxiv.org/abs/2504.19854
🚀 立即体验:https://declare-lab.github.io/nora
背景:
-
计算成本高:模型通常超过 7B 参数,部署门槛极高。
-
实时性差:在机器人系统中难以满足低延迟、高响应需求。
-
迁移困难:现有模型在新环境或新任务中的泛化能力有限,常需额外 fine-tuning。
因此,研究者们迫切需要一个参数更小、响应更快、却仍具泛化能力的解决方案。
主要方法:
NORA是一个拥有3B参数通用VLA模型,专为机器人任务优化,
1. 模型架构
NORA采用了一个30亿参数的多模态模型Qwen-2.5-VL-3B作为其骨干网络。这个骨干网络因其在视觉语义理解方面的卓越性能而被选中,能够增强视觉推理和行动定位。NORA的架构如下:
- 输入:包括自然语言任务指令和视觉观察(单帧图像)。
- 输出:通过FAST+分词器将连续的行动标记离散化,生成离散的行动序列。
- 行动块预测:NORA预测从时间 tt 到 t+Nt+N 的行动块,表示为 at:t+Nat:t+N。这些行动块通过FAST+分词器编码为离散标记 RR,然后通过自回归方式生成。
2. 预训练
NORA在Open X-Embodiment数据集上进行预训练,该数据集包含来自不同机器人执行各种任务的轨迹。预训练的目标是使NORA具备广泛的机器人能力和强大的泛化能力,能够根据自然语言指令执行任务。
- 数据集:包括BridgeData V2和DROID等子集,涵盖了多种机器人任务。
- 训练细节:使用8个H100 GPU训练了大约三周,总共约4000个H100 GPU小时。使用AdamW优化器,批量大小为256,进行了110万次梯度更新。训练过程中使用了线性预热和余弦衰减的学习率调度。
3. 行动块预测(Action Chunking)
为了提高行动预测的效率,论文提出了NORA-LONG变体,该变体预测更长的行动块(5个行动)。这种策略在模拟环境中表现出色,尤其是在长视域任务中。然而,在实际机器人环境中,NORA-LONG的表现不如NORA稳定,尤其是在多目标抓取任务中。
- 多目标抓取任务:
- NORA的成功率为30%至40%,显著高于基线模型RT-1(0%)和SpatialVLA(0%)。
- 零样本对象抓取任务:
- NORA的成功率高达90%,显著优于OpenVLA(40%至80%)和SpatialVLA(0%至20%)。
- 空间推理任务:
- NORA的成功率为60%至80%,优于OpenVLA(30%至60%)和SpatialVLA(0%至30%)。
整体架构:
模型架构
- 骨干网络:NORA采用Qwen-2.5-VL-3B多模态模型作为其骨干网络,因其在视觉语义理解方面的卓越性能。
- 行动标记化:使用FAST+分词器将连续的行动标记离散化,提高行动序列生成的效率。
- 行动块预测:NORA预测从时间 tt 到 t+Nt+N 的行动块,通过自回归方式生成离散的行动标记。
多模态骨干:Qwen-2.5-VL-3B
-
继承 Qwen 模型在 视觉-语言理解 方面的强大能力;
-
在处理图像、指令与动作规划之间的复杂推理任务中表现出色。
高效动作生成:FAST+ Tokenizer
-
将连续的动作序列离散化为离散符号(action chunking);
-
大幅加速生成过程,提高编码/解码效率;
-
适用于高频控制需求下的机器人场景。
大规模示范学习训练
-
在 97 万条真实机器人 demonstrations 上训练;
-
涵盖物体抓取、空间推理、多物体操控等典型 embodied tasks;
-
模型学到了丰富的多样化策略与动作模式。
进一步探索点:
1. 提高行动块预测的稳定性
虽然NORA-LONG在模拟环境中表现出色,但在真实世界环境中,行动块预测可能导致机器人与环境发生碰撞。可以进一步研究如何提高行动块预测在真实世界环境中的稳定性和适应性。例如:
- 动态调整行动块大小:根据任务的复杂性和环境的动态性,动态调整行动块的大小。
- 引入中间反馈机制:在执行行动块的过程中,引入中间反馈机制,实时调整后续行动。
2. 增强对小物体的抓取能力
NORA在抓取小物体时表现不如大物体,这可能是由于抓取点估计不准确。可以探索以下改进方法:
- 改进抓取点估计算法:研究更精确的抓取点估计方法,特别是在小物体上。
- 多模态融合:进一步融合触觉和深度信息,以提高对小物体的感知和抓取能力。
3. 提高在复杂环境中的鲁棒性
在引入干扰对象的实验中,NORA和基线模型的成功率都有显著下降。可以进一步研究如何提高模型在复杂环境中的鲁棒性:
- 注意力机制:引入注意力机制,使模型能够更好地关注任务相关的关键信息,忽略干扰。
- 环境感知:增强模型对环境的感知能力,使其能够更好地适应动态变化的环境。
4. 长视域任务的实时性
虽然NORA-LONG在长视域任务中表现出色,但在真实世界环境中,长视域任务的实时性仍然是一个挑战。可以探索以下改进方法:
- 高效的行动规划算法:研究更高效的行动规划算法,以减少计算时间。
- 分层规划:采用分层规划方法,将长视域任务分解为多个短视域子任务,逐步执行。
5. 多机器人协作
NORA目前主要关注单机器人任务,可以进一步探索多机器人协作场景:
- 分布式学习:研究分布式学习方法,使多个机器人能够协同学习和执行任务。
- 通信机制:设计有效的通信机制,使机器人之间能够共享信息和协调行动。
6. 跨领域任务的泛化能力
虽然NORA在多种任务中表现出色,但其泛化能力仍有提升空间。可以探索以下改进方法:
- 元学习:采用元学习方法,使模型能够快速适应新任务和新环境。
- 多任务学习:在训练过程中引入更多样化的任务,提高模型的泛化能力。
7. 模型压缩和优化
尽管NORA已经减少了计算开销,但进一步的模型压缩和优化仍然是一个重要的研究方向:
- 知识蒸馏:使用知识蒸馏技术,将大型模型的知识转移到更小的模型中。
- 稀疏训练:采用稀疏训练方法,减少模型的参数量和计算需求。
8. 人机交互
NORA目前主要通过自然语言指令进行任务指导,可以进一步探索人机交互的其他方式:
- 手势识别:引入手势识别技术,使人类可以通过手势指导机器人执行任务。
- 混合交互:结合自然语言、手势和视觉信号,实现更自然和高效的人机交互。
9. 长期学习和适应
NORA目前主要关注短期任务执行,可以进一步研究长期学习和适应能力:
- 终身学习:研究终身学习方法,使模型能够持续学习和适应新的任务和环境。
- 自适应学习:设计自适应学习机制,使模型能够根据任务的反馈自动调整学习策略。
这些方向不仅可以进一步提升NORA模型的性能,还可以为未来机器人控制和人工智能的研究提供新的思路和方法。