在具身人工智能(Embodied AI)研究中,获取大规模、高质量的真实交互数据始终是制约算法泛化能力的关键瓶颈。近期,极佳视界(GigaAI)团队提出的 GigaWorld-0框架,为这一挑战提供了创新性解决方案——通过构建一个统一的世界模型,自动生成物理合理、语义丰富且多视角一致的合成操作数据,并用于训练端到端的视觉-语言-动作(VLA)策略。
本案例聚焦该工作的真机验证环节:研究团队将完全基于 GigaWorld-0 合成数据训练的 VLA 模型(GigaBrain-0),部署至一个通用双臂灵巧操作平台(如松灵COBOT MAGIC)进行零样本迁移测试,整个训练过程未使用任何真实机器人交互数据。
项目主页:https://giga-world-0.github.io/
论文链接:https://arxiv.org/abs/2511.19861
使用产品:松灵PiPER六轴机械臂、COBOT MAGIC双臂平台
01
核心痛点:具身智能的 “数据枷锁”
传统具身智能模型高度依赖真实世界交互数据,但这类数据的采集面临诸多难题。
成本高昂
需要专业硬件平台、人工操控与场景搭建,且覆盖多场景、多任务的数据集投入呈指数级增长;
泛化不足
真实数据的纹理、光照、视角等维度多样性有限,导致模型在新环境中易失效;
物理限制
部分高危、复杂任务难以在真实场景中开展数据采集,存在安全与实操壁垒。
世界模型作为连接虚拟与现实的高保真模拟器,被视为破解这一困境的关键,但如何兼顾视觉真实感、几何一致性与物理合理性,成为技术攻关的核心。
02
GigaWorld-0:双模块协同的统一数据引擎
GigaWorld-0 构建了GigaWorld-0-Video与GigaWorld-0-3D两大核心模块,实现了 2D 视觉生成与 3D 物理仿真的深度融合,可产出 “纹理丰富、空间一致、物理可信、指令对齐” 的具身交互数据。
GigaWorld-0-Video:可控的高保真视频生成
该模块以视频生成技术为核心,能合成时序连贯、视觉逼真的具身交互序列,且支持多维度精细控制,包含 4 个核心子模型:
Video-Dreamer:作为基础视频生成模型,采用混合专家(MoE)架构与稀疏注意力机制,支持图 - 文到视频(IT2V)生成,可基于相同初始帧和不同文本指令,生成折叠布料、放置蔬果等多样化任务轨迹;
AppearanceTransfer:通过文本指令实现外观迁移,既能修改真实视频的纹理、材质与光照,也能缩小仿真到真实的视觉差距,无需额外采集即可扩充数据的视觉多样性;
ViewTransfer:解决单视角数据的泛化难题,可将单视角机器人交互视频转化为任意新视角画面,并同步适配机械臂动作,保障任务语义一致性;
MimicTransfer:打通人机交互数据壁垒,能将第一人称人类操作视频转化为机器人可执行轨迹,大幅降低机器人示范数据的采集成本。
同时,该模块引入 FP8 精度训练、去噪步骤蒸馏等技术,实现了 50 倍以上的生成加速,还搭建了多维度质量评估体系,确保生成数据的可用性。
GigaWorld-0-3D:物理可信的 3D 场景构建
为弥补纯视频生成的几何与物理缺陷,该模块基于 3D 高斯溅射技术,构建了空间一致、可交互的 3D 场景,包含 4 个关键组件:
3D-FG:从单张图片或文本生成高保真前景可操作物体,通过多轮质量校验确保模型输出符合真实尺度与几何逻辑
3D-BG:针对稀疏视角输入,先通过视图修复补充中间视角,再完成背景的高精度 3D 重建,输出可用于碰撞检测与仿真的网格模型;
3D-Phys:为机器人与物体赋予真实物理属性,通过可微物理框架精准估计机械臂关节摩擦、刚度等参数,还能基于多模态信息推断物体质量、摩擦系数等;
3D-Act:针对不同复杂度任务生成可执行动作,简单场景通过 MimicGen 扩展基础示范轨迹,复杂场景则结合强化学习实现高精度操作序列合成。
两大模块协同,可输出兼具视觉真实感与物理合理性的完整具身交互数据,为 VLA 模型训练提供了优质 “养料”。
03
高效训练:GigaTrain 框架降低算力门槛
针对大模型训练的算力难题,GigaWorld-0 配套了GigaTrain分布式训练框架,支持 DeepSpeed ZeRO、FSDP 等分布式策略,集成 FP8/FP16/BF16 混合精度训练、梯度检查点等技术,大幅降低内存与计算开销。
实验数据显示,FSDP-2 分布式框架结合 FP8 精度,在 8 卡 H20 GPU、批量大小 32 的配置下,可实现高效训练,且稀疏注意力机制的引入进一步提升了训练与推理效率,让大模型训练不再依赖超大规模算力集群。
04
实战验证:虚拟数据赋能真实场景落地
在 PBench、DreamGen 等权威具身任务基准测试中,GigaWorld-0 表现亮眼:仅 2B 激活参数的 Video-Dreamer 模型,在 PBench 机器人任务集上斩获 82.07的综合得分,超越多款大参数量竞品。
更关键的是,基于其生成数据训练的 GigaBrain-0 VLA 模型,在无真实场景训练的情况下,成功在真实环境中完成了衣物折叠、纸巾制备、果汁调制、餐桌清理等多类任务,不仅任务成功率大幅提升,还具备了更强的场景泛化能力,充分验证了 GigaWorld-0 生成数据的实用价值。
松灵机器人成立于2016年,是全球领先的机器人底盘制造商和移动机器人系统解决方案服务商。目前,松灵机器人已经拥有多款适用于不同地形的室内外移动机器人底盘,在载重、续航、速度、运动模式等不同需求场景下实现全矩阵覆盖。同时,松灵机器人还推出了自动驾驶解决方案,平行驾驶解决方案,机器人科研教育套件等移动机器人底盘配套产品,帮助客户在自动驾驶、机械控制、计算机、车辆等领域完成实验验证。
凭借领先的研发技术,松灵机器人已经与包括阿里巴巴、华为、本田、中建三局在内的30多家行业领军企业,以及中科院、清华大学、南方科技大学、北京理工大学、新加坡国立大学、纽约大学等国内外50多所顶尖学府开展了深度合作。


