对话智元罗剑岚:数据规模与多样性引领机器人规模化进化
日期:2026-01-07 20:46:16 / 人气:9

历经一年多技术密集验证,机器人行业正从实验室demo加速迈向规模化部署的深水区。近日,智元具身研究中心发布SOP(Scalable Online Post-training)在线后训练系统,以“在线、集群、并行”的全新范式,为通用机器人真实世界落地提供了系统性解决方案。智元合伙人兼首席科学家罗剑岚博士在接受媒体采访时,深入解读了SOP的技术内核、应用路径与行业思考,强调现阶段数据的多样性和规模远比特定场景数据更为重要。
SOP重构训练范式:从“离线单机”到“集群协同”
通用机器人规模化落地面临两大核心痛点:复杂环境中的稳定性维系与差异化任务的泛化能力提升。现有VLA(视觉-语言-动作模型)预训练技术虽构建了通用能力基座,但在真实场景中受限于任务精度要求与离线数据采集的边际效益递减,亟需后训练技术突破瓶颈。而传统后训练模式存在明显短板:离线训练无法快速反馈真实世界经验,单机串行学习易导致模型“学窄”,部署后模型能力固化难以持续进化。
SOP框架的核心的是将VLA后训练从“离线、单机、顺序”模式重构为低延迟闭环系统,通过Actor–Learner异步架构实现分布式持续学习。多台搭载同一策略模型的机器人在执行任务时,同步采集成功案例、失败样本及人类接管数据并上传至云端;云端通过动态重采样策略自适应调整数据比例,完成模型在线更新后,在分钟级别内将新参数回流至所有机器人,实现集群一致进化。作为通用框架,SOP可即插即用各类后训练算法,此次智元便接入HG-Dagger(交互式模仿学习)与RECAP(离线强化学习)算法验证了其有效性。
罗剑岚指出,SOP所追求的“规模”并非单纯机器人数量叠加,而是学习方式的本质变革。“硬件扩展不再是简单‘多干活’,而是转化为学习效率的提升,让部署规模直接决定机器人智能成长速度。”实验数据印证了这一优势:在3小时训练时限内,四机器人集群的任务成功率达92.5%,较单机高出12%;达到目标性能的训练速度更是单机的2.4倍。在商超场景中,结合SOP的HG-Dagger方法较基础预训练模型实现33%综合性能提升,叠衣服任务吞吐量增幅达114%,机器人可连续36小时稳定执行叠衣服、叠纸盒等精细操作。
核心观点:数据多样性与规模优先于特定场景数据
针对多机器人协同训练中“硬件差异是否影响模型学习”的疑问,罗剑岚给出了明确答案:SOP通过任务均衡采样机制,能有效隔离单一硬件干扰,提取跨本体的“最大公约数”,即便集群中存在噪声数据,也可被多数有效数据对冲抵消。而对于多机特征可能影响数据可用性的担忧,他强调了数据规模与多样性的核心价值。
“当前AI算法的核心启示是,数据的多样性和规模,至少在现阶段远比特定场景的专用数据更重要。”罗剑岚表示,单机学习局限于单一环境,易反复遭遇相似状态导致进度迟缓;多机并行则能在短时间内汇聚不同环境、任务及失败模式的数据,让模型接触更多关键差异,降低冗余探索。实验更显示,3小时真实世界在线后训练带来的性能提升约为30%,而增加80小时离线专家数据仅能提升4%,印证了规模化真实数据的高效价值。
技术攻坚与风险防控:构建安全可扩展的进化体系
谈及SOP落地的最大难点,罗剑岚认为在于“安全地将机器人带入真实世界部署”。为此,SOP并未依赖单点算法创新,而是通过分布式集群、人类接管机制及数据回流策略的系统架构设计,保障机器人在真实场景中的安全交互与持续进化。
针对算力、带宽成本可能形成的瓶颈,智元从设计之初便搭建了高鲁棒性的软件工程基础设施,确保机器人数量扩展时系统可无缝适配。而对于机器人“学坏”、策略退化等问题,SOP通过与强化学习算法结合形成解决方案:引入RECAP算法对负面数据赋予低权重,借助动态规划区分优劣行为,让失败样本成为学习助力——“负数据有时比正数据更有用,就像人类通过试错明确行为边界。”
关于数采中心的定位,罗剑岚用“汽车冷启动”作比:离线数据中心当前仍是预训练的主力,为模型提供基础能力以避免零成功率部署;随着真实世界机器人部署量增加,在线回流数据将逐步成为预训练核心来源,数采中心则回归冷启动角色,形成“预训练-在线进化-再预训练”的良性循环。
落地路径与生态规划:从工业场景到开放生态
在场景适配层面,SOP呈现明显的难度梯度。罗剑岚表示,工业场景流程稳定、边界清晰,是现阶段最易落地且商业价值明确的领域,智元已积累多个成功案例;商超等商业场景将在今年逐步铺开;家庭场景则需循序渐进,通过预训练模型结合SOP逐步扩展任务能力,以“部署-数据回流-模型优化-再部署”的节奏稳步渗透。
生态建设方面,SOP并非封闭系统,而是面向行业的协同进化平台。“智元坚持生态开放路线,希望与更多厂商共建开放的机器人在线学习生态。”罗剑岚透露,目前SOP尚未完全开源,但不排除未来开放合作的可能,各类后训练算法和机器人本体均可接入,实现数据共享与集群进化。这一模式或将重塑机器人商业模式,使其从一次性硬件交付,转向软硬件一体的持续服务。
下一步规划:迈向更开放的持续学习新阶段
罗剑岚将SOP定义为机器人迈入真实世界的“第一步”,核心是解决真实经验向模型改进的稳定转化问题。在此基础上,第二步将聚焦三大方向:一是在安全可控前提下向更复杂的开放场景扩展,突破当前半结构化环境的局限;二是推进监督自动化,减少对人类干预的依赖,引入更高效的自动建模算法;三是强化持续学习能力,实现新任务学习与既有能力保留的平衡。
“机器人不应是性能固定的标品,而应是在真实世界中持续提升的生命体。”罗剑岚表示,SOP的价值不仅在于技术范式革新,更在于重塑机器人生命周期——部署不再是技术迭代的终点,而是更大规模学习的起点。随着SOP的落地与迭代,通用机器人正逐步摆脱实验室束缚,以集群进化的姿态加速融入工业、商业乃至家庭场景,推动具身智能产业迈入规模化发展新纪元。
作者:杏鑫娱乐
新闻资讯 News
- 对话智元罗剑岚:数据规模与多样...01-07
- AI 的瓶颈不是算力,而是……01-07
- 日本飙升的梅毒:古老传染病的现...01-07
- 创投市场的“贫富分化”:头部3%...01-07

