您的位置:首页 >不做遥操作、不采真机数据,这家公司的机器人靠学习“人类第一视角数据”干活
发布于2026-04-25 阅读(0)
扫一扫,手机访问

当谈到具身智能的现状,一个尖锐的比喻被提了出来:“当前技术更像是陷在动作模仿的泥潭里,环境或任务稍有风吹草动,好不容易学会的技能就大概率失灵。真正的出路在哪里?或许在于先让机器人像人一样,理解我们所在的物理世界,再去执行具体任务——这,才是为机器人装上大脑的关键。”深度机智的创始人陈凯对智客ZhiKer这样阐述。
时间拉回到2024年底,当陈凯首次提出“AnthroLearning”(人类学习)这条技术路线时,场面一度有些冷清。这位在人工智能领域深耕十五年,曾任微软亚洲研究院首席研究员、主导过年调用量千亿次级产品的科学家,收到的反馈多是沉默,乃至质疑。
那时,具身智能领域的主流玩法是遥操作:让人戴上设备控制机器人,记录下每一个动作轨迹,再让机器人反复模仿;或者利用海量的互联网视频和仿真数据来训练。这套逻辑很直观,目标就是让机器人把动作“背”下来。
然而,这条主流路线的天花板也很明显。陈凯一针见血地指出:“这些方法的本质,无异于‘手把手教猴子干活’,效率太低。真正的突破口,在于通过人类的第一视角数据,向机器大脑注入物理常识,完成从‘猴子’到‘人’的进化。”
转折,来得比大多数人预料得更快。
2025年5月,硅谷的具身智能企业开始将目光转向人类第一视角数据。无独有偶,正是在这个月,陈凯与他同为中科大少年班学院毕业的张翼博联手,创立了深度机智。
到了去年年底,深度机智联合北京中关村学院,用1000小时人类第一视角数据训练出的PhysBrain基座模型,交出了一份令人惊艳的答卷。在一个“把胡萝卜放进盘子”的任务中,机器人的夹子碰到胡萝卜后,没有僵硬地重复抓取,而是像人一样尝试推动胡萝卜让其滚入盘中。几次尝试发现盘子边缘过高后,它主动转变策略,改为夹取,并在一次失败后调整角度和力度,最终成功。这种根据现场情况灵活变通、自主纠错的能力,并非预先编程,更像是模型自己“涌现”出来的智能。
那么,为什么业界认为2026年是关键节点?为什么这条路线在中国充满机会?技术收敛后,产业又将走向何方?智客ZhiKer与深度机智创始人陈凯、联合创始人兼CEO张翼博进行了一次深入对话。
智客ZhiKer:为什么说“AnthroLearning”路线在快速收敛?
陈凯:这个速度确实超预期。2024年底我们提出这个概念时,它还很有争议,当时大家的焦点还在遥操作、真机数据和仿真上。真正的转折点出现在2025年5月,特斯拉宣布其Optimus机器人将逐步放弃动作捕捉数据,转向从人类第一视角数据学习。紧接着6月,原Google DeepMind科学家Andy Zeng创办的Generalist AI展示的Demo中,机器人往盒子里放积木块时用了“扔”的动作,这明显也是从人类数据中习得的。
这种对物理交互的灵活运用,恰恰是传统轨迹拟合方法难以实现的。到了去年底,Skild AI、Physical Intelligence、英伟达等硅谷公司都在向“人类第一视角数据”看齐,共识基本达成了。
张翼博:国内各大厂在春节前后也纷纷组建新团队跟进。今年3月之后,这条技术路线开始受到追捧。我们预测,2026年将成为“AnthroLearning”的元年。
陈凯:无论各家走的是VLM、VLA还是世界模型路线,最终都会卡在一个核心瓶颈上:基座模型缺乏物理常识。VLM模型可能不理解空间关系,数不清桌上有几个杯子;世界模型生成的视频也许能以假乱真,但运动的物理真实性往往不足。
而人类第一视角数据采集自真实物理世界,天然蕴含着空间理解和交互过程。说得更直白些,现在的轨迹拟合就像在教猴子干活,但我们得先让它理解人类世界的常识,进化成“人”,再去学技能,这样效率才高。
张翼博:关键突破在于物理常识的注入,这不是简单的轨迹标注,而是对任务深层次的理解。比如拧开矿泉水瓶盖,先做什么后做什么,这些我们习以为常的下意识行为,恰恰是智能的“暗物质”,标注门槛极高。
陈凯:从时间线看,我们和英伟达的技术管线搭建几乎是同步的。英伟达在2026年2-3月公开方案,我们在2025年3月启动预研、6月搭出数据管线。区别在于,英伟达侧重于手部轨迹预训练,而我们直接增强VLM模型本身。最终大家都收敛到用人类数据增强物理直觉,从进度和投入看,我们略微领先。
具体来说,我们围绕数据转译、架构设计、训练目标三个环节,搭建了一套全栈矩阵,目的是把视频中隐性的经验提取成结构化的监督信号——任务如何拆解、关键状态是什么、手该怎么动、物体间有何约束、时空关系怎样。

这套“Egocentric2Embodiment”翻译管道的核心,是将人类第一视角视频转码成机器人能学的“结构化教材”。它通过多层次拆解,确保时序逻辑连贯,且每个判断都有画面证据支撑,最终输出带有标准答案的监督数据,让机器人知其然,也知其所以然。
利用这套方法,我们构建了E2E-3M数据集,并训练出具身大脑PhysBrain。在未出现于训练集的SimplerEnv四个操作任务上,PhysBrain(8B版本)以67.4%的平均成功率,超越了行业标杆Physical Intelligence的Pi0.5模型,领先优势达到10%。
陈凯:涌现能力体现在模型对物理交互的直觉式理解,而非机械执行。在胡萝卜任务中,“推”这个动作从未出现在训练数据里,模型也没看过失败示范,这种灵活应变更像是一种内生的物理直觉。
为了在注入物理常识的同时,不损失模型的通用理解能力,我们在架构上做了关键设计——“左右脑”同构架构TwinBrainVLA。我们引入一个被冻结的VLM模块作为“左脑”,保持其开放世界理解能力;同时让可训练的“右脑”网络专门处理机器人本体感知和动作策略。
关键在于两者间的信息交互机制(AsyMoT),右脑可以动态查询左脑的语义知识,而左脑参数不会被污染。这就实现了知识迁移而不遗忘:右脑学会控制时,左脑依然保有“杯子易碎需轻放”的常识。遇到新场景,左右脑协同工作,既懂原理,也能操作。
张翼博:过去一年,我们观测到多次类似的智能涌现,并与英伟达交叉验证了数据规模的有效性。用1000小时数据实现这样的性能,本身就是对新范式的关键验证。
陈凯:数据采集、处理和模型预研同步推进,全流程不到3个月。核心难点有三:制作专用采集设备、确保数据确权与隐私合规、打造能提取物理常识的数据处理管线。管线建成后,训练工作就顺畅多了。
张翼博:我们是国内首批完成10万小时量级多模态第一人称视角数据采集的公司。通过自研的全套方案,综合成本远低于市场其他数据类型,数据有效性也大幅提升。
何旭国(深度机智硬件负责人):很多人以为在头上装个摄像头就能采集数据,但实际工程化问题很多。我们重新定义了什么样的设备能进入真实生产生活场景。传统智能眼镜在续航、负重上矛盾突出,因此我们最终将存储、算力等模块外置为定制腰包方案,最大限度减少头部负担。

我们还部署了轻量级手部检测模型,只在画面中间出现手时才开始拍摄,最大限度保证了数据的有效性。
陈凯:使用人类数据学习的最佳载体,应该是高度拟人的机器人。
何旭国:我们为这个“大脑”设计的身体,全身采用万元级谐波力控电机关节模组,共72个自由度。这款机器人在不通电时也能自主站立,这对未来进入实际场景非常重要,意味着低能耗和高安全性。

张翼博:谐波全身力控是技术路线,拟人体是结构路线。拟人要求每个自由度与人对齐,我们的优势在于“谐波+同构”兼得,而谐波关节模组的小型化正是行业难点,我们已取得关键突破。
陈凯:最终目标是实现具身AGI,或者说具备物理智能的大模型,用模型能力为机器人提供服务,提供更理解物理世界的“Token”。
张翼博:短期我们要“沿途下蛋”。先开源4B小模型,证明路线的可行性;同步推进数据采集设备的商业化;下一步是将更大模型产品化,供行业调用。同时,我们也在探索养老、教育等具体场景。
张翼博:中国的优势首先在数据。美国采集标注27万小时第一视角数据花费巨大,而中国拥有更丰富的场景和更低的采集成本。行业达到千万小时级别的人类第一视角数据,在今年就有望实现。
其次是算力。国产卡已完全可以承接需求,我们有充足的国产算力资源作为支撑。技术路线既已收敛,接下来就是投入信心和全行业共同努力的时候了。实现弯道超车,可能性非常大。
陈凯:另一个关键是,标注工作必须与模型架构、训练方法紧耦合。对手部轨迹建模也许只需几块钱算力,但对空间常识、任务理解的深度标注,可能需要几百块,投入大,回报也巨大。
中美发展各有侧重,中国在机器人本体领域有显著优势,美国在“具身大脑”上起步更早。但我们对赶超有信心:一是场景储备丰富,制造业基础雄厚;二是硬件协同潜力大,可以更高效率设计适配大脑的身体;三是有制度创新和国产芯片突破等有利因素。
张翼博:能与物理世界交互的人工智能,其估值空间是巨大的。这既是国家层面的需求,也将深刻影响制造业和服务业,未来或许能让“劳动”成为一种选择,而非必需。如果具身智能成为AGI的原生能力,整个AI产业链都将被重构。在这个赛道上,相信中美将是齐头并进的格局。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
4
5
6
7
8
9