具身智能如何抵达“ChatGPT时刻”?智源院长、清华教授和3位创始人聊了聊

Comentários · 8 Visualizações

追求泛化之前,先在单一场景做到闭环验证,建立真机数据飞轮。

  

  文|富充

  编辑|苏建勋

  具身智能正在等待自己的“ChatGPT时刻”。但关于这个时刻的具体定义,业内还充满非共识。

  近日,原力灵机的技术开放日圆桌论坛上,5位AI界的一线产、学、研从业者把这个问题摊开,各自发表了见解。他们分别是:

  清华大学电子工程系长聘教授汪玉

  北京智源人工智能研究院院长王仲远

  阶跃星辰创始人&CEO 姜大昕

  星海图创始人&CEO 高继扬

  原力灵机联合创始人&CEO 唐文斌

  阶跃星辰创始人&CEO姜大昕首先提出“ChatGPT时刻”的定义标准,是“零样本泛化”——即使给出从未见过的指令,AI也能回答问题完成任务——这正是大语言模型所展现的能力。

  但姜大昕旋即指出,因为具身智能的泛化要涉及场景、任务、操作物体等更多维度,所以机器人要达到这个标准还十分困难。

  作为机器人创企的CEO,高继扬进一步解释了具身智能商业化落地的难点:大语言模型可以“模型即产品”,终端是手机电脑、渠道是互联网传播;具身智能却必须穿过更长的产业链——整机、供应链、真机数据、线下交付,缺一不可。

  基于以上种种待解决的问题,原力灵机联合创始人&CEO 唐文斌,给出了一个眼下更可抵达的“具身智能ChatGPT时刻”:先在一个限定场景,闭环解决其中所有的问题,且算过来ROI的账。

  他的理由很简单,ChatGPT时刻让人们看到语言模型作为工具的可用性;要产生这种变化,具身智能也得从玩具和研究项目,变身为一个有用的事物。

  也因此,这场圆桌就“具身智能眼下的发展方向”达成了初步共识:在追求更强泛化之前,先把一个垂类场景跑通,让机器人在实际干活中滚出真机数据飞轮,再用数据反哺模型与系统迭代。

  这个思路,也解释了本次圆桌论坛主办方原力灵机的路径选择:在数据飞轮转动之前,要现有能评测真机效果的统一标尺,因此在发布自家模型与本体之前,原力灵机先联合HuggingFace推出真机评测Benchmark“RoboChallenge”。

  原力灵机成立于2025年3月,创始人唐文斌为原旷视科技联创,公司主创团队中还包括多位前旷视科技核心成员。成立不到一年,原力灵机已累计融资近10亿元,股东中包括阿里巴巴、蔚来资本、联想创投等机构。

  2月10日,这家受到资本市场青睐的创企“交卷”成立以来首个模型DM0,以2.4B参数量登顶RoboChallenge榜首。当然,质疑也随之而来——“发起评测的人,是否也能当选手”?对于先于模型发布Benchmark的考量、真机评测的重要性,以及业内的发问,唐文斌在圆桌论坛上也一一做出回应。

  以下为本次圆桌对话内容,经作者整理:

  

  △圆桌论坛嘉宾,图片:原力灵机

  主持人:从全球的范围来看,我们的具身智能的模型有哪些主流的技术路线,我们现在处在一个什么样的阶段? 

  王仲远:在具身智能火热的背后,我看到蛮多隐忧。虽然硬件本身的进步很快,但是在连续稳定工作、安全性、电池等等方面,还有一系列的问题要解决。

  在模型方面,虽然过去一年发布过一系列的具身模型,但我们觉得还远没有到具身的ChatGPT时刻。尤其当具身智能模型和硬件,在真机部署之后,我们发现离真正希望的大规模应用还是有比较大的Gap。

  目前,具身模型的技术路线仍然整体处于发展中,大家经常讨论的有分模块式的比如VLM加控制,或者端到端的VLA,包括现在在研究上非常火热的世界模型等。但这些我认为都还远没有到可以非常自豪地说具身智能已经得到彻底突破的阶段。

  所以很有可能我们接下来会看到的情况是,通过VLA+强化学习,把一个一个场景解决好。先干起活,在真机中积累更多的数据,形成数据的闭环,最后再来解决泛化性的问题。

  汪玉:我做硬件多一点,包括算力、框架、边缘、基础设施。从我的角度来看,现在的机器人应用,虽然已经有很大进步,但还是局限在一个工作台上。基本上真要把大小脑配合起来完成一个再稍微长一点的任务,稍微跨多个模态之后(就比较难了)。

  我们组里会讨论到底具身干活得干到什么程度,比如说收拾屋子的任务,这不只是叠一个衣服,而是(机器人)要去看整个屋子的状态,琢磨应该收拾成什么样,然后开始一点点去干。干到最后把整个屋子收拾干净了,这是一个很难的问题。

  当然模型肯定需要有突破,但我也在琢磨,如果完成这么复杂的任务情况下,屋子本身会不会也要发生变化。我是硬件出身,因此有时候会想在建这个屋子的时候,建筑是不是应该要适配到有机器人的未来生活,毕竟原来只适配人的生活。就跟车路协同一样,我们也可以有帮助机器人的基础设施。

 

  主持人:汪老师讲的是我们下一代住宅标准也许要把机器人维度加进去。既然谈到了基础设施层面,汪老师怎么看现在具身智能领域里,国内和硅谷的优劣势?

  汪玉:美国在模型、数据等层面,更早地开始做了一些事情,有了一些应用上的投入和突破。但是真的到落地这个层面,我还是坚信中国可以很快地跟上,特别是现在中国在具身这个维度已经有比美国更强的投入了。

  有很多人说具身是泡沫,我个人是觉得好不容易有一个方向,中国投入的强度比美国大,我觉得这可能是好事。因为中国的整个产业链、供应链是完整的。如果把应用开放得再多一点,在模型和应用层面的投入再加大,是有可能比美国在具身领域有更快的突破。

  此外,中国现在我觉得学术界和产业界的联动慢慢变多了,就像我自己坐在这里。其实是产业界碰到的问题后,回头会跟研究机构再形成联动,而不是老师们坐在屋子里面看论文做研究。这样的联动线,我个人觉得这一点是和美国慢慢一致了,就是产学研在一起去推动具身这个方向。

 

  主持人:观察到一个现象,前两天被誉为美国春晚的“超级碗”,上面有很多LLM(的宣传)。但是我们国家的春晚,要上台基本都是机器人。仲远院长对这个话题有没有想要表达的?

  王仲远:我分享听到的两个小故事吧。

  第一个是一位投资人告诉我的小故事,美国那边的具身智能投资人,经常会看创业团队里面有没有华人,美国投资人认为有华人才能确保这家创企搞的具身智能有可能成功。

  另外一个小故事,是我们自己在做具身智能模型迭代的时候,一个很痛苦的点在于硬件会经常损坏。硬件损坏了之后,一来一回,经常一修就得两个礼拜。但是我们听说美国那边的机器人硬件一坏得修三个月,瞬间我们的心态就平衡很多。

  所以一方面可以看到中国确实在制造业上有优势,这是我们做具身智能方面的一个优势。另外,整个行业依然处在早期,大家都处在快速发展和迭代的阶段,所以远没有到分出谁优谁劣。

 

  主持人:聊过了美国具身创业的“含华量”指标。从整个AI行业来看,很重要的里程碑叫“ChatGPT时刻”。所以大家认为“具身智能的ChatGPT时刻”是怎样的?阶跃星辰的姜大昕总,您对于“ChatGPT时刻”应该有更深的感悟和体悟?

  姜大昕:先说怎么定义“ChatGPT时刻”,我觉得最具标志性的就是“零样本”。零样本地去做泛化,给它任何一条指令,即使以前没有见过,AI可以回答出问题。这是和原来的自然语言处理是完全不一样的,也是为什么“ChatGPT时刻”让大家觉得非常兴奋。

  但如果对比自然语言和具身只能,我觉得“具身智能的ChatGPT时刻”会更加困难一些。

  首先,从问题的定义本身,具身的泛化我觉得可以从不同维度去定义。泛化的维度不一样,导致对于“具身智能的ChatGPT时刻”这件事情,不同人之间会存在非共识。

  第一个维度是场景的泛化,比如,它是封闭场景、半封闭场景还是全开放场景;第二个维度是任务,导航任务、抓取任务还是家务;第三个维度是目标的泛化,即使是一个简单的抓取动作,抓取的对象也分为钢铁、柔性。

  其次,我觉得从技术角度来看,具身智能牵扯到计算机视觉,但在一些非常根本性的问题上,大家没有形成一个共识。比如,视觉究竟怎么编码,怎么做自监督的预训练,比如说在3D空间里面怎么做推理,我觉得这些事情可能未来还是需要一些突破,然后才能够到ChatGPT时刻。

 

  主持人:对于“具身智能的ChatGPT时刻”而言,定义是很关键的,所以做具体具身智能的两位嘉宾,怎么定义具身智能的ChatGPT时刻? 

  高继扬:我觉得这个问题特别值得讨论。我觉得我们可能有一个更底层的问题,就是具身智能和语言模型这两个产业,虽然底层都是来源于AI技术的创新突破,但是具体到产业里面去看,二者还挺不一样的。

  具身智能从技术的产生到产品的规划,再到商业落地,链条更长。整体涉及到上下游的零部件供应链和数据,而且具身智能的数据之前是没有的。然后要做算法。再之后,还会发现渠道和终端跟大语言模型也不一样,大语言模型的终端是手机、电脑,渠道是社交媒体的传播。

  所以你会发现在整个产业链条里面,大语言模型最稀缺、也是唯一缺的一环就是模型本身。所以模型即产品,模型好了,整个商业化、产业化的链条都开始具备了。

  而具身智能,在刚才说的这几环里面,供应链、零部件都很不成熟。没有整机,也就没有好的真机数据。具身智能的终端就是机器人本身,这也涉及到要做线下渠道。

  回到刚才的问题,对于“具身智能的ChatGPT时刻”定义,我认为如果从业务产线的角度来说,应该是我们真的看到了它在某些限定范围内具备商业价值的这么一个时刻。

  2026年我觉得会是发生变化的一年,因为整机和供应链经过过去两年的准备,发生了很多变化。数据我们也有很多,在模型、算法层面、后训练上的强化学习,预训练上的VLA以及最近的World  Model(世界模型)引入,都给我们整个预训练的泛化性和后训练的成功率提了很多新的变化。

  所以我觉得今年是应用要闭环的一年。去年2025年上半年,我们明显看到智能的发展有所起步,2025年下半年智能明显加速,关键指标我们可以参考开源社区里的开源模型数量。

  2026年会是智能爆发的一年,爆发的结果一定在某些应用领域形成应用的外溢,而且同时配合了供应链和整机。尤其是中国,显著比美国强得多,周期刚才提到了快5到10倍,成本低5到10倍。

  唐文斌:我觉得姜大昕讲的“ChatGPT时刻”要求蛮高的,这已经是AGI时刻了。今天我们想想ChatGPT给我们带来最大的震撼是什么,我们曾经把它当成一个玩具,但是在那一刻,我们认为它是一个工具,它变成一个可用的东西。

  所以我心中“具身智能ChatGPT时刻”的定义,是它变得有用、可信赖的时刻。这还是回到我们公司的使命想去做的事情。

  我们对有用的定义非常简单,它可以在限定场景,但要真正闭环解决所有的问题,要能够在ROI上面算明白,算明白ROI才能使得它能够被批量化应用。

  满足这样一个有用的定义情况下,我们才真正把一个玩具,或者说一个研究项目变成了一个工具,这个时候我认为就是“具身智能的ChatGPT”时刻。我觉得现在模型的能力进展确实非常大,所以这并不是很远。

  当然ChatGPT时刻之后,还有DeepSeek时刻,也就是说它什么时候能够出圈。今天具身智能机器人可以在仓库、工厂里打螺丝,但我觉得老百姓并不能感知到,也许DeepSeek时刻可能是说全民都有感觉。今天如何能够从工业物流走向商用、走向To C,这个时刻还要再晚一些,但我觉得也不会太远。

 

  主持人:在旷视时期,原力灵机的主创团队经历了AI的1.0时代,现在到了具身智能的时期,你们并不是在一开始放出一个模型,而是先把RoboChallenge这样一个Benchmark放出来。所以是怎么思考这个问题的?

  唐文斌:模型是一个产物,它的结果,模型、算法、架构、数据都在变化。当下其实整个技术架构是非常缺失的,不管是数据,还是仲远院长讲到的好用的硬件,以及评测标准。

  今天的整个具身智能行业,我们所有做算法的人都知道,如果你不知道怎么评测它,你肯定没有办法让它进步。今天,我们能用的评测标准可能有LIBERO、SimplerEnv、RoboTwin,它们的规模很小。很多Benchmark都已经被差不多刷爆了,但99点几分是代表当前真实的能力吗?显然不是。

  所以我们觉得非常需要来自物理世界、基于物理世界真实的、大规模的、真机的评测,才能够引导我们能够更好向前。

  原力灵机内部花了很多力气在我们的具身框架Dexbotic上做整个基础设施的建设,是希望把一些东西放出来,能对行业做一些贡献。我们虽然是RoboChallenge的发起方,但是包括仲远院长、高继扬、清华汪老师等等,大家都一起在做这个测评,是希望行业里的更多人加入一起推动这个评测。

 

  主持人:今天在座的嘉宾也有多位是RoboChallenge的合作方。星海图作为第一批加入的企业,给RoboChallenge捐赠了硬件,这个思考是什么?

  高继扬:但是真正面向应用的、落地的具身评测标准,一定是需要真机的。

  我觉得ChatGTP或者语言模型的整个发展,完全是商业需求拉动的,Agentic、Coding、ChatBot这三大垂类有巨量的需求在拉动。

  我们回头看具身智能,未来也会形成垂类的概念,垂类一定是来自真实需求,这些真实需求要落到真机的评测里面,才能够给我们做研发的企业,还有包括未来的需求方形成比较公允迭代的环境。

  很多时候AI还是实验科学,它有一定的原理、数学做支撑,但最终很多事还是要试出来。“试”就要有反馈,反馈就要有评测。决定一个公司,一个组织,包括AI和其他的,很重要的一个指标就是它的迭代效率,所以我们想尽一切办法提高这个迭代效率,反馈的质量,这是为什么当时师兄提到说想做RoboChallenge时,我特别认可、特别支持。

  因为我们在公司内部有自己的一套Benchmark,大家可能10个场景不断去迭代。我觉得我们也应该能够有一套整个行业、整个业界,都能够普适的标准,甚至可以让学界参与进来,能够更好把产业界和学术界联动起来。

 

  主持人:RoboChallenge有非常强的重要性,但是一开始出现的形式稍微有点怪。像是成绩好的学生,自己出了测试题,然后自己去考试。汪老师怎么评价学生的这种行为?(编者注:此处指原力灵机既是Benchmark评测标准的发起方,自己也作为企业参与评测并取得了较好成绩)

  汪玉:我觉得未来学习的模式可能会变,不一定是老师教的,可能学生就是自己学的。这也是我们最近跟学校里面的同事在讨论,未来大学的发展可能真的不是老师教课,老师可能就是来考个试,但是考题的灵感可以来自于学生们,这个没有任何问题。

  回过头说,其实现在北京做了一个很好的事情,就是做亦庄的机器人比赛,我们有两会一赛,有马拉松、机器人大会和运动会。原来更多考验本体能力,现在慢慢再加一些跟智能相关的检测。

  但是这样的方式往往是低频的,每年可能就那么一次、两次。所以能不能做一个平时可以随时去测的真机测试,并且以相对公允的环境、试验场景,这个我还是非常喜欢的一种方式。

  把这种高频的、线上的,或者说不管在什么地方都可以做这件事情,成为现实,我觉得这个能力还是非常值得继续推进的。

  现在其实有十几位“好学生”(参与方)一起去共建这样一个RoboChallenge的平台,这个平台每个人内心都是公益的逻辑,在这样一个环境里面去竞赛。

  什么时候能够以一个更加公益的形态呈现,可能也是我们可以继续商议的。本来公益组织的建设就需要很多时间。但是从发起到高频次真实世界的评测,到大家一起贡献所有不同的场景,包括产业界、做机器人的、学术界一起定义这些场景,再往后怎么做一个全开源的生态。这一套起来以后对于整个行业是一个巨大的推动,所以我觉得这事还是非常值得去继续努力的。

  唐文斌:我想插个话,确实我们在探讨这样一个事情,因为我们在这次DM0模型发布的时候,我们自己内部有一个小纠结。因为RoboChallenge是我们和Hugginface一起发布的,虽然有很多同行的参与,但毕竟我们还是发起方。所以,原力灵机自己到底应不应该提交自己发的模型,到底应不应该放这个成绩,我们内部纠结了一阵子,展开了很激烈的讨论,有不同的意见。

  汪玉:OpenAI自己也有Benchmark,他们测完以后自己也发结果,这个我觉得不矛盾。

  唐文斌:因为OpenAI也是这么干的,我们自己心里也淡然了。这次我们对团队提的要求开源一定要做的非常彻底,我们要保证大家下载了我们的code、DM0模型、Dexbotic(开发框架),直接去RoboChallenge提交就能拿到现在的分,这是我们在这个事情上这是一个很公开的事情,大家大大方方做就好了。

 

  主持人:我们最后再来说一些预言性的问题。面向2026年,在具身智能领域,大家最期待看到的情况,或者能解决的任务,会是什么?

  汪玉:还是从电子系角度来说,我真的希望能形成一套云边端配合的体系,能够改变建筑,去构建面向机器和人共生环境的基础设施。这套方案我觉得今年可能有一个雏形出来,大家再一块去讨论。

  王仲远:虽然我对硬件、模型都有很多的期待,但可能我对2026年最期待的反而是在标准上。

  因为我觉得现在不管是硬件的标准、数据的标准,包括模型输出的标准,整个生态非常碎片化,所以我蛮期待2026年在标准上能够有一些突破,它有可能极大促进整个产业的发展。

  因为智源一起参与了RoboChallenge,我印象很深,当时和文斌交流的时候也说到数据大家各采各的数据,连格式、代码很多都是不一致的,所以这就直接导致了很多时候模型也很难被重复验证,坦白说我们尝试下载和验证近期国内外发的很多的模型,最后我们部署起来都很挺费劲的,这里面有很多东西就是因为大家的标准没有统一。

  2026年的时候,智源因为也在人形和具身的标委会里,很大概率我们会牵头做具身智能的标准。

  姜大昕:刚才听了文斌的分享很受启发,如果真的在任何场景、任何任务、任何目标上能够实现零样本的泛化,那就是“AGI时刻”了。

  2026年我最期待原力灵机和阶跃星辰能够合作,实现文斌所说的ChatGPT时刻:能用、可靠的完成任务。

  文斌如果觉得这个任务没有足够的挑战,那咱们上半年实现ChatGPT时刻,下半年实现DeepSeek时刻。

  高继扬:我觉得还是期待2026年真的能够在生产力端看到一条明确的增长路径。然后,在两年之内能够有单一场景,形成比如上万台这样的出货,我觉得这是整个行业都迫切需要的。

  唐文斌:我的目标比高继扬小一点,我希望看到在一个场景,有一千台持续运行。

  这里面我想说一下持续运行是最关键的事情,而且不要场景很多,不是靠加法做起来的,一个场景里面一千台持续运行,某种程度上就是我们今天已经走通了一个场景的规模化的闭环,我觉得2026年有机会。

  封面来源|AI生成

Comentários
免费会员服务:紫光音乐 紫光标签 紫光云盘 紫光工具