腾讯首席科学家张正友:走向“身智融合”,突破具身智能的割裂时代

2025-12-20 13:10:54 财经网 

由北京市通州区人民政府指导,《财经》杂志、财经网、《财经智库》主办的“《财经》年会2026:预测与战略 · 年度对话暨2025全球财富管理论坛”于12月18日至20日在北京举行,主题为“变局中的中国定力”。

12月19日,腾讯首席科学家、Robotics X实验室主任、福田实验室主任张正友在论坛上表示,我们要从目前的身和智割裂的拼接,强行把没有世界认知的AI塞进机器人的状态,过渡到身智融合,机器人在与环境持续闭环交互中“身”与“智”要能动态、协同地进化,无缝地适应多变的环境,不断提升自己的能力,涌现出真正的具身智能。

腾讯首席科学家、Robotics X实验室主任、福田实验室主任 张正友

在演讲中,张正友首先厘清了具身智能的核心概念。他指出,具身智能是相对于“离身智能”(如ChatGPT等无身体的AI)而言,指拥有物理身体(如机器人、无人机)或虚拟身体(如数字人)的智能体。其关键特征在于能通过主动感知、规划和控制来改变真实物理世界,并基于反馈调整策略。

张正友分析了具身智能近年来兴起的原因。具身智能是涉及多个学科的融合,包括传统机器人领域的机械工程、自动化、嵌入式系统控制优化,还有计算机领域下的机器学习、人工智能、模式识别,认知科学、神经科学等等。它是在各支撑技术发展到一定成熟度之后才涌现出来的能力。

他进一步勾勒出几大技术趋势:计算平台正朝着更连续化、个人化的方向演进;感知技术从传统被动、标准的单一的信息走向主动的个人化和多模态的感知技术;人机交互技术平民化;人机交互朝多模态感知和虚实融合的方向发展。

关于人工智能系统趋势的演进,张正友提出了三代划分:从被动返回链接的搜索引擎(第一代),到根据指令生成内容的生成式AI(第二代),目前正进入第三代“交互式AI”即智能体时代。智能体能感知周围的环境并构建世界模型,并自主规划决策,能够自主采取行动,具有完成某些任务实现某个目标、适应环境,从经验中学习,以及和其他智能体合作的能力。另外,智能体具备记忆连续性、认知全息性和进化内生性等潜在优势。

当前具身智能领域存在“智能与本体割裂”的普遍问题,简单将大模型嵌入机器人,难以实现真正的自主交互。在具身智能实现路径上,张正友提出了控制范式的改变。

他将智能分为两类:无需思考的快速“反应式智能”(如应对突发状况),和需要深思熟虑的“有意识自主”。他指出,传统机器人的“感知-规划-行动”范式无法有效处理反应式智能。为此,他于2018年提出SLAP范式,其核心是让感知与行动紧密闭环,以应对快速本能反应;只有当处理复杂任务时,才启用更高层的规划。其演进版本SLAP³通过构建类似“左脑”(规划大模型)、“右脑”(多模态感知模型)和“小脑”(感知行动联合大模型)的分工协作模型,从而打通从看见到做到的关键环节。

另外,他通过其主导开发的Tairos平台演示了如何将大模型能力与机器人本体结合,完成从复杂任务分解到具体执行的闭环。

张正友展望了具身智能面临的挑战与机遇,包括深化虚实世界融合,构建精准的物理世界模型,实现虚拟训练向真实场景的高效迁移;提升通用泛化能力,强化智能体的长短期记忆管理与人格化塑造;完善多模态感知,除视觉、触觉外,进一步整合嗅觉、味觉等感知维度;降低技术门槛,通过平台化工具赋能更多开发者与应用场景。

在应用场景方面,他特别关注利用机器人应对老龄化的场景,并通过其团队设计的轮足融合机器人“小五”为例,阐释了超越单纯仿生思维的重要性——机器人(Robot)的本质是服务于人类的“劳力”,形态应基于功能与效率,如结合轮式的高效与足式的越障能力。

他特别强调,从词的起源上来看,机器人(Robot)的本质是“为人类服务的苦力”,可以借鉴人的优势,同时可以探索多种模态,其形态不必拘泥于仿人。最后,他引用“身智融无碍,应物任随形”的理念,指出具身智能的理想状态是从当前的“身智割裂”走向“身智融合”,让具身智能在环境交互中自然演进、自主涌现智能。

以下为部分发言实录:

张正友:谢谢张主编的邀请,探讨一下具身智能的发展趋势与实践探索。首先什么是具身智能?具身智能是相对离身智能而言的,离身智能就是没身体的智能,像ChatGPT,具身智能就是有身体的智能,有身体的智能可能是一个虚拟的身体,比方智能数字人,也可能是物理的身体,像机器人,机器人可以是四足的,可以是人形的,可以是非人形的,包括无人机,都可以纳入具身智能。

离身智能因为没有身体,我们经常把它比喻成”缸中之脑”,这种情况下离身智能只能做一些逻辑推理、文本生成、知识问答、图像理解、视觉理解。具身智能是通过主动感知、规划和控制改变真实物理世界,并且反馈调整策略。

具身智能的概念已经几十年了,可能有五六十年了,但为什么最近几年火起来?进入大众的视野可能只是2023年下半年。具身智能是通过类人的感知方式,包括视觉、听觉、语言、触觉等获取世界信息,并抽象成一种表达,比如语意,理解世界,而且行动与世界交互。

一个很大的特点是具身智能是涉及多个学科的融合,包括传统机器人领域的机械工程、自动化、嵌入式系统控制优化,还有计算机领域下的机器学习、人工智能、模式识别,认知科学、神经科学等等。所以具身智能牵扯到这么多学科,它一定要在所有领域发展到一定程度之后才涌现出来的能力,为什么最近火起来?就是因为各个领域有点成果了,大家看到具身智能的希望了,所以大家的热情非常高。

下面我简单介绍一下这个趋势。第一个趋势就是计算平台的演进,从大型计算机到个人计算机到智能手机,到可穿戴的设备,还有AI眼镜,到机器人。计算是已经朝着连续化和个人化方向演进的,第二个技术趋势是感知技术,从传统被动标准的单一信息,慢慢变成一个主动的个人化和多模态的感知技术,比如我们的手机上面有三十几个传感器,但大部分时间都没把它用起来。

人机交互的壁垒越来越低,人和机器或者机器人之间交互壁垒越来越低。在大型主机的时代我们必须懂机器语言,01语言或者汇编语言,懂的人非常少。进入到PC时代,有高级语言,C、JAVA之类的,懂的人就比较多了。我们现在是在移动设备时代,有了DeepSeek、ChatGPT、腾讯元宝之类的,可以用自然语言跟计算机交互,这个壁垒非常低,懂的人越来越多。

接下来是MR、AR、AI眼镜的时代,这时候会用到五官的感知,眼耳鼻舌身,是多模态的,用五官跟机器人交互懂的人就更多了,包括语言不太顺畅的,到最后是会进入到智能机器人的时代,那时候男女老少幼都可以跟机器无缝交互。

虚实世界和真实世界之间是紧密交合的,已经非常非常融合了,并不像以前,游戏是虚拟世界,我们平常在现实世界,但它们之间已经紧密交互了。

人工智能经过过去两个寒冬,现在大家不太认为是寒冬,因为人工智能、AI已经变得非常非常有用了。

另外一个趋势是关于人跟大规模AI系统的交互,第一代系统,我们大家熟悉的是搜索引擎,搜索引擎是怎么样工作的呢?我们先是想办法找一个Query,搜索引擎就会根据它的理解给我们二三十个链接,但这个链接到底哪个真正有用?它也没那么清楚,所以人必须要点那个链接,发现这个信息不是想要的就退出来,这是一个很被动的AI系统。

第二代系统是目前的生成式AI,你只要给它一个问题它就给你一个回答,这个回答可能是文本的信息、图像的信息,也可能是音频或者视频的信息,因为我们用了自然语言理解。但你还是要给它一个问题。我们现在正在进入的第三代AI系统,我叫它交互式的AI,是一个主动的AI,它无时无刻不在观察着我们,这个观察是一个多模态的交互,它知道了我们身处的物理世界,它可能理解我们的意图就采取行动帮助我们完成任务,这样主动的AI我们就叫作Agent,智能体可以独立完成它的任务,我们人类只是评测或者监督它完成任务的好坏。

Agent有几个特点,首先能感知周围的环境并构建世界模型,而且能够自主规划、决策,能够自主采取行动,完成某些任务实现某个目标,还要有适应环境的能力,还要有学习的能力,还要具有和其他智能体合作的能力。这个AI智能体目前还没有人厉害,所以人是目前最强大的智能体,但是智能体有三大特点:首先是记忆的连续性。我们人的记忆是非常容易忘记的。第二,认知的全息性。智能体可以把所有的信息几乎都记下来,人受限于带宽必须通过多层的滤波才能处理信息。第三,进化的内生性。人类的进化是非常缓慢的,动力容易衰减。这些使AI智能体相对人类是更有优势的地方,所以AI智能体会变得非常非常强大。。

这是AI智能体的全景图。右边的现实世界里有人类也有机器人,在左边是一个虚拟世界,或者数字世界,智能体和智能体之间交互,智能体跟虚拟环境也交互,当然虚拟世界跟现实世界也是交互的。我们人跟虚实世界的所有互动都会由AI智能体促成,因为有AI智能体促成,我们所有做的事情都会被AI记住。

下面我讲讲具身智能是怎么样实现的。为什么最近几年大家对具身智能很火,就是因为大模型ChatGPT让我们耳目一新,确实是革命性的进步,大家想能不能把大模型塞进机器人里我们是不是就实现了具身智能?当然现在是很割裂的。未来我们希望智能和本体真正融合,目前还是没有这个能力的。

智能可以分成两类:一类是反应式智能,比如我们走路被小石头绊了一脚能够很快恢复,或者我们抓个杯子打滑了很快可以调整力度抓稳,这些是没有经过思考的很快反应的智能。一类是有意识地自主,比如怎么样从台上走下去。

这是一个视频,骑自行车要补给水,当时他抓的时候没抓住,尽管有这个意识,但手操作来不及,可能骑车的时候僵硬了还是什么之类的,所以反应式自主就没有达到。我们人或者具身智能是需要解决这两个问题的。假如你学机器人,范式是这样的,先感知,然后规划,然后行动,但传统的控制范式是不可能处理反应式自主。所以我在2018年成立腾讯机器人实验室的时候提出了SLAP范式,SLAP范式最大的区别就是感知和行动是紧密结合的,不需要上升到计划,只有到复杂任务的时候才上升到计划,学习是要渗入到感知、行动、规划每个模块。

这个跟人类的感知系统非常接近,人类的感知系统分成Systems1和Systems2,这是一个诺贝尔奖获得者把认知科学总结成一本书,里面讲Systems1是非常快速的思考,是直观的,直接的,本能的一种系统,Systems2是理性的思考,是比较慢的思考,是需要消耗更多能量的。刚才讲了人脑子只需要20瓦的算力,为什么?因为我们大部分时间是在Systems1里,很少的时间才需要进入到Systems2。我提的感知行动紧密结合是应对反应式自主,对应的是Systems1,规划对应了Systems2,。

经过过去几年演进,从SLAP到SLAP³,3个P是规划、感知和感知行动。

规划模型,它类似于人的左脑,把人给的一个复杂任务分解成可以执行的策略步骤。多模态大模型类似于右脑,感知周围的三维环境,知道现实世界是怎么变化的,什么东西,有什么事情。感知行动联合大模型,类似于我们人的小脑,它打通了从看见到做到这个关键环节。

多模态环节融合了多元的感知系统构建一个世界模型,这里面其中一个是物理的识别,还有构建场景图。规划大模型对于简单的问题就快速回答了,复杂的问题可能就要花点时间,所以我们构建了一个双模的路由器,简单的任务快速响应只需要0.8秒,复杂的问题可能需要3.8秒,比如做饭要怎么做,它把复杂的问题拆解成小的问题。

还有一个规划大模型必须有自认知能力,机器人或者AI能不能对自己有认识?目前几乎是没有的,你经常看到跑马拉松头掉了还在拼命跑,手臂断了还要想拿东西,这都不是具身智能,所以具身智能现在被滥用了。我们引入了很多本体的信息,同样的模型如果放在机器狗上,它没有手知道没有手,如果放到有手的机器人身上就可以做操作的一些能力。

感知行动联合大模型,使得模型对环境的理解变成一个行动的执行器,这样可以适配不同的执行器,包括灵巧手、夹爪,而且可以泛化到不同的能力上。

用这个图介绍具身智能,比如我们让机器人帮我们煎蛋,它要调用感知模型,蛋在哪里?发现灶台上没有蛋,它第一步是从冰箱里把蛋拿出来,拿到蛋以后把蛋打到锅里,然后开始煎蛋。但到底怎么样到冰箱里拿蛋呢?调用下面的小脑完成任务,从目前这个地方到冰箱那里,把冰箱门打开,把蛋抓出来,把冰箱门关上,这都是小脑要完成的任务。在这个过程中如果有人经过要实时避障,可以在虚拟世界训练,然后回到真实世界。

规划大模型把复杂任务分解成子任务,多模态感知类似于人的右脑,有3D世界感知。视觉的部分,有非常快速对外面的世界进行计算,主要针对运动方面的,对应人类的背侧视觉通路。还有对世界理解,到底这个物体是什么,对应人类的腹侧视觉通路。我们开发了一个Tairos的平台,同时也提供了一些软件服务,包括开发工具,仿真平台,数据平台,我们跟本体开发商合作,赋能他们的本体智能,同时有些应用开发商可以在平台上开发应用。

这是我们把Tairos平台安装在宇树的机器人G1身上,7月27日在上海发布这个平台时实时地演示,不是人遥控的。(视频)这个机器人放在腾讯展厅三天,一直跟参观的人互动。这些对话都是随机的,不同的场景、不同的背景会有不同的回答出现。

下面展望一下,具身智能发展有很多面临挑战的地方需要继续投入,比如在虚实世界里,数字世界和物理世界的结合,如何构建一个真正理解物理世界的模型,虚拟世界怎么样迁移到真实世界,技术门槛降低,工具的平台化,多模态智能交互。

智能的演进前面已经提过了,还有通用的泛化能力,智能体化,里面有长短期的记忆怎么样处理,还有机器人不能千篇一律,是要有人格的,感知要多模态化,除了视觉必须考虑触觉,还要考虑嗅觉、味觉,还要有空间的智能,所以我把具身智能这些发展趋势总结成IDEAS。

还有一个我比较关注的,就是中国社会的老龄化,是不是有可能利用技术,尤其是机器人来帮助我们缓解老龄化的问题。所以我们设计了一个机器人叫小五,手上和手臂是有触觉传感器的,由于时间关系我们就看个视频吧。

我们的设计在平地上都是用轮子运行的,只是到复杂的地方就变成足式的,一旦到平地以后又要切换成轮式,因为轮式是比较高效的。可以看到左下角是视觉,右下角是触觉传感器,它能感觉到抓力。它还能够折叠成家具一样的东西,当你不需要的时间可以看不见它。

现在都是双足轮形,为什么我们选择了这样的设计?我们从第一性原理思考,到底什么机器人形态是最适合人居环境的?当然我们的小五肯定不是最佳的,只是其中的一个探索。人是最高级的动物,但双足直立是经过几百万年演进过来的,在荒野里生存下来的。而现在人类的环境是人居环境,大部分是平地的,偶尔有一些楼梯之类的需要处理。是不是一定要走仿生这条路?假如走仿生这条路,马车会变成机器马,汽车就不会出现。1900年在纽约第五大街,99%是马车,汽车才刚刚出现。仅仅13年以后,同一条大街99%已经是汽车了,只有1%的马车,可能是为了观光之类的。就像飞机如果完全按照仿生,飞机都不会出现。

回到什么叫机器人?机器人不等于人形机器人,我们中国人把Robot翻译成机器人,好像一定是人的样子,其实不是的。Robot在捷克的语言里是Forced Labor,是一个苦力,是为人类服务的苦力,当然人形是机器人的一种形态,如果能够超越仿生,我们可以借鉴人的优势,同时可以探索多种模态,所以不一定需要人形机器人,要回归Robot的本质,苦力人为人类服务,如果超越仿生就可以拥抱更多的可能。

这里举两个例子,一个例子是语音和阅读,一般的语音速度,假如人跟人或者人跟机器人用语言交互,一般的语音速度是100个字左右,但我们读能够读300个字,一般大学生能读到450个字。如果在机器人上加一个屏幕,我们3倍的速度可以了解机器人想要干什么。人不可能进化出屏幕来,同样人也不可能进化出轮式来,只是在童话里哪吒脚踩风火轮,只是在想象之中,因为人的进化是几百万年,非常缓慢的,但技术进化是可以指数级的。足式效率非常低,容易倒塌,但它也有优势,能够穿越复杂地形,轮式效率高,稳定性好,所以为什么小五把轮式和足式结合起来,平常都是用的轮式,但上楼梯的时候才改成足式。

这是唐代智通大师讲的,三身元我体,四智本心明,身智融无碍,应物任随形,尽管讲的是开悟以后的状态,但把它用来形容具身智能的理想状态是非常恰当的。我们要从目前的身和智割裂的拼接,强行把没有世界认知的AI塞进机器人的状态,过渡到身智融合,机器人在与环境持续闭环交互中“身”与“智”要能动态、协同地进化,无缝地适应多变的环境,不断提升自己的能力,涌现出真正的具身智能。让这些ideas变成现实。

谢谢大家!

(责任编辑:王治强 HF013)

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读