



具身智能被视为实现通用人工智能(AGI)的重要路径,但当前具身智能产品在硬件、软件、算法和数据等多个方面都面临挑战。
当前硬件能力相对欠缺并且与软件的集成不够、硬件的可用性及可靠性不足、能源效率低等问题成为具身智能硬件发展的主要障碍。
此外,国内具身智能部分核心零部件与国外高端产品存在差距,导致在这些重要零部件的使用上存在对国外产品过度依赖的问题。
(1)功能不足
因结构设计、精度、稳定性、计算能力等方面的不足,以及迭代速度较慢,当前硬件难以有效地执行上层软件的运动控制指令,以及更加精准地收集大规模数据,进而导致具身智能产品难以满足任务需求。
具身智能的本体作为任务执行主体,负责主动感知环境并执行具体动作。本体配备的传感器、执行器等硬件组件以及自身形态设计,对具身智能的能力发挥有着直接影响。
目前,电机、丝杠、减速器等执行器能够支撑具身智能机器人的稳定运动,且成本可控。在操作层面,机械臂技术较为完善和成熟,并已在实际场景中得到落地验证。
但是,硬件的抗冲击能力、灵巧手的操作能力、触觉和力觉传感器的集成度等,仍需要不断提升。其中,灵巧手的研发进展相对缓慢,主要通过增加关节自由度和配置传感器来提高操作灵活性,但在仿生结构的精巧度以及类似皮肤的柔性感知方面仍面临较大挑战。以英国Shadow Robot公司推出的Shadow Hand为例,这是目前最成熟的商品化多指灵巧手产品之一,拥有24个自由度,配备指端触觉传感器,但仍然无法实现与人手相当的操作能力和灵活程度。
而且,不同形态的本体适用于不同的环境和任务需求。具身智能产品大多需要结合复杂动作控制算法来执行复杂任务,而动作控制算法与产品硬件是紧密耦合的关系,硬件系统结构会直接影响具身智能的行动能力边界。例如,波士顿动力的Spot四足机器人搭载了先进的动作控制算法,因而能够在复杂地形上行走,但其载重能力低,导致设备搭载种类受限,步态稳定性也存在问题。这些硬件设计缺陷限制了它的应用范围和场景。
因此,在具身智能从落地验证走向商业化的过程中,需要通过本体硬件能力的持续提升和应用形态的合理设计,实现研发成本、执行效率和通用性的平衡。
(2)软件集成度不足
目前,具身智能硬件与软件系统集成不够,难以实现高效的数据处理和精确控制。在执行实际操作任务的场景,需要本体有着更高的灵活度和实时自适应调节的能力。
具身智能系统中,需要将传感器收集的数据实时传输给控制系统。例如,自动驾驶汽车需要将传感器数据实时传输给控制系统。这要求硬件具备高速传输数据的能力并可与软件无缝对接。而硬件执行精度也必须符合要求,才能够实现动作控制算法与产品形态的紧密耦合协同。若精度不够,则会导致移动抓取物体时定位不准。硬件在移动空间需要达到厘米级精度,在手眼协调的空间需要达到毫米级精度,但目前具身智能硬件的执行精度尚不能满足这样的要求。
(3)可用性和可靠性不足
具身智能本体需要在多变环境中稳定运行,这对其硬件的耐用性提出了较高的要求。在野外等复杂环境中,具身智能机器人可能滑倒或跌落,因此其硬件需要具备较强的抗击打与抗冲击能力。但当前机器人在复杂环境中的故障率较高,维护成本也因此居高不下。
例如,在真实环境中,温度、湿度、摩擦力、障碍物与部件磨损等因素会动态变化,影响机器人的感知精度与决策准确性,阻碍其行动能力,进而影响任务成功率。当前,如果仅依赖大模型,则难以从容应对复杂多变的操作对象和操作要求,需要考虑优化奖励策略,结合环境、运动等多模态信息的整合机制。
(4)能源效率不足
在需要连续工作的场景中,本体的电池续航能力至关重要。电池技术的能量密度和充电速度限制了机器人的持续工作时间。当前,具身智能机器人通常仅能连续工作数小时,之后就需要充电。例如,Figure 01的续航时间为5h,优必选Walker X的续航时间仅为2h。
(5)核心零部件的国产化供应不足
我国供应商在控制器、减速器、力控/触觉/惯性传感器等关键零部件方面,与国外高端产品仍存在差距。例如,国产精密减速器在产品系列完整性、一致性等方面逊色于日本产品;又如,用于精准力控的六维力传感器,在灵敏度、串扰、抗过载能力等方面也与国外高端产品存在差距。
由于国内外关键零部件存在性能差异,国内许多企业也会选用国外高端产品。这不仅阻碍了国内企业在具身智能产业链高端环节的发展,降低了产业附加值,还削弱了国产具身智能产业链的自主性和整体竞争力。同时,国内企业在关键零部件上过于依赖进口,不仅提高了生产成本,还可能因国际贸易政策的变化而导致供应链中断。尤其需要警惕的是,具身智能技术未来在国防安全领域至关重要,若因国际政策变化导致其关键零部件的供应链中断,则可能使我国在关键时刻陷入战略被动。
如前所述,具身智能系统的软件不仅需要高效地处理和解释由传感器收集的数据,还需要与硬件平台紧密集成。但是,目前的软件系统难以满足具身智能产品各方面的高要求。在算法层面,自主学习与认知机制也尚未成熟。
(1)缺乏统一操作系统与标准化开发工具链
当前,市场上存在多种具身智能操作系统,如ROS、基于Linux的自研系统等。这些系统普遍依赖大量开源组件,易出现兼容性问题或因版本升级导致系统稳定性下降,提高了开发难度,进一步增加了开发时间和工程成本。
当前,尽管人工智能算法整体有所进步,但具身智能算法的成熟度普遍不足,在实际应用中仍面临挑战。以3D场景中的情景问答(SQA3D)任务为例,当前最先进模型回答的准确率仅为约47.20%,远低于人类水平(90.06%)
。此外,当前软件与硬件的集成度不足,导致能应对复杂环境与多变任务的通用型控制算法的研发成为技术难点。
(2)系统仍高度依赖人类干预,自主学习能力有限
具身智能的核心目标是实现通用智能,即能够自主学习并适应各种环境,完成多样化任务。然而,当前的具身智能研究大多是将大模型机械地加入机器设备中,这样的具身智能机器人只能实现对人类知识和经验的模仿,缺乏自主产生意图的能力,更难以快速适应环境的变化。
现阶段,具身智能的学习系统在本质上还未实现自主闭环。人类需要根据具身智能的学习结果,有针对性地采集更多、更好的数据,调整数据的概率分布,反复迭代优化奖励函数等,以引导具身智能的学习。这种程序的智能只能算作“辅助智能”(Assisted Intelligence),而通用智能需要的是“自主智能”(Autonomous Intelligence)。
(3)尚未实现从感知到行动的认知映射机制
具身智能的感知和行动需要紧密相连,才能快速应对不断变化的环境。 Thinking,Fast and Slow 这本书中提到人类思维的两种模式——系统1(快思考)和系统2(慢思考)。系统1负责实现快速的反应式自主控制,而系统2负责实现需要慎重思考、推理分析的有意识决策。人脑运作高效的原因在于,95%的日常行为只需要调度系统1,只有极少数任务需要调度系统2。
目前具身智能系统的智能增益主要集中在系统2,表现为由大模型主导实现的推理能力。而类似人脑的从感知到行动的认知映射机制,涉及物理概念理解、感知预测、行为推理等,同时需要构建感知输入与行为输出的关联。
对此,业界已经从世界模型、扩散策略、脑神经科学等角度开展了相关研究,但仍未完全解决这一难题。
在具身智能的构建过程中,真实数据的获取至关重要,但这一获取过程较为困难。高质量数据的缺乏已成为制约具身智能突破的关键瓶颈。
一般来说,真实数据的获取可以通过遥操作(teleoperation)或观察学习人类行为等技术途径实现。机器人在不同环境中的适应性和泛化能力,直接取决于处理数据的丰富性和差异性。例如,家庭服务机器人需要学习多样化的家庭环境数据,才能在各种家庭任务中有较好的表现。但是,获取广泛、高质量且多样化的数据并不容易。而且,收集大量真实数据的成本极其高昂。例如,采集一辆自动驾驶车辆在真实道路环境中运行一小时所产生的多模态传感器数据,成本高达180美元,约为模拟数据的100倍。
作为替代方案,可以通过仿真环境或算法/数学模型来生成合成数据,以模拟真实数据中的统计模式和关系。该方案允许机器人在各种设置条件下进行模拟操作。但虚拟环境与现实世界之间的差异是一个不得不面对的问题。其差异主要体现在物理环境、光照条件及意外交互等方面,尤其是在需要高度真实交互的场景(如精密操作、复杂环境导航)中,仿真环境往往难以完全满足实际需求。