当今世界致力于发展机器人技术,欧博将AI融入机器人的重要性日益凸显。美国国家机器人计划(National Robotics Initiative)于2024年发布了一份技术规划报告——《美国机器人技术路线图:机器人技术创造美好未来》(A Road map for US Robotics: Robotics for a Better Tomorrow),阐述了AI的重要地位,并介绍了机器学习、通用人工智能(Artificial General Intelligence)、普遍自动化(Pervasive Automation)以及AI与机器人技术融合等课题的研究进展。此外,报告还着重强调了定制化AI、AI伦理、AI辅助科学发现,以及它们对经济、劳动力和国家安全的影响。
欧盟发布了《人工智能、数据和机器人合作伙伴关系的联合战略研究、创新和部署议程》(Strategic Research Innovation and Deployment Agenda for AI, Data, and Robotics Partnership),强调AI和机器人技术的发展应以人为中心并且安全可信。《议程》的核心在于促进产业、学术和政策制定者之间的合作,推动相关技术的研究、开发与部署。《议程》还鼓励投资并积极应对关键挑战,以确立欧洲在AI和机器人领域的全球领导地位,推动经济、社会和环境朝着有利于发扬欧洲价值主张、维护欧洲权利的方向发展。
中国在《“十四五”机器人产业发展规划》强调,要推动人工智能、5G、大数据、云计算等技术的融合,提升机器人智能化、网络化水平。《规划》同时指出,要强化机器人系统的功能安全、网络安全和数据安全,不断提升国家的技术能力,推动行业应用。
在传统的AI机器人系统中,感知能力基于部署在受控环境中的深度学习方法实现。这样的AI机器人虽然可以有效学习各种技能,但训练耗时长,需要对每个不同的任务进行大量的工程处理,缺乏分布偏移和泛化能力。对于单一任务,这种方法看起来是不错的选择。然而,在实际的多任务并行实验中,该方法的学习成本和工作量呈指数增长,成为机器人研究领域的又一大难题。
构建可泛化的机器人系统面临诸多困难。但与此同时,一个全新研究领域的出现,有望指明问题的解决之道,帮助改进机器人系统,这个领域即大模型(Foundation Model)。大模型是一种大型AI模型,通过适配特定应用,可以为多类型下游任务提供通用框架。大模型的训练基于互联网海量数据,因此大模型拥有卓越的泛化能力,并拓展了迁移学习(Transfer Learning)和模型扩展(Scaling)的概念。
借助大模型,机器人可以自主理解高级自然语言指令并执行相关任务,动态分解复杂任务,基于实时反馈调整动作,从而最大程度减少人为干预。此外,利用摄像头、激光雷达(LiDAR)、麦克风等常见传感器所采集的多模态数据,欧博娱乐机器人可以理解环境语义,提升态势感知能力。
传统的机器人往往只能僵化地执行预定义操作,受限于特定用途的模型。大模型让机器人既能理解环境,又能动态、智能执行各类任务,机器人因此更自主、更灵活、更高效。
本文就大模型在机器人领域应用的,分析学术界和产业界当前研究,以及未来的发展方向。本文还就6G技术对机器人的影响,重点介绍未来应用、与机器人与AI大模型的融合,以及相关组网要求。本文结构如下:第2节提供大模型在机器人应用的前沿分析;第3节简述主要机构的相关标准化工作;第4节概述6G和AI应用于机器人所带来的市场机会和研究前景;第5节介绍我们提出的6G机器人原型;最后第6节进行总结评述,并探讨未来的研究方向。
2 大模型在机器人领域应用的前沿成果本节介绍机器人领域所应用的大模型的种类、作用和功能。相关术语参考以机器人和机器人设备ISO8373:2021标准为参照——该标准确保了跨行业、跨学术领域以及跨区域交流机器人技术时术语表述清晰、一致。
2.1 大模型赋能机器人大模型可赋予机器人以下能力:
综合知识库:大模型提供广泛的多领域知识,让机器人可以理解并执行各类任务。具备这些知识,机器人可以轻松处理不同领域的复杂操作,无需针对特定任务进行繁复的重新编程。
自然语言理解:大模型具备强大的自然语言处理能力,让机器人能够理解人类语言并基于自然语言交互。用户可以使用自然语言给机器人下达指令、接收反馈,任务指令和交流更简单。
多模态势感知:大模型赋能的机器人具备多模态势感知能力,可借助RGB摄像头、LiDAR、麦克风等各类传感器理解周围环境的语义,还可以理解物体间逻辑与几何关系、评估态势、解释事件、预测未来事件。
零样本与小样本学习:大模型在零样本和小样本学习方面表现出色,使机器人无需大量训练,就可以执行特定任务。机器人灵活度更高、适应性更强,在面对新任务、新环境时,也无需重新训练。
2.2 机器人领域的大模型宏观分类大模型为机器人领域带来更多可能。具体来说,大模型中的一些预训练模型可提升机器人的感知、预测、规划和控制等方面性能。
大语言模型(Large Language Model,LLM):LLM让机器人可以理解自然语言指令,乃至用自然语言做出响应。
视觉Transformer(Vision Transformer,ViT)或多模态Transformer:机器人要理解摄像头、LiDAR等传感器从环境中采集的视觉数据,这类模型发挥着至关重要的作用。
具身多模态语言模型:这是一类功能更广泛的模型,可同时具备LLM、ViT的能力,使机器人不仅可以理解自然语言,还可以理解指令的视觉上下文。
视觉生成模型(Visual Generative Model,VGM):从扩散模型背后的演进原理来讲,VGM利用海量数据集进行训练,可以帮助构建真实场景,供机器人开展任务仿真演练。VGM提供了丰富多样的训练数据,可提升机器人的感知能力、微调动作。
从以上几点可以看出,大模型的应用并非将现有的视觉和语言模型简单组合,欧博allbet而是可以帮助机器人领域开发更具针对性的模型。
2.3 机器人大模型:意图识别和视觉推理近年来,基于Transformer架构的机器人AI因其强大的意图识别和视觉推理能力而备受关注。这种架构以语言嵌入和观察为输入,输出预测的动作。在基于语言条件的机器人操控(Language-conditioned Robotic Manupulation,LcRM)中,应用视觉-语言-动作模型(Vision-Language-Action Model),可以获得长时程鲁棒性和可泛化的策略,缩小了机器人物理和AI之间的差距,具体体现在两方面。
高阶规划:将复杂的语言指令转换并分解为基本动作原语序列,交由低阶控制器执行。规划与推理的高阶策略采用PaLM-E模型,该模型结合了PaLM和ViT,参数规模达到562B。
端到端学习:通过训练得到LLM,可以基于指令和观察直接生成动作。RT-1和RT-2等多任务模型可以将机器人的输入分词,并输出动作,从而实现运行时的高效推理,有望让机器人实时控制成为现实。类似地,Octo采用基于Transformer的扩散方法训练和微调通用机器人策略(Generalist Robot Policy)。Octo无需额外设置即可支持多RGB摄像头输入和多臂机器人,并且可以接受语言或目标图像形式的指令。此外,Octo还在其Transformer主干架构中使用了模块化的注意力结构,即便目标领域数据集和可用计算资源很少,也可针对新的感知输入、动作空间和形态进行有效微调。
2.4 机器人与AI大模型联合仿真平台目前已开发的一些框架,有的可用于带AI规划能力的机器人仿真,有的可用于算法控制,有的则兼具两种用途。我们认为有两类框架具有应用潜力,并将重点分析。英伟达Isaac实验室的平台也具备应用潜力,但由于该平台需要专门的商业许可,因此未予考虑。
RoboCasa是一种训练机器人执行日常任务的仿真框架,该框架提供了一套方法,可利用本体感知机器人数据(如关节编码读数)和图像(采集自机器人自带的或环境中的摄像头)来训练基于Transformer的模型。
MuJoCo(Multi-Joint dynamics with Contact,接触型多关节动力学)是一款用于物理系统仿真的物理引擎,尤其适用于机器人仿真。MuJoCo仿真效果逼真,可用于训练面向各种机器人任务的大模型。训练出的大模型可通过与虚拟环境交互、操控虚拟对象以及接收动作反馈来进行学习。训练数据可以传输给真实的机器人,使机器人能够在真实世界中执行类似任务。
HABITAT是一款专用于机器人助手等具身AI智能体训练的高性能3D仿真环境。HABITAT可用于各类常用机器人传感器(如RGB-D摄像头)的仿真,为大模型提供感知和决策所需的多样化感知信息。
3 6G和AI赋能机器人的应用场景在电信行业,科研和标准化组织一直在探索在探索如何将移动通信网络应用于机器人。3GPPSA1基于对服务机器人的研究,确定了八种应用场景,欧博百家乐包括实时协同安全防护、基于多机器人机载多模态传感器的智能通信数据采集与融合、面向矿山作业和交付的自主机器人与遥控机器人等。此外,这份研究报告中还讨论了触觉和多模态通信、通感一体化(Integrated Sensingand Communication,ISAC)、元宇宙、高级通信等技术。
one6G协会的任务是发展、测试和推广下一代蜂窝和无线通信解决方案。该协会认为,机器人应用将融入多个行业领域和社会部门。此外,协会还公开发布了一系列6G和机器人相关的白皮书,从通信、AI/机器学习、ISAC等方面深入讨论了6G如何赋能机器人。同时,该协会还提出了由6G赋能的机器人的若干场景,如协作机器人、救灾、运动规划、工业机器人和医疗救助。
Hexa-X和Hexa-X-II是欧盟资助的旗舰级6G研究项目。这两个项目讨论、分析了各种6G应用场景和需求,重点关注了自主机器人。这类机器人可以互相通信,也可以与其他机器和周边人类通信,以执行单一任务或合作达成共同目标。协同移动机器人(Cooperating Mobile Robot,CMR)就是其中一种。
4 6G机会点机器人控制通常分为四级:任务控制、动作控制、原语控制和伺服控制。机器人融合6G的AI与传感能力后,有望获得超越传统任务控制的智能水平,我们把这种更高的能力称为“元控制”。元控制机器人可以完全自主地识别问题、定义任务,并根据角色、任务和规则的元定义适应动态环境,还拥有实时态势感知能力。图1中展示了不同级别、ISAC功能和原生AI基础设施间的互操作关系。
图1 6G能力与机器人控制等级的适用关系
根据我们的设想,未来智能机器人的控制可以划分为以下等级:
元控制:该级别的机器人可基于角色、任务和规则的元定义自主识别问题、定义任务、适应动态环境,并具备实时态势感知能力。
任务控制:该级别定义了机器人的总体目标和任务,包括高阶规划、决策和任务分解,例如清洁厨房地板或者来一杯低热量的气泡饮料。
动作控制:该级别的机器人可将任务指令转换为具体的动作序列,包括轨迹规划、路径生成,例如规划一条避开孩子玩具、从客厅到厨房的路线。
原语控制:该级别可以直接控制机器人致动器使机器人遵循规划轨迹、生成关节姿态、速度和力量的相关指令,例如控制机械臂沿路径精确移动并拾取物体。
伺服控制:该级别为最低级别,重点是基于反馈回路精准控制致动器,确保指令可以高度准确、稳定地执行。
6G愿景及相关初期研究和标准化工作中提及ISAC、Network for AI(Net4AI)特性。这两大特性有望为未来AI大模型赋能的机器人注入重要的能力。
4.1 原生AIaaS提供AI模型和计算设施6G基于Net4AI提供AI即服务(AI as a Service,AIaaS)能力,将大模型和其他特定AI模型直接整合到网络基础设施。AIaaS具备以下关键优势:
时延低:AI模型可显著降低6G网络时延。在无线接入网和核心网内就近处理数据,最大程度避免将数据传输到外部服务器处理,缩短了响应时间。
数据源丰富:6G框架内的AI模型可以访问来自无线接入网、核心网以及ISAC的丰富数据。海量的数据源有利于实现精准且基于情景感知的AI决策,从而增强AI应用性能。
数据集成增强:6G网络中感知和通信的无缝集成,允许AI模型利用多样的数据源,实现更稳健、全面的分析,支持实时环境监测、自适应机器人控制和动态资源管理等高级应用。
与传统多接入边缘计算(Multi-Edge Computing)相比,6GAIaaS时延更低、带宽效率更高。这是因为6GAIaaS将AI能力整合到了网络基础设施中,边缘服务器和蜂窝系统间不再需要额外的数据路由。此外,6G原生AI模型可以在全网范围内访问更广泛的数据(包括ISAC数据),AI可以处理更全面的信息,业务交付更优质。6G框架还支持在不同无线接入网和核心网实体中动态分配AI资源,AI业务部署扩展性、灵活度更高。与机器人本地的AI系统相比,6G原生AI优势显著。具体来说,网络中的AIaaS计算性能通常优于本地AI,因此系统响应更快。将密集的AI计算迁移到网络,避免了本地处理所引入的功耗和散热问题,可延长机器人的寿命,也可以降低成本。此外,由于大量数据来自于网络,6G原生AI模型可以更准确地理解上下文并作出决策。综上,AIaaS有望使网络的“大脑”灵活分布于本地和网络节点,以满足安全性等要求。
4.2 ISAC用于机器人综合态势感知3GPP已启动ISAC的相关研究,并认为ISAC有望为机器人等诸多应用带来全新的面貌。SA1基于ISAC的研究成果(FS_Sensing),在TR22.837中详述了32项ISAC应用场景,并在TR22.137定义了相关服务要求。这些研究提出的ISAC方案在3GPP无线网络感知的基础上,综合采用了非3GPP感知——如摄像头、LiDAR等传感器。
未来移动网络的ISAC能力将从以下几个方面提升机器人应用:
将感知、通信、AI整合至统一的标准化网络架构中:整合了感知、通信、AI大模型的统一6G网络架构,将为未来智能机器人带来革命性的变化,让机器人可以快速访问全面、实时的数据,实时决策能力、态势感知能力因此大大增强。
基于感知网络实现全面态势感知:整合了感知、通信、AI大模型的统一6G网络架构,为机器人提供网络化的感知能力,从而实现全面态势感知。除了机器人自身的传感器,ISAC支持机器人访问网络中各感知节点(如其他机器人和环境传感器)上的丰富数据。
感知定位一体化:移动机器人寻找物体、进行导航都需要定位能力。ISAC可以融合移动网络的被动感知和主动定位,提高定位精度。
感知数字孪生(Digital Twin)构建:为机器人构建数字孪生需要实时且准确的感知数据。未来,ISAC或将创建精确、动态的虚拟副本,实现有效的数字孪生,提升多机器人协作水平。
4.3 6G通信赋能未来机器人6G的脚步越来越近,其超高的可靠性、超低的时延、强大的业务质量(Quality of Service,QoS)保障,以及与机器人软件和协议的互联,将让未来的机器人变得更强大。
超高可靠、超低时延通信(Hyper Reliable and Low-Latency Communication,HRLLC):在机器人集中控制场景下,HRLLC对工业应用来说必不可少。6G提供了超高可靠、高稳定、低抖动的通信信道,确保机器人系统可以更流畅地运行与同步,这对精度和可靠性要求高的任务至关重要。
先进的QoS框架:6G引入了先进的QoS框架,可为AI大模型和专业机器人应用按需动态分配网络资源。基于强大的数据吞吐能力,6G可高效传输AI训练数据、
互联新协议:6G 支持与机器人软件和通信协议无缝互联,如数据分布式服务(Data Distribution Service,DDS)、开放平台通信统一架构(Open PlatformCommunication Unified Architecture,OPC UA)、消息队列遥测传输协议(Message Queuing Telemetry Transport,MQTT)、Zenoh 。这样,现有系统无需重新设计,机器人就可以使用6G 强大的能力。
实时闭环遥操作与训练:6G 可以实现人类或AI对机器人的实时闭环遥操作,这对于解决未知的复杂任务、训练AI 模型通过模仿学习获得新技能至关重要。利用6G 强大的通信基础设施,运营商可以实时远程控制机器人,通过实际训练,缩短AI 学习和适配所需的时间。
新商机:AI能力加上机器人和网络的6G感知,将为网络所有者和机器人服务提供商开拓新的商机。实时机器人操作需要集成感知、AI和控制功能,还要求低延迟、高数据吞吐,以确保操作顺畅、性能高效。同时,还需要基于AIaaS智能体的部署情况,及时整合不同数据源的感知数据。此外,机器人运营商和供应商可能还需要融合移动网络所提供的资源密集型服务,以确保合同顺利履行、网络环境可信、运营连续可靠。
5 概念验证中的6G 大模型机器人MELISAC本节介绍我们研发的MELISAC(Machine Learning Integrated Sensing and Communication,机器学习通感一体化)复合型机器人,该机器人目前处于概念验证阶段。MELISAC集成了多项先进技术,包括机器人智能控制、机器人在线训练,以及ISAC。
5.1 硬件配置MELISAC是一款双臂复合机器人,由两个工业铰接式协作机器人(Collaborative Robot,Cobot)UR5e和自动导引车(Automated Guided Vehicle,AGV)组成。UR5e安装在AGV顶部的铝框架上,可实现机器人自主导航和精确物体操控。MELISAC配备了一对MiaHand人型机械手作为末端执行器,能够以类似人类双手的方式执行任务,并且特别适合通过基于人类任务执行演示来训练AI模型控制机器人。
此外,MELISAC还配备了支持ISAC的亚太赫兹无线系统,无线系统的天线安装在机体框架上,也可用作末端执行器。它采用一台机载计算机来完成动作控制和信号处理相关的本地计算。
5.2 软件架构如图2所示,在我们的方案中,传感器数据处理和运动规划由本地计算机负责,而计算密集型任务(例如AI推理)则由边缘服务器执行。
图2 2023年汉诺威工业博览会展出的MELISAC及其软件架构
协作机械臂和AMR控制器:机器人制造商提供的原生控制器。这些控制器提供一系列API,用于执行低阶机器人功能,如紧急停止、障碍检测,以及正向与反向运动学。
适配API:作为适配层,将低阶控制指令抽象出来,用于高阶控制器,将基于大模型控制功能与硬件解耦。
人机接口(Human-Machine Interface,HMI):允许人类与机器人通过语音、动作等形式交互。
射频感知:用于支撑无线ISAC实现的射频系统。在RGB-D摄像头和麦克风的基础上,无线ISAC提供了一个额外的感知层。
为满足计算和内存需求,目前最先进的大模型需要部署在位于边缘云的高性能服务器。在服务器上,每个大模型被加载到一个AI智能体,这一智能体会融合该大模型所需的软件栈。不同AI智能体之间通过部署在边缘云的文本多代理系统进行交互,机器人的本地计算机则通过ROS2协议与其他组件以及位于边缘云的AI智能体进行通信。
对话智能体:基于LLM的AI智能体,拥有海量词汇和通用知识,支持与人类进行各种主题的对话。
视觉智能体:视觉语言大模型的智能体,专门用于提取视频和图像输入中的语义,还可以对相关的对象进行分类和定位。
机器人智能体:机器人大模型的智能体,基于对话智能体(用户请求)和视觉智能体(环境上下文)提供的输入,进行机器人动作的高阶规划。
语音智能体:实时对语音和文本相互转换。
非结构化环境中执行陌生任务时,机器人大模型可能经常遇到困难。此时人类操作员可以介入,为机器人进行任务演示。遥操作员可以通过网络控制MELISAC,并基于遥操作数据来训练模型。这种有人干预的在线训练,为预训练大模型增加了一个适配层,让训练可以在云端持续进行。
5.3 技术探讨端到端模型与模型链:对于大模型控制的机器人来说,使用单一的端到端模型还是多个模型组成的流水线来处理多模态输入,是一个重要问题。多模态数据一起训练,通过一次推理就可实现实时控制,因此RT-1、RT-2和Octo所采用的单一模型路线通常具有更好的泛化性能。模型流水线路线虽更灵活、透明度更高,也支持定制,但不可避免地会带来推理时间长、集成复杂的问题。不过,Tipsflow、DSPy等现有框架可以帮助应对这些挑战。因此,具体方式的选择,还是要根据数据可用性和硬件适配性来决定。对于涉及机密数据的特定领域任务,采用由语言模型和动作模型组成的流水线视觉模型可能更合适。对于一般任务,使用由大规模互联网数据集训练的端到端模型则更为合适。
与机器人制造商API的集成:目前,制造商为同步定位与制图(Simultaneous Localization and Mapping,SLAM)和运动等功能提供了高阶API控制栈,但低阶运动控制仍受制于安全合规问题。这是因为,将AI集成至机器人,需要允许AI访问传感器和致动器。鉴于由大模型完全负责低阶控制并不可行,因此需要探索如何将大模型功能集成至现有系统。这时,检索增强生成(Retrieval-Augmented Generation,RAG)能力可以帮助大模型通过标准的低阶API文档学习如何控制机器人。一种较为合理的方法是,在高阶功能(可能是基于大模型实现的)和低阶API之间定义通用接口,这样可以在实现功能的同时满足安全性要求。实现这一方法则需要机器人制造商和大模型开发者展开合作。其中,对相关接口的标准化是一种有益的途径(虽然这种标准化并非必需)。
6 结语和评述机器人大模型尽管在掌握基本物体和动作方面表现亮眼,但面对复杂任务时仍存在困难。机器人大模型无法细致入微地理解现实世界的物理原理,限制了它们执行高精操控动作的能力。目前机器人大模型在精度和灵活度方面也存在明显不足。除了物理上的限制,大模型还需要更多基本指令来完成复杂任务,而且也无法仅通过观察来学习复杂技能。较低的控制频率还限制了机器人在实时和高速环境中的操控能力。即使是执行包含流畅、精准动作的任务,大模型也不太适合。除此之外,如果不提供已有示例,训练机器人大模型学习全新动作仍面临巨大挑战,加之缺少可靠安全的机器人控制系统,机器人大模型还需进一步发展来弥补这些不足。
为适应未来的发展,大模型需要从专用AI模型、数字孪生技术、高性能计算资源等方面进行提升。集成专业AI有望提升精度和灵巧度,而数据处理技术则可以增强物理仿真和AI训练方面的能力,可以让机器人更深入地理解和预测物理相互作用。同时,还需开发智能混合控制系统,来整合大模型的高阶控制功能、面向专业领域的专用AI和低阶执行的传统方法,使操作更顺畅、更高效。还可以利用先进的计算和编程工具提高控制频率、提升响应实时性,让机器人处理动态任务更高效。如此全方位的方法将使机器人更自主、更灵活、更高效,让机器人拥有更强的能力驾驭现实世界中的复杂场景。6G所具备的AI和感知能力,有望让机器人控制等级超越传统的任务控制,达到全新的“元控制”,让机器人有能力自主识别问题、定义任务、适应动态变化的环境。借助6G的ISAC和AIaaS能力,基于实时态势感知信息以及角色、任务、规则的元定义,机器人将可以更自主、更高效地识别任务、解决问题。