人工智能产业应用--具身智能

五、下一个浪潮

(一) 跳出缸中脑——虚实结合

在探索人工智能的边界时，“跳出缸中脑——虚实结合”这一概念提出了一个引人深思的视角，尤其是在具身智能的领域。具身智能是一种思想，强调智能体通过与其环境的直接物理互动来实现智能行为。然而，当这一概念与大型语言模型（如GPT系列）结合时，它揭示了一条全新的路径，即如何将这些高度发达的计算模型与现实世界相连接。

大型语言模型，作为一种先进的人工智能技术，主要被设计来理解和生成人类语言。这些模型通过分析海量的文本数据，学习语言的结构、语义和上下文关系，从而能够执行各种与语言相关的任务。然而，这些模型传统上被视为“缸中之脑”，即它们存在于算法和数据的虚拟环境中，与物理世界隔离。这种隔离限制了它们的应用范围，特别是在需要与现实世界互动的场景中。

在探索人工智能的边界时，我们常常遇到一个隐喻——“缸中之脑”，这个概念描绘了一个被隔离于外部世界、只能通过数据流与之交互的大脑。然而，随着技术的进步，我们开始尝试一种全新的探索——“跳出缸中脑——虚实结合”，尤其在具身智能的领域中，大语言模型（如GPT系列）与现实环境结合的尝试，为人工智能的应用开辟了新的道路。

1、具身感知：包括全概念感知和具身交互感知。全概念感知是指能够知道我们所操作的这个世界模型（world model）的各种各样的知识，与操作相关的知识，包括外形、结构、语义，以及 48 个真实世界关节体类别等等。具身交互感知是指作交互时，除了视觉，还有触觉等各种内容交互的感觉，这些感觉也会带来新的感知。

2、具身想象：具备了感知的素材，下一步是确定怎么做。上海交通大学做了名为 RFUniverse 的仿真引擎，该仿真引擎支持 7 种物体（比如关节可移动的、柔性的、透明的、流体的……）、87 种原子操作的仿真。还成功探索了从看视频到机器人的行为：给机器人看 50 个场景，看完后就会在仿真引擎中去尝试类似的事情，尝试完之后再迁移到真机上。另外，这套思路还可以放到人体的康复上面，去做医疗看护机器人。

3、具身执行：想象与真实操作之间是有差距的。PIE 方案中希望建一个元操作库，就能调用各种元操作来解决实际操作问题。在《Mother of all Manipulations： Grasping》这项工作中，从 Grasping 做起，给定一个点云，这个点云对应的动作会去抓取，如何产生 grasp pose？要探索的是从 x 到 y 的变换。目前有三个领域在做这件事情：计算机视觉、机器人学和计算机图形学。

1. 具身智能的概念

具身智能，或称具身认知，是一种认为智能行为源自于身体与环境的动态交互的理论。在这个框架下，智能不再是大脑或计算机算法中的孤立过程，而是身体、感知、行动和环境之间相互作用的结果。这种观点强调，为了真正理解智能，我们必须考虑智能体如何通过其身体在物理世界中导航和操作。

2. 大语言模型的局限

大语言模型，如OpenAI的GPT系列，通过分析和生成文本，展示了令人印象深刻的语言理解和创作能力。然而，这些模型的一个主要局限在于它们缺乏与现实世界直接互动的能力。它们是基于文本的，这意味着它们的“理解”仅限于它们被训练的文本数据集中的模式。这种缺乏物理互动的能力限制了它们在某些应用场景中的效果，比如那些需要对物理环境有深刻理解的场景。

3. 虚实结合的途径

要实现大型语言模型与现实环境的结合，关键在于桥接虚拟与物理世界之间的鸿沟。以下几种方式展示了这种结合的可能性：

物联网（IoT）集成：通过将大型语言模型与物联网设备集成，可以使模型直接处理来自真实世界的数据。例如，模型可以分析环境传感器收集的数据，以提供天气预报、能源管理建议或安全监控。
机器人技术：在机器人技术中应用大型语言模型，可以赋予机器人更高级的语言理解和生成能力，从而使它们能够更自然地与人类交流，并根据语言指令执行复杂的物理任务。
增强现实（AR）和虚拟现实（VR）：在AR和VR环境中，大型语言模型可以用来解释用户的语言输入，并生成适应性反馈，增强用户与虚拟环境的交互体验。
自然语言处理界面：通过开发能够理解和响应自然语言的界面，大型语言模型可以控制家居自动化系统、自动驾驶汽车等技术，使这些技术更加易用和智能。

4. 挑战与前景

将大型语言模型与现实环境结合面临着诸多挑战，包括数据隐私和安全问题、模型的适应性和泛化能力，以及人机交互的自然性和有效性。然而，这种虚实结合的探索为人工智能的应用开辟了新的道路，使得智能系统不仅仅局限于处理虚拟数据，而是能够直接影响和改善我们的物理世界。

总之，“跳出缸中脑——虚实结合”不仅是对具身智能的追求，也是对大型语言模型发展方向的一种探索。通过将这些模型与现实世界相连接，我们可以期待未来出现更加智能、更加互动和更加有用的人工智能应用。

5. 虚实结合的尝试

为了克服这些局限并“跳出缸中脑”，研究人员开始探索将大语言模型与具身智能相结合的方法。这种结合的目标是创建能够理解和生成语言、同时能够通过感知和行动与现实世界互动的智能系统。以下是一些实现这一目标的关键途径：

感知与行动的集成：通过集成各种传感器（如摄像头、麦克风）和执行器（如机械臂、移动平台），智能系统可以直接感知其环境并在其中行动。这使得大语言模型不仅能够处理文本信息，还能处理视觉、听觉等多模态信息，并在现实世界中执行任务。
环境交互的模拟与实践：虚拟现实（VR）和机器人技术提供了模拟与实践环境交互的平台。在VR环境中，大语言模型可以控制虚拟角色，学习如何在模拟的物理世界中导航和操作。在机器人技术中，模型可以直接应用于控制实体机器人，进行实际的物理交互。
增强学习与自适应：为了使智能系统能够在不断变化的环境中有效地行动，它们需要能够从经验中学习并适应。增强学习技术，结合大语言模型的语言处理能力，可以让系统通过试错学习如何在特定环境中达成目标。

6. 展望未来

将大语言模型与具身智能结合的尝试，虽然仍处于初步探索阶段，但已经展示了巨大的潜力。它们预示着一个未来，其中智能系统不仅能够理解和生成复杂的语言，还能够在物理世界中有效地行动和交互。这种“跳出缸中脑——虚实结合”的进步，不仅将推动人工智能技术的发展，也将为人类社会带来前所未有的应用和便利。

(二) 智能驾驶例子

自动驾驶汽车是指一种无需驾驶员介入，通过集成多项技术，如计算机视觉、导航、传感器等系统的汽车。这种汽车可以根据道路环境、周围车辆、交通规则等信息，自主决策、驾驶和安全操纵。自动驾驶汽车的结构组成包括：①传感器：包括激光雷达、摄像头、加速计、陀螺仪、超声波传感器等，用于收集道路环境、周围车辆等信息；②计算机视觉系统：利用摄像头等数据，对道路环境、周围车辆等信息进行识别和分析；③导航系统：根据道路地图、定位信息等，实现汽车的导航；④控制系统：根据道路环境、周围车辆、交通规则等信息，进行决策和控制，实现自动驾驶；⑤电子控制单元：负责对汽车的操纵，如油门、刹车、转向等。通过这些组件的集成，自动驾驶汽车可以实现自主驾驶，并且能够提高驾驶安全性和效率。同时，通过大数据分析和人工智能技术的应用，自动驾驶

汽车还可以实现更高效的交通管理和减少交通拥堵[1]。

20 世纪 70 年代，科技发达国家率先开始了自动驾驶汽车的研究。1984 年，美国国防高级研究计划署（Defense AdvancedResearch Projects Agency，DARPA）与陆军合作，发起自主地面车辆（Autonomous Land Vehicle，ALV）计划，这是一辆八轮车，在校园中能够自动驾驶，但车速并不快。为了推进自动驾驶技术更快、更好地发展， DARPA 于 2004 年—2007 年共举办了 3 届 DARPA 自动驾驶挑战赛[3]，如表 1-1 所示。

配置的传感器有：

软件系统有50万行代码，采用分布式架构，主要由感知子系统、运动规划子系统、路径规划、行为规划系统组成，各系统主要功能如下：

感知子系统处理并融合来自Boss多个传感器的数据，从而为系统的其余部分提供环境的综合模型。该模型包括三个主要部分：静态障碍物地图，环境中正在行驶的车辆的列表，以及Boss相对于道路的位置；
运动规划子系统由两个规划器组成，每个规划器都能够在实现预期目标的同时避开静态和动态障碍物。主要考虑两种情况：结构化驾驶（道路跟踪）和非结构化驾驶（停车场机动）；
路径规划器根据公路网知识计算到下一个任务检查站的所有可能路线的成本。路径规划器对通往特定检查站的最佳路径进行推理，根据道路堵塞的知识、最高法定限速和一次机动所需的名义时间来比较路线；
行为规划系统根据路径规划器提供的战略信息为运动规划器制定要解决的问题定义。行为规划子系统做出战术决策以执行路径规划，并在出现问题时处理错误恢复。行为规划系统大致分为三个子组件：车道驾驶、十字路口处理和目标选择。

自动驾驶汽车通过摄像机、激光雷达、毫米波雷达、超声波等车载传感器来感知周围的环境，依据所获取的信息来进行决策判断，由适当的工作模型来制定相应的策略，如预测本车与其他车辆、行人等在未来一段时间内的运动状态，并进行避碰路径规划。在规划好路径之后，接下来需要控制车辆沿着期望的轨迹行驶。车辆控制系统包括横向控制（转向）与纵向控制（速度）。当然，上述的动作都是基于传感器实时获取环境信息所做的局部路径规划下的动作，还需要与基于完整环境信息的全局路径相结合。

定位是对感知结果的后处理，通过定位功能从而帮助车辆了解其相对于所处环境的位置。环境感知包括：可行驶路面检测、车道线检测、路缘检测、护栏检测、行人检测、机动车检测、非机动车检测、路标检测、交通标志检测、交通信号灯检测等。对于如此复杂的路况检测，环境感知技术是利用摄像机、激光雷达、毫米波雷达、超声波等车载传感器，以及 V2X 和 5G 网络等获取汽车所处的交通环境信息和车辆状态信息等多源信息。

自动驾驶技术中，CNN 被用于分析摄像头和激光雷达数据，以便快速、准确地识别和分类出环境中的物体。这些网络使用带注释图像的大型数据集进行训练，能够学习数据中的复杂特征和模式。基于 CNN 的自动驾驶系统的一个例子是 YOLO（You Only LookOnce）算法，它能够高精度地实时识别和分类物体。另外，在自动驾驶中，RNN 用于随时间分析传感器数据以预测未来事件和行为。

例如，基于 RNN 的系统可能会分析其他车辆的轨迹以预测它们的预期动作或分析传感器数据以预测行人过马路的可能性。为了确保自动驾驶汽车能够正确理解周围的环境并做出相应的规划和决策，需要利用传感器获取大量的周围环境信息，这就是所谓的环境感知。通过实时拍摄车辆周围的环境，采用计算机视觉（Computer Vision，CV）技术对所拍摄图像进行分析，实现车辆周围的车辆和行人检测以及交通标志识别等功能。摄像头的主要优点

在于其分辨率高、成本低。但在夜晚、雨雪雾霾等恶劣天气下，摄像头的性能会迅速下降。此外摄像头所能观察的距离有限，不擅长于远距离观察。毫米波雷达也是自动驾驶车辆常用的一种传感器，毫米波雷达是指工作在毫米波段（波长1-10 mm ，频域30-300GHz）的雷达，其基于飞行时间（Time of Flight，ToF）技术对目标物体进

行检测。毫米波雷达向外界连续发送毫米波信号，并接收目标返回的信号，根据信号发出与接收之间的时间差确定目标与车辆之间的距离。因此，毫米波雷达主要用于避免汽车与周围物体发生碰撞，如盲点检测、避障辅助、泊车辅助、自适应巡航等。毫米波雷达的抗干扰能力强，对降雨、沙尘、烟雾等离子的穿透能力要比激光和红外强很多，可全天候工作。但其也具有信号衰减大、容易受到建筑物、人体等的阻挡，传输距离较短，分辨率不高，难以成像等不足。激光雷达也是通过 ToF 技术来确定目标位置与距离的。激光雷达是通过发射激光束来实现对目标的探测，其探测精度和灵敏度更高，探测范围更广，但激光雷达更容易受到空气中雨雪雾霾等的干扰，其高成本也是制约其应用的主要原因。自动驾驶环境感知通常采用“弱感知+超强智能”和“强感知+强智能”两大技术路线。其中“弱感知+超强智能”技术是指主要依赖摄像头与深度学习技术实现环境感知，而不依赖于激光雷达。这种技术认为人类靠一双眼睛就可以开车，那么车也可以靠摄像头来看清周围环境。如果超强智能暂时难以达到，为实现自动驾驶，那就需要增强感知能力，这就是所谓的“强感知+强智能”技术路线。相比“弱感知+超强智能”技术路线，“强感知+强智能”技术路线的最大特征就是增加了激光雷达这个传感器，从而大幅提高感知能力。特斯拉采用“弱智能+超强智能”技术路线，而谷歌 Waymo、百度 Apollo、Uber 等人工智能企业、出行公司、传统车企都采用“强感知+强智能”技术路线。

自动驾驶车辆需要定位来获取其相对于外界环境的精确位置，这是其正常运行的基础。在复杂的地市道路行驶，定位精度要求误差不超过 10 厘米。例如：只有准确知道车辆与路口的距离，才能进行更精确的预判和准备；只有准确对车辆进行定位，才能判断车辆所处的车道。如果定位误差较高，严重时会造成交通完全事故。深度学习是自动驾驶同步定位与地图构建（Simultaneous Localization and Mapping，SLAM）系统中的一项关键技术。它涉及使用人工神经网络（Artificial Neural Networks，ANN）实时处理和分析大量数据，从而实现智能和自动驾驶车辆的开发。

在自动驾驶 SLAM 领域，有一个典型的例子是使用 CNN 技术进行对象识别和分类。在自动驾驶系统中，CNN 可用于分析车辆传感器（例如摄像头和激光雷达）收集的数据，并识别周围环境中的物体。这包括识别其他车辆、行人、交通标志和其他可能与车辆运行相关的物体。一旦对象被识别和分类，CNN 就可以将此信息提供给车辆的控制系统，然后该系统可以根据这些数据做出决策。例如，如果 CNN 检测到车辆前方有行人，则控制系统可以采取措施避免碰撞。

深度学习技术不仅可以用于物体识别，在自动驾驶领域还可以应用于 SLAM 系统，实现路线规划和地图创建等其他任务。例如，车辆的传感器可以收集有关周围环境的数据，然后可以使用这些数据创建该区域的 3D 地图。车辆的控制系统可以使用该地图来规划安全高效的到达目的地的路线。自动驾驶 SLAM 系统的另一项关键技术是机器学习，它涉及使用算法来分析数据并从中学习。机器学习算法可用于训练车辆的控制系统，以根据从传感器接收到的数据做出更好的决策。

“全频谱”构建感知能力，实现万物感知

随着汽车领域的智能化趋势, 感知系统变得越来越重要，它是实现智能驾驶的基石。理想传感器的目标是实现“全目标，全覆盖，全工况，全天候”工作。

全目标:包括人，车，障碍物，道路设施，结构等，无任何漏检

全覆盖:360°无死角探测

全工况:高速，城区，拥堵/事故/施工等任何工况

全天候:无论白天黑夜，雨雪雾，强弱光灯等任何恶劣气候，环境条件

然而，当前业界的技术水平距离理想传感器仍有较大差距。为达到理想目标，需在全频谱上构建感知能力。(图2 传感器频谱分布图)

1)毫米波雷达:从77G到D band (110~170GHz)，大幅提升分辨率

毫米波雷达作为波长最长的传感器，全天候性能最好。因为具备速度维探测优势，在动静分离、SLAM(同步定位与建图)构图上具有独特价值，但分辨率不足导致其在使用上存在局限性。

毫米波雷达在分辨率的演进上存在两条路径:超宽带和大天线阵列。当前国际标准上，一般把76~81GHz分配给车载毫米波雷达，通过4~5GHz的大带宽，来实现较高的距离分辨率。另一方面，天线阵列决定角分辨率，收发天线数越多，意味着角分辨率越高。当前主流毫米波雷达还停留在3T4R(3 发4收)天线阵列上，近期华为推出的成像雷达已向前迈出一大步，达到12T24R的水平。然而，在无线通信上，收发天线高达 128T128R。

车载毫米波雷达天然有尺寸强约束要求，不可能像无线通信有类似门板大小的空间用于天线设计。基于77G频谱的波长以及雷达尺寸综合计算，天线阵列大致可以到48T48R， 64T64R已是极限。所以，往更高频段上走是必然选择，其中D band(110~170GHz)具有未被开发应用的超宽频带，比如当前已有在研究的140G频段，具有较为适宜的大气窗口，传播受到的衰减较小，而且波长减小一半，可以在有限的空间，实现128T128R的超大天线阵列成像雷达，从而达到中低等线数激光雷达的分辨能力。

2)激光雷达:从905nm ToF到1550nm FMCW(调频连续波)，集成芯片化和高性能 4D激光雷达将成为两个主流演进方向

由于器件相对成熟，905nm波段当前被广泛采纳，正走在规模量产的路上。从技术方案来看，产业正在从模拟走向数字，从离散走向集成。收发器件面阵化及核心模块芯片化为高性能、低成本、高集成度、高可靠性的激光雷达提供了可靠的发展方向。

另外，在近红外区域的1550nm波段，其大部分光在到达视网膜之前就会被眼球的透明部分吸收阻挡，减少了对视网膜伤害。所以，1550nm波段可以容许更高的发射功率，来大幅提升其覆盖范围。其次，调制方式上，FMCW在毫米波雷达上的成功经验将会借鉴到激光雷达上。FMCW激光雷达有着明显的性能优势，比如高性能4D成像(增加速度维信息)、抗干扰能力强、更高的灵敏度和动态范围、适合硅光子和相控阵(OPA)技术低成本批量生产等。

然而，当前的1550nm FMCW技术还远没到成熟商用地步，需要产业链共同努力。其中，硅光技术是重要的努力方向之一，并将一步延续摩尔定律的发展。硅光技术通过将更加复杂而离散的光学功能集成到一颗硅基芯片中，实现激光雷达的高集成，低成本，小型化。

3)摄像头:从可见光到红外热成像技术融合，解决全天候工作的难题

摄像头是最接近人眼的一种被动传感器 (没有主动发光部分)，采用反射光成像的方式感知周围物体，在三个传感器中具有不可替代的作用，比如识别红绿灯，路牌等静态环境要素。然而摄像头有其自身缺陷:1) 反射光成像，导致夜晚场景性能、置信度大幅下降;2)雨雪天气，视线被遮挡，导致可见区域大幅降低。目前来看，摄像头自身无法克服这些恶劣天气场景的影响，但在可见光附近的红外光频谱(波段在2~14微米)，采用的是一个区别于其他传感器的、全新维度的成像原理:热辐射成像。传感器将不仅具备夜视功能，还可实现雨雪/沙尘/雾天气下的目标检测，甚至具备一定的透视能力，进一步满足全天候工作要求。当前，红外夜视热成像仪在车载领域已起步，仍需低成本方案支撑规模量产。