BAI资本:万字干货带你入门“具身智能”|BAI观点
BAI Capital · 2023-10-27 18:24:28 · 热度:加载中...


编者按:


尽管人工智能已取得了令人瞩目的进步,但它仍局限于数字领域。这种局限性导致人们越来越需要一种新的人工智能范式,一种能够有效弥合数字智能与现实世界交互之间差距的范式。


具身智能 (Embodied AI) 为解决这种局限性提供了前景广阔的方案,即创建能像人类一样与现实世界互动的人工智能系统。它植根于“具身认知”的概念,认为智能并不完全来自“大脑”,还来自身体与周围环境的互动方式,身体形态和感官能力在具身智能中至关重要。


具身智能机器人已然成为资本市场的新焦点。到底何为具身智能机器人?它又是如何通过“大脑”和“小脑”来完成对外部环境的感知理解,以及自发做出决策并完成动作执行?当前全球最领先的具身智能机器人技术有哪些?具身智能机器人未来商业化的机会在哪里?BAI团队将为你一一展开~

什么是具身智能


具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。更重要的是,具身智能强调“感知-行动回路”(perception-action loop)的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程;这一过程正是“纸上得来终觉浅,绝知此事要躬行”,与我们人类的学习和认知过程一致。虽然在现今技术条件下通过与环境的互动以第一视角得到的数据不够稳定,但这种类似于人类自我中心感知的学习,从视觉、语言和推理到一个人工具象(Artificial Embodiment),可以帮助解决更多现实世界中的问题。具身智能相比上一代传统AI视觉机器人,更具有泛化性,适合重交互性、可自适应的场景。
所谓具身智能机器人,即具有主动性的第一人称智能,其本质上是可与环境交互感知,能自主规划、决策、行动,具有执行能力的机器人。其核心目标是能够听到人类语言,然后分解任务,规划子任务,在移动中识别物体,与环境交互,最终完成相应任务。
具身智能的本质是智能体具备和环境交互感知能力,以及基于感知到的任务和环境进行自主规划-决策-行动-执行等一系列行为的能力。我们判断,未来的机器人需要真正做到和人一样,通过实现规划决策(大脑)、运动控制(小脑)、主控系统、主干结构及零部件的组合(类似于人的一系列关节和肌肉)达成这一目标。

「大脑」顶层规划决策


具身智能机器人的“大脑”负责人机交互,能通过视觉在语义层面理解场景(例如video-question answering),理解long-horizon任务,对任务进行分解以及规划,负责高层次的决策。近年来大模型的迅速发展对“大脑”有了长足的促进,因此,“大脑”的成熟度较高,也不太存在数据的匮乏问题,因为大部分能力可以从已有人类数据中习得(如语言数据)。对于具身机器人而言,大脑的长期发展高度依赖于大模型的进展,尤其是多模态大模型。


常见“大脑”技术路线

SayCan:  SayCan主要关注于把LLM(Large Language Model)用于任务规划,着重解决grounding问题(自然语言文本与视觉场景之间的对齐或连接),提出用语言模型以及affordance来对任务步骤进行选择,这样机器人就能有效选择它可以执行的步骤(比如机器人只会抓取,但大模型不会输出过于复杂的指令)。

PaLM-E:PaLM-E的理念是训练编码器,将各种输入转换token化成自然词后,嵌入相同的空间;PaLM-E是一个 decoder-only 的 LLM,其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。PaLM-E 提供了一种训练通用模型的新范式,它通过一种共同的表示方法将机器人任务和视觉语言任务结合在一起:将图像和文本作为输入,并输出文本让机器人有了大脑,可以将复杂自然语言指令分解为简单指令,然后再去调用 RT-1执行动作;PaLM-E所做的只是自然语言理解以及 Planning 部分的工作,并不涉及机器人动作本身。


具身智能“大脑”发展特点

软硬件解耦:“大脑”完全依赖于算法和数据驱动,不依赖硬件,各个巨头皆是基于Transformer为底座进行模型研发,同一大脑可以运用在不同硬件上进行决策。

大模型驱动:目前主流算法大部分基于LLM 以及LMM (Large Multimodal Model) ,现阶段的主要难点在于如何提高大脑语义理解能力和效率,以及如何将理解后的信息映射到机器人的行动中。

较优的泛化能力:在开放环境下,基于大模型的具身智能相较rule-base算法具有一定程度的多场景任务泛化能力。

综上,具身智能机器人“大脑”在某种程度上和自动驾驶相似,在开放场景和路径规划上具有一定的迁移性。大模型的发展对具身智能的大脑起到了长足的影响,具身智能机器人“大脑”的长远发展依赖于大模型,尤其是多模态大模型。核心技术难点为算法的开发,BAI非常关注具有算法和数据领先性的公司。


「小脑」底层控制算法


小脑是具身智能底层控制的核心(把“大脑”对语义信息的理解转化为动作),其能力可以广泛地理解为“三岁小孩可以做到的运动控制以及对物体的操作”。此类数据极其匮乏,单任务执行起来都有困难,遑论任务间的泛化了。目前看来,小脑部分是具身智能在技术层面较大的瓶颈,其发展成熟度尚不及大脑部分。


常见“小脑”技术路线

模型预测控制(Model Predictive Control):通过预测未来系统行为来做出决策,在未来的一个给定时间窗口内解决一个最优化问题,以寻找控制输入,最小化成本并满足约束。MPC需要系统模型、成本函数、预测时间段、约束和反馈来运作,通过预测了未来会发生什么事情,机器人可以产生相应的动作来进行“预判”,在一定程度上加大了机器人的实用性。以足式机器人为例,一种使用方法是将MPC用于全身控制(Whole Body Control),由于利用MPC预测了未来一个预测时间步长的状态与控制序列,使得机器人可以协调身体的各个部分,可以通过观测到的地面环境提前给出相应的控制量,减缓欠驱动状态下的系统的不稳定性,通过优化得出最佳地面接触力作为控制量,在欠驱动状态下与地面的短时接触中,减少接触模态的干扰,增强四足的稳定性。

此类路线的代表为波士顿动力,它的优点是传统算法可靠性高、可解释性强,而缺点是对于corner case(例如光滑地面)处理不好。

强化学习(Reinforcement Learning):相比于MPC依赖于线上优化以及物理模型,强化学习可以让机器人自主学习:智能体能够从环境中获取一种状态,由智能体进行决策,对环境作出一种行为,再由环境反馈奖励信号给智能体,透过多次的上述过程,智能体由过往的经历学习获得的奖励信号最佳的行。以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步强化这种策略,以期继续取得较好的结果;通过激励,具身智能体在模拟器中不断试错最终提升能力。在机器人领域中,因为学习效率普遍较低,机器人往往要在模拟器中进行学习,而现在的模拟器和真实世界有差距(sim-to-real gap),往往需要大量的努力才能让在模拟器中训练好的机器人迁移到真实世界。

此类路线的优点是可适应性强、方法简单易懂,而缺点是需要大规模预训练、不易对行为进行分析(本质是黑盒)。

模仿学习(Imitation Learning):模仿学习专注于从demo中进行学习,比如我们可以给机器人展示一次如何打扫桌子,而机器人的目标就是学出其中的要点,并且自主完成这个任务。优点是方法比较直接简单,可以直接在真实世界中收集数据,缺点是需要人去收集demo,较难规模化。

由于“小脑”模型处在非结构化的环境,导致机器人部署十分困难,主要难点集中在数据匮乏,因此,我们这里通过数据来源来总结最近技术的进展。

常见“小脑”数据来源

现实世界机器人数据

这种方法的常用收集方式为遥操作,常用算法为模仿学习,它的优点是来源于真实物理、数据多样且高质量,而缺点是耗时耗力且大规模scale up比较困难。

学术界代表人物及其工作(非完整列表):

Google机器人团队: Sergey Levine, Chelsea Finn, Karol Hausman, Andy Zeng, Pete Florence, Fei Xia, Ted Xiao, Brian Ichter, Tianhe Yu, Yevgen Chebotar … (参见相关工作SayCan, RT-1, RT-2, RT-X)

UC Berkeley: Sergey Levine (参见相关工作Bridge Dataset)

Stanford: Chelsea Finn (参见相关工作ALOHA)

Stanford: Shuran Song (参见相关工作Diffusion Policy)

Toyota Research Institute: Russ Tedrake(最近目标为scale up Diffusion Policy)

上交大:Cewu Lu(参见相关工作RH20T)


仿真机器人数据

近年得益于NVIDIA对于仿真环境的GPU加速以及对于Omniverse的开发投入,对于高维控制任务例如灵巧手、机器狗推动尤为巨大,这种方法的常用算法为强化学习,它的优点是数据收集过程无需人工,而缺点是物理仿真难以真实(有sim-to-real难点)、强化学习算法需要针对每个任务单独调节(前期需较大工程量)。

学术界代表人物及其工作(非完整列表):

仿真环境:
NVIDIA: Isaac Gym, Omniverse, Isaac ORBIT
Stanford: Fei-Fei Li(相关工作BEHAVIOR
UCSD: Hao Su (相关工作SAPIEN/ManiSkill)
UT Austin: Yuke Zhu(相关工作Robosuite)
算法:
ETH / Anybotics: Marco Hutter(相关工作集中在机器狗领域)
Google: Jie Tan(相关工作集中在机器狗领域)
UC Berkeley: Jitendra Malik(相关工作集中在灵巧手以及机器狗领域)
UCSD:  Wang(相关工作集中在灵巧手以及机器狗领域)
CMU: Deepak Pathak(相关工作集中在灵巧手以及机器狗领域)
MIT: Pulkit Agrawal(相关工作集中在灵巧手以及机器狗领域)
Meta: Ankur Handa、Vikash Kumar(相关工作集中在灵巧手领域)
UC Berkeley: Ken Goldberg (相关工作集中在抓取领域)
上交大: Cewu Lu(相关工作集中在抓取领域)


现实世界人类数据

此类主要利用人类视频数据进行学习,统一特点是数据不包含机器人可用的动作信息,因此也可以理解为passive data。

这一方法的优点是数据已有、无需人工收集、数据场景多样且广泛,而缺点是没有action、噪声很大、质量不高。

学术界代表人物及其工作(非完整列表):

Meta: Aravind Rajeswaran, Vikash Kumar
UC Berkeley: Pieter Abbeel
CMU: Abinav Gupta,Deepak Pathak
UCSD: Xiaolong Wang
UC Berkeley: Jitendra Malik


利用预训练大模型进行学习

此类主要运用已经训练好的语言模型以及多模态大模型进行学习,由于这些大模型输出还限制于文字,许多工作专注于“大脑”部分,但也有近期工作探索在“小脑”部分的应用。

这一类的优点是可以利用大模型的泛化能力且使用简单,缺点是无直接可用的动作信息、grounding(将语言模型与具体的环境相连接)困难。

近期工作:

RT-1(Robotic Transformer 1):建立在Transformer架构上的35M参数网络,从不同的感官输入(视觉、文本)中生成简单指令,只能执行拿起、放下、向左、向右等基本指令;模型中没有思维链,也不具备推理能力。该模型是一个多任务模型,对机器人的输入和输出动作(如摄像头图像、任务指令和电机命令)进行标记化,以便在运行时进行高效推理,从而实现实时控制。

RT-2(Robotic Transformer 2):RT-2 是建立在 VLM的基础上的视觉-语言-动作VLA模型(Vision-Language-Action),该模型是端到端end to end的集成解决方案,它能够看懂从未见过的物体,理解人类的复杂指令,中间不再需要将其转化成简单指令,通过自然语言就可得到最终的 Action;RT-2 不输出中间过程的Hard decision,这是end-to-end系统与 Pipeline 机器学习系统的最大区别。RT-2 通过知识迁移可以先让模型在网上学习大量知识,然后将这些知识与视觉模型对齐,机器人模型可以理解并处理在训练数据里没见过的新对象、新环境和新背景,并非视觉或机器人本身的“涌现”,而是多模态大模型的“涌现”。RT-2还具备多步推理能力,可以完成二阶甚至高阶逻辑。

RT-X:构建多样化数据集是训练通用模型的关键,Google DeepMind与33家学术研究机构汇集了22种不同机器人类型的数据,涵盖100万个片段,展示了机器人500多项技能和16万项任务表现,创建Open X-Embodiment数据集,这是目前最全面的机器人数据集。利用该数据集,在RT-1和RT-2模型上训练出能力更强的RT-1-X和RT-2-X。RT-1-X的成功率提升了50%,RT-2-X无障碍解锁新技能,实现了RT-2以前无法实现的技能,例如对空间的更好理解。

VoxPoser:可以在真实世界的操纵任务中零样本合成轨迹,对于自由形式语言指令的开放集和对象的开放集都能适用。由于数据对于泛化至关重要,但机器人数据稀缺且昂贵。因此为了避免在标记数据上进行策略训练,VoxPoser 的研究工作采用 LLM大型语言模型+VLM 视觉-语言模型中提取机会和约束的方法,利用生成的代码来构建 3D 值地图,以供运动规划器使用,用于零样本合成日常操纵任务的轨迹,从而实现在真实世界中的零样本机器人操纵。


学术界代表人物及其工作(非完整列表):

Google: Andy Zeng, Fei Xia, Pete Florence, Brian Ichter, Karol Hausman, Ted Xiao, Igor Mordatch…
Stanford: Shuran Song, Jeannette Bohg, Fei-Fei Li, Wenlong Huang
MIT: Shuang Li, Yilun Du

具身智能“小脑”发展特点

短期软硬结合,算法是主要壁垒,但依赖于硬件:小脑运动控制的核心也在算法,但短期内较难与硬件拆分开;算法高度依赖硬件的形态&采集数据的维度,算法只有适配硬件才能更好发挥效果。

长期软硬脱钩,硬件壁垒降低:运动控制的算法核心会逐步向计算控制模组固化,逐步通过轻量化编程可在不同硬件本体上实现随插随用。长期来看,硬件壁垒将消失,传统机器人厂商如四大家族/上一代AI工业机器人或将持续受益于产业链上下游协同优势(供应链&销售渠道),在硬件本体上仍具有领先地位。

数据是护城河,是真正的壁垒:具身智能机器人的数据高度依赖硬件本体采集,目前全球在数据采集角度而言,皆处于早期阶段;真正的具身智能机器人的壁垒一定来自于大规模的数据采集,包括多传感器多维度数据采集。

综上,BAI团队在现阶段重点关注在大小脑算法+硬件运动控制上较为出色的软硬件一体(算法+机器人)公司,若具备核心通用算法模组能力(可适配不同硬件形态)的公司是plus;中长期我们期待具有规模化数据采集能力,能建立数据壁垒的公司出现,同时具备大规模量产的产品化能力至关重要;我们同时关注“送水人”,提供数据采集核心传感器技术服务商、以及第三方数据采集提供商。

中国是更适合具身智能机器人发展的土壤

具身智能机器人顾名思义还属于机器人范畴,是硬件本体。正如前文所说,真正的壁垒是数据,数据依赖硬件本体的采集,基于不同应用场景的海量数据需要有海量的量产落地应用的机器人硬件来采集。中国无论从机器人的生产制造层面,还是应用场景采集数据层面,都具有得天独厚的优势,故而是最适合具身智能机器人发展的土壤。


从生产制造角度而言,具身智能机器人相比传统工业机器人,核心零部件类似,生产工艺类似,且不涉及高精尖芯片、零部件,供应链和生产制造体系完全可以复用。中国在具身智能机器人的生产制造层面有极高的优势——成本低、效率高。因而为具身智能机器人的大规模量产商用奠定了供给端基础。

从应用场景而言,基于中国是制造业大国也是服务业大国,无论to B还是to C场景,机器人都有众多广泛的的应用场景。加之移动互联网所带来的数字化基础设施的领先优势,数据的采集和收集都十分便捷,数据随着机器人端-移动APP端-云端形成完整的数据闭环,丰富的使用场景贡献了海量的多维度数据,从而数据飞轮反哺具身智能机器人算法。

具身智能离规模性商业化并不遥远


理想的具身智能机器人相比上一代传统AI视觉机器人,具有显著更强的泛化性,较适合重交互性、可自适应的场景——原来需要买5个机器人、分任务部署,未来可能只需要两个,甚至一个就可以完成。就发展趋势而言,我们有如下猜测:


机械臂(操作)先于人型双足(移动)

人类的多数操作是由上肢加手完成,因而机械臂(已相对成熟)+灵巧手即可解决大多数操作场景而轮式底盘在绝大多数平面场景的稳定性、鲁棒性、成本、电池续航等性能远超于人型双足——有人说,可是这个社会的构造都是根据人类生理结构构建的,人形机器人理论上应该是最合适的?但如果放眼实际的工厂、仓库、道路等等地方,你会发现特定场景内的问题解决,实在不一定要用到复杂度几何级提高的“腿”,除非在少数特定的室外巡检、军事场景,需要四足/双足,而四足稳定性又高于双足。

To B 先于 To C

短期,To B的科教场景落地:人型双足目前更多是在科研、教育、导览等研究示范性场景出货。

中短期,To B的工业场景落地:例如汽车、3C产线,相比传统的工业机器人,具身机械臂&工具手可进行多工序的复杂装配/协作装配;具身“大脑”有泛化性,故而更容易换线;形态会是轮式底盘+可升降高度机械臂+灵巧手/夹爪/三指。

中期,To B的服务场景落地:零售(分拣、理货)、酒店&餐厅(收餐、递送)、清洁(非平面操作清洁)、巡检(办公楼);形态会是现有商用机器人形态+机械臂+灵巧手/夹子/三指。

远期,To C服务场景落地:To C场景首先落地大概率是情感交互需求(儿童娱乐、老人看护、成人陪伴),操作需求(家用清洁&收纳等)落地时间会非常远;形态可能是轮式亦或是人型双足(类人形态更利于情感交互)。


AI四小龙”发展历程带来的启发


这次具身智能在资本市场上掀起的浪花,让人想到当年机器视觉时代的百舸争流。2013至2016年是中国CV初创企业疯狂涌现的阶段,有一半以上企业均在此期间创立,竞争高度激烈。2012年国内新注册CV公司仅为9家,累计数量不足20家。到2016年时中国CV领域企业数量累计已超100家。其中2015年全年新增数量达到顶峰,那一年新增了约40家CV公司。

而到2017年时,CV领域竞争格局已经基本定型,行业集中度已经大幅提高,新增CV领域初创企业数量下滑严重,仅剩下大约2家。根据IDC,2017年CV“四小龙”总体市场份额达 69.4%,剩余其他厂商总体仅占市场30.6%的份额。市场份额前四名的分别是商汤,依图,旷视和云从,所占市场份额分别为20.6%、17.3%、16.4%,15%。

最后为什么“四小龙”遥遥领先于其他人呢?答案是:

禀赋:最根正苗红的技术团队

商汤的技术源头为香港科技大学深度学习视觉领域应用的先驱汤晓鸥教授及其团队,是学术界最早涉猎深度学习的华人团队之一,也是我国计算机视觉行业主要龙头企业之一。并贡献出了11年-14年CVPR 和 ICCV 两大全球计算机视觉世界顶级学术会议上一半的学术论文,并重金网罗了业内最优秀的一批视觉技术人才,在业内有绝对的人才优势。

依图科技有限公司成立于2012年,由朱珑、林晨曦共同创立。朱珑曾在麻省理工学院人工智能实验室任博士后研究员,在纽约大学 Yann Lecun 的数学研究所担任研究员。林晨曦曾先后任微软亚洲研究院研究员、以及阿里云资深专家,曾带领团队搭建了阿里云飞天分布式云计算操作系统。依图曾蝉联三届由美国国家标准技术局(NIST)主办的全球人脸识别测试(FRVT)冠军,其人脸识别准确率位于世界最前列,并于2019年入选2019年CB Insights全球AI百强榜单"AI 100"。

云从科技2015年由周曦创立。2010年,UIUC周曦以“百人计划”专家身份回国,与大学好友李继伟和温浩一同组建了当时中科院最大的人脸识别研究团队。2015 年放弃了中科院的编制,带领团队的部分核心成员,正式成立了云从科技。

选择:切入最广泛的场景

据华经产业数据,中国计算机视觉下游应用结构分布为:安全影响分析67.9%,广告营销18.1%,泛金融7.7%,互联网娱乐4%,手机2%,创新领域1%。具体根据IDC,2017年CV“四小龙”总体市场份额达 69.4%,剩余其他厂商总体仅占市场30.6%的份额。四家公司在应用场景的落地上极其相似,都以目前比较成熟的市场安防和金融为主。

商汤科技的主要业务场景:智慧商业、智慧城市、智慧生活、智能汽车四大板块。

旷视科技主要深耕方向三大垂直领域:个人物联网、城市物联网、供应链物联网。

依图科技应用领域:智能安防、依图医疗、智慧金融、智慧城市、智能硬件等。

云从科技技术运用于智慧金融、智慧治理、智慧出行、智慧商业等重点行业市场。云从是唯一一家同时受邀制定人脸识别国家标准、公安部标准、行业标准的企业。

努力:构建销售能力切入了客户需求,实现算法和数据的飞轮效应

商汤科技市场占有率居四小龙前列,商汤科技是中国最大的AI算法提供商,在人脸识别场景中有很成熟的落地,国内外多家企业均为其客户。

旷视科技是人脸识别领域的独角兽,以人脸识别为核心技术,客户包括支付宝、今日头条、滴滴、vivo等的人脸识别以及在线身份验证。

依图科技CV人工智能领域4大新创独角兽之一,在智能安防领域技术处于领先地位。

云从科技重点布局安防和银行金融,有“中国银行业第一大AI供应商”的称号,客户覆盖六大行,签约超过100家银行的总行平台,覆盖全国超14.7万个网点。

回顾历史有助于我们理解当下和为未来做好准备,我们也充满信心地期待具身领域能够出现推动世界进步的公司。BAI团队也将持续深耕人工智能领域,关注具身智能赛道最新动态,也欢迎行业内的伙伴、创业者和我们一起交流讨论~

往期回顾


点击关键词了解更多
联易融 | 乐信集团 | 易车 | 网易云音乐
顺丰同城 | 易鑫 | 叮咚买菜 | 优刻得
BIGO | Keep PingCAP | 壁仞科技
此芯科技 | 黑湖科技 | 星思半导体
乐荐 | Innovusion | 探探 | 所思科技 | 摩拜单车
Global Demo Day 
夜间连线 | 十年踏歌行 | 贝府蟹宴
龙宇 | 汪天凡 | 赵鹏岚


BAI资本自2008年成立以来,累计投资超200家互联网企业,实现18个IPO和40余家独角兽的成绩,投资领域涵盖零售、消费及服务,内容及媒介创新,产业科技及软件,前沿科技及底层技术等方面。BAI致力于寻找并持续支持早期到成长期的市场领先者、创新开创者和趋势引领者,将持续利用贝塔斯曼集团及其生态的庞大欧洲资源和全球网络,发挥团队在中国长期耕耘的优势,助力成员企业在中国及全球的发展。

本文来源:BAI Capital