人形机器人,用大模型「唤醒」钢筋铁骨

在创业尤为艰难的2023年,ChatGPT的爆火,为不少行业带去了新的可能性,人形机器人就是其中之一。

2月初,华为天才少年“稚晖君”离职创业,成立智元机器人,不到半年便完成三轮融资。有行业人士告诉36氪,目前智元新一轮融资的估值已经叫到数十亿元估值。

5月底,北京大学助理教授王鹤成立机器人公司银河通用,3个月时间估值已达过亿美元;据36氪独家获悉,目前一位字节系的高管,也打算联合高校教授进行机器人创业。

大模型加持下,人形机器人公司有了新的生命力,资本关注度也水涨船高,一位机器人公司近期就拒绝了36氪的采访,理由是“问询过于密集,暂时不曝光了”。

据高盛预测,到2035年,人形机器人市场或将达到1540亿美元,成为继智能驾驶电动车后的又一AI落地场景。

和热闹的创投景象形成鲜明对比的是,人形机器人的产业发展依然有其难以解开的桎梏。

学界和产业界研究了50余年人形机器人,进展一直很缓慢——很长时间内,“如何平稳走路”仍是核心议题之一。近期,美国人形机器人公司Agility Robotics的首席技术官Jonathan Hurst在采访中表示:“它现在只是一个两岁半的孩子。”

2020年,软银Pepper机器人宣布停产,原因是“库存太多”卖不动。Pepper能通过面部表情和语调读懂人类情绪,但它只有20个电机,很难做出细致的动作,对话功能来自事先设定的指令,相处体验更像是一款玩具而非智能机器人。

直到2022年底ChatGPT爆火,人形机器人赛道才有了希望的苗头——先不论机器人能否像人一样行动,它至少有了变聪明的可能,可以像人一样进行多轮对话。

通用足式机器人创业公司逐际动力成立于2022年,公司同时研究四足机器人和双足人形机器人。在创始人张巍看来,大模型让人形机器人行业有看到了希望。“大模型让大家看到了从1-100的阶段没那么难了,我们解决好0-1阶段机器人本体的问题,人形机器人商业落地的闭环也可以预知了。”

大公司更不会放弃人形机器人领域的机会。小米早在2022年8月便亮相了“铁大”人形机器人,到2023年又投资5000万元人民币,成立机器人公司;华为更是斥资8.7亿元,全资成立机器人公司极目科技。

今年3月,广义机器人公司追觅科技推出通用人形机器人和仿生四足机器狗Dreame Dog;四个月后,追觅科技通过视频发布了人形机器人的研发进展——视频显示,追觅通用人形机器人已经可以脱离实验室环境,在办公室、林荫道等室内室外场景中行走;还学会了冲制咖啡,在经历了重力拍打、拳击之后,仍能稳定行走。追觅科技人形机器人负责人喻超对36氪谈到,机器人是公司从未动摇的战略,公司在扫地机器人和四足机器狗上的AI算法积累,能在人形机器人上复用。

今天行业看到的大模型,都是通过搜索、对话等软件能力实现,要想将AI落在看得见、摸得着的实体应用,机器人是个可预见的方向,这也是行业为之振奋的原因。

热钱再次涌动,巨头信心百倍,可机器人赛道并不是能够投机的风口,新的机会来了,但旧的问题仍然在。

一、  大模型——人形机器人的嘴和大脑

距离软银集团转卖人形机器人行业鼻祖波士顿动力不过2年,人形机器人能够再次火热,要得益于大模型。

很长一段时间,人形机器人的一大问题是它无法和人正常交流,如同停产的Pepper,只能回答设定好的问题。

大模型给出了解法。

大语言模型拥有对话能力,可以赋予人形机器人通识大脑,从而顺畅和外界对话,还可以增加任务理解、拆分和逻辑推理等“决策”能力。

AI带来的技术红利,也让现有的机器人本体焕发生机。不久前,谷歌DeepMind发布了Robotics Transformer 2(RT-2)大模型,它是一个融合了视觉、语言、动作能力的多模态大模型。

谷歌展示了一个演示视频,加载RT-2后,机器人听到“把草莓放入碗里”的指令,会从苹果、橘子等水果中选择出草莓,并且放入碗中。

在这个动作背后,大模型先获得语言指令,再完成了判断信息、拆解任务、感知外部环境、执行任务等功能。

将人形机器人和大模型结合并不容易。机器人执行基于语言模型生成的动作时,会有安全性风险;如果没有足够机器人决策数据做训练,输出的结果会容易漂移,成功率也会受影响。

国内目前也出现了研究类似方向的团队,如李飞飞团队在研究VoxPoser大模型,他们希望通过将外部观察到的数据生成为3D数值图,再搜索出机器人的运动路径的方式,减少直接基于语言大模型生成决策的不确定性。

机器人大模型公司千诀科技也是其中之一,他们希望研究出具有通用性的机器人大脑和应用系统,让不同类型的机器人变得“聪明”。

千诀科技创始人兼CEO高海川向36氪分享了在语言大模型生成机器人运动轨迹上的经验,“为了更好地控制算法,行业可以通过微调、预训练、人工打分等方式,加强对模型决策的自我评估,当机器人判断到失败率会很较高时,可以让人类接管。”

而除了大模型,通用人形机器人还可以和行业模型结合,如质检模型、分拣模型、金融模型等。通过行业模型和专业数据,人形机器人可以了解不同场景的行业knowhow,成为熟练的技工。

一个有趣的现象是,从AI出发的大模型创业者,都希望研究出具有通用性的机器人,而从机器人硬件和运动控制能力出发的创业者,更期待将人形机器人与行业模型的能力结合,承担技工功能。

“我们最初就是想开发能适应不同场景的通用人形机器人。目前,我们已经在机器人的电机、结构、关节集成、运动控制算法等方面都形成了全链条自研能力。下一步,我们会去解决整个批量化的问题,争取明年能看到机器人在部分场景里的落地应用。”谈及追觅对人形机器人未来发展阶段的规划,喻超对36氪表示。

在更远的畅想里,机器人可以和人对话,并能感知、识别人类的情绪,可以帮助人类完成简单的工作,甚至可以和人类谈恋爱,电影《her》中的梦幻场景,或许将在不远的将来照进现实。

二、“你需要10年还是30年?”

“你需要10年还是30年”,这是投资人关于“人形机器人落地”的问题,可见还很漫长。

“人形机器人太难了”,这是很多从业者发出的感慨。行业鼻祖波士顿动力研究了30多年,也逃不过在7年内被3次转卖的命运。

人形机器人本质上是通用 AI 决策能力加上通用的物理运动能力的产物。研制人形机器人需要做好硬件本体、机器人大脑和运动控制上的研发,但到目前为止,这三件事都处于起步阶段。

曾主导过擎朗智能和大模型Minimax第一轮融资的云启资本合伙人陈昱表示,“大模型的应用目前已逐渐落地展开,人形机器人同时涉及到软件和硬件层面,技术成熟度尚不高,落地时间会更久,但这是终极梦想。”

大模型能帮助机器人拥有“大脑”,但移动能力还需机器人本体来执行,它无法帮助企业设计机器人本体。张巍认为,这个难度相当于让大模型能直接设计波音空客飞机或火箭的控制器。

大模型对于物理运动能力的帮助是有限的,AI代替人决策,机器人代替人劳动,不过大模型能做的是把成熟的物理运动能力拼接起来,完成复杂的任务。

人形机器人的操作能力和移动能力需要借助硬件本体的硬件和算法来实现,但在过去50年的人形机器人研究历程中,这个难关一直没有被攻克。

扫地机器人能通过底盘滑动前行,四足机器狗可以靠四肢保持稳定和平衡,人形机器人只有两条腿,行动时只能依赖一条腿保证整个身体的稳定和平衡。

人形机器人需要保持平衡,这也是张巍眼中人形机器人最核心的壁垒——基于感知的运动控制能力Perceptive Locomotion,将感知和控制结合起来, 这让机器人能与环境进行不需要预先设定的自由交互。

国内关于运动控制的研究并不成熟。一个好消息是,2018年,MIT仿生实验室的两位成员分别开源了他们人形机器人的本体设计方案和运动控制代码。他们采用的是准直驱电机给了行业方向,这种电机能通过电流准确反应输出端或输入端的力,降低运动控制的难度。

追觅科技对于跨越这个难题充满信心,喻超表示,“我们在运动控制方面一直持续研发;同时,整个行业的火热也会推动这一难题的研究进度。”

喻超以AI导航算法举例:“像我们应用于扫地机器人上的算法,以及四足的导航算法,都有一些不错的积累和实践,这块能力应该会比市面上大多数的公司略强一些。”

在AI识别算法的种类上,追觅的扫地机器人通过学习超过405万组大数据,迭代超过35个版本,可识别环境、物品、人形及宠物四种类型,这样的AI识别算法能力能够完全迁移复用到人形机器人上,并在此基础上训练其理解能力。

在执行能力上,叠被子、擦玻璃、洗杯子、切土豆丝,铺平沙发上的褶皱,这些人类能轻松完成的动作,对机器人来说非常难。

人形机器人需要在零部件上整体性的升级——更灵活的关节,更高功率的电机,更精确的执行器,更灵敏的传感器等,才能即时响应地执行简单如从地面拿起物品的动作。

它还需要执行工具,人类的手拥有22个关节,可以灵活、稳定又力度适中地完成各类动作,但机器人很难实现。灵巧手是和人形机器人身体一样难的事情。腾讯研究院便在研究灵巧手,其“TRX-Hand” ,目前拥有3根手指、8个可独立控制关节。

机器人硬件和大模型成熟后,机器人企业需要将大模型和人形机器人结合。大模型的语言和机器人所使用的代码是两套语言,输入多模态信息后,再输出决策指令,需要很长时间训练,且需要大量的数据。

“机器人的泛语义任务是一件很难的事情,大模型的出现给事情带来了希望,追觅科技也在这个方向做了相应的布局”喻超告诉36氪。

大模型的训练需要很多的数据,当机器人运用到细分场景时,需要收集足够的环境内习惯数据。机器人要想完成丰富的动作,也需要在场景里一步步迭代。

高海川告诉36氪:“大模型生成行动决策需要考虑很多信息和数据,比如物品的种类、物品的型号、房间之间的类型和连接关系,人是否会变动等。”

机器人是个软硬结合的事情,哪怕硬件做好了,没有软件,也无法检验硬件效果。

三、真的需要人形吗?

在与36氪交流的大多数投资人眼中,人形机器人赛道太早了,且存在公司估值过高的问题。

激进的投资人选择下注,保守的投资人选择远远观望。

人形机器人还处于非常早期的阶段,行业对于未来期待的落地场景并未形成共识。人形机器人未来的落地场景并不明朗。

“波士顿动力每年都要发一个不同造型的机器人,恰恰说明了探索商业场景上的困境。人形机器人的可能落地场景包括工业场景,复合清洁和家庭陪伴。”陈昱表示。

人形机器人在环境相对封闭、简单的环境更容易落地。封闭的工厂是一个首选。特斯拉便希望将人形机器人用于工厂,自家的超级工厂是试验田。但人形机器人很难和专机比性价比,尤其是对节拍性、稳定性要求高的场景。

张巍表示:“人形机器人可以替换目前专业机器无法解决的问题,但它需要具有替换至少2、3个不同工种工人的能力,如既能搬箱子,又可以做质检,它最终是一个通用的物理运动平台。”

在商业世界,畅想中,人形机器人可以做大量的简单工作——在银行、博物馆等地承担迎宾工作,在商场当导游,在办公室中处理打印资料等。

人形机器人公司看到的是替代三维清洁场景。目前的清洁机器人只能做地面的清洁,无法处理墙面、马桶等竖状墙面和异形体的清洁问题。这就是人形机器人成本和清洁工人力成本的较量了。

而真正让人形机器人充满幻想的,是走入千家万户。人形机器人具有与人相似的身体结构,能很好地适应家居环境,承担如打扫卫生、家庭陪伴等功能。

不过,环境狭小、复杂的家居环境,以及如叠被子、洗碗、刷鞋等充满柔性化的工作,远超当下人形机器人的能力边界。

做不做得出来,是企业的问题。买不买得起,也是企业的问题。

日本本田ASIMO的单台成本达到250万美元,波士顿动力Atlas的成本为200万美元,这样高昂的成本距离落地非常遥远。行业预估特斯拉2024年的造价将达到2万美元;而小米机器人的成本会大约在60、70万元人民币。

如果,人形机器人的价格能降低到一台电脑、一部手机的价格,只要能做饭和能打扫卫生,想来就会有大批人买单。

2020年,人形机器人赛道还处于一片萧瑟。不过3年时间,大模型已经让人形机器人重现生机。行业从业者用50余年的时间等来了机器人“大脑”的升级,让人形机器人在技术有了跨越,而未来的路,需要的是跨越成本和场景的屏障。

内容链接:https://www.hpaper.cn/11207.html

(0)
上一篇 2023-08-11 上午10:14
下一篇 2023-08-12 上午10:26

相关推荐

  • 极狐自燃,厂家来了盖车衣、撬车标,还反穿衣服,其他车企咋处理的?

    车头条消息,据津云报道,7月24日,浙江杭州一女子称公司新买2个月的极狐车,载客时发生自燃,厂家第一时间的处理方式是撬标、拆内部件,并表示大不了赔点钱。当事人称,对方态度很差,希望极狐道歉并解释。 从网传视频来看,厂家工作人员到达现场后,反穿着衣服,给车辆罩上黑布,并且使用锤子、螺丝刀等工具撬车标。 今日晚间,极狐官微发文回应称,2024年7月24日,杭州发…

    22小时前
    17.4K
  • 武汉萝卜快跑涨价,基本与网约车持平?我们测了一下

    车头条消息,据腾讯新闻深网报道,武汉萝卜快跑价格涨至与网约车持平,几毛钱一公里的价格早已成为历史。 报道称,深网于7月14日和7月15日在武汉多个辖区,一共呼叫了24次萝卜快跑,成功打到6次。 这6单中,每公里实收价格最低1块6毛钱,最高1块9毛8。若除去所有优惠补贴,按原价来算,萝卜快跑每公里价格最低4块6毛钱,最高6块7毛钱。 有在武汉洪山区拉活的网约车…

    1天前
    463
  • 马斯克:特斯拉Robotaxi计划10月发布,FSD有望年底前入华

    特斯拉第二季度营收高于预期,但净利润不及预期。在随后的财报电话会上,特斯拉方面对产品路线较为模糊的展望再度影响投资者情绪,美股盘后股价下跌超8%。 7月24日,特斯拉发布的财报显示,公司第二财季营收255亿美元,同比增长2%,高于分析师预期的245.4亿美元;净利润为14.78亿美元,同比下降45%,低于分析师预期的18.06亿美元;调整后每股收益0.52美…

    2天前
    2.1K
  • 马斯克又跳票了,特斯拉推迟交付擎天柱机器人

    7月23日消息,特斯拉到底什么时候才能交付一直在宣传的擎天柱(Optimus)机器人?根据公司首席执行官埃隆·马斯克(Elon Musk)的最新说法,这将比最初的预期要延后一些时间。 马斯克在当地时间周一早上发推文说:“特斯拉明年将在内部使用少量真正有用的人形机器人,有望在2026年为其他公司大批量生产。” 这比马斯克之前承诺的时间有所推迟。马斯克曾在今年4…

    3天前
    9.4K
  • “萝卜快跑”遇行人急刹 车上安全员会介入调整速度

    一辆“萝卜快跑”无人驾驶汽车行驶在粤海街道路上。 “萝卜快跑”无人驾驶汽车上配有一名安全员。 近期,无人驾驶网约车“萝卜快跑”因在武汉市的订单量迎来爆发式增长,单日单车峰值超20单等话题,多次冲上热搜,引发了外界对无人驾驶网约车的诸多讨论。 7月16日,南都湾财社记者在位于深圳南山的试运营区域,实地体验了萝卜快跑、小马智行、如祺出行的无人驾驶网约车服务。总体…

    4天前
    2.6K
  • “俄版谷歌”创始人带走400名顶尖工程师,到欧洲创办AI公司

    当地时间2022年6月11日,俄罗斯莫斯科,Yandex大楼。IC 图 俄罗斯科技巨头Yandex的母公司完成退俄协议后,其联合创始人宣布正在欧洲创办一家人工智能企业,公司大部分员工主要是Yandex的前雇员。 据《金融时报》(FT)7月17日报道,“俄版谷歌”Yandex的联合创始人阿尔卡季·沃洛日(Arkady Volozh)正在欧洲启动一家人工智能公司…

    2024-07-19
    9.9K
  • 退出价格战!大众丰田本田沃尔沃等跟进BBA,7月起降低优惠力度

    红星资本局7月17日消息,日前,宝马中国退出价格战,将从7月起,通过减少销售量来稳定价格,缓解门店的经营压力。不仅是宝马,红星资本局今日采访了解到,大众、丰田、本田、沃尔沃等多个品牌均决定,从7月起调整终端政策,降低终端优惠力度,或不再进一步降价。 值得一提的是,包括日产、奔驰和奥迪在内,一些经销商表示未收到品牌方调价的正式通知,但会根据市场情况动态调整,对…

    2024-07-18
    833
  • GPT-4o 现货变期货,是什么在拖 OpenAI 的后腿

    Her,正从电影,走向现实。 今年 5 月,OpenAI 发布最新 AI 多模态大模型 GPT-4o。相比此前的 GPT-4 Turbo,GPT-4o 速度快了两倍,成本低了一半,实时的 AI 语音互动的平均时延,相比此前版本的 2.8 秒 (GPT-3.5) 到 5.4 秒 (GPT-4),更是达到了 320 毫秒——与人类日常对话响应速度几乎一致。 不仅…

    2024-07-17
    594
  • 硬件缺乏创新的苹果,比以往更需要人工智能

    缺乏创新,是苹果在过去几年里面临的最常见的批评。 事实也的确如此,在硬件层面,自从2017年iPhone X取消沿用10年的Home键后,苹果唯一看得见的创新差不多就是2022年的灵动岛了。最近的两年里,除了贵得惊人、不太可能成为大众消费设备的Vision Pro,苹果几乎没有交出任何让人耳目一新的工业设计成果。 随着每年更新的iPhone越来越缺乏新意,消…

    2024-07-02
    1.3K
  • 美股半年收官:上半年涨14%,其中60%来自五大科技股,英伟达一家贡献超三成

    过去半年日渐黯淡的降息预期,丝毫没有影响美股的强势表现。 截至2024年6月28日收盘,标普500指数上半年累计上涨14%,略低于2023年上半年的表现,但仍然创下自千禧年互联网泡沫以来最强劲的半年度表现之一。 支撑美股涨势的关键支柱,就在于AI热潮。上半年,美股近60%的涨幅由仅五家科技巨头贡献——英伟达、微软、亚马逊、Meta和苹果,其中仅英伟达一家的涨…

    2024-06-29
    976
  • OpenAI AI模型销量超越微软!年化收入达10亿美元

    在2019年与微软建立合作伙伴关系后,AI初创公司OpenAI显示出了惊人的销售能力,根据最新两家公司内部数据,截至3月,OpenAI通过出售对其AI模型的访问权限,产生了约10亿美元的年化收入。相比之下,微软的同类产品Azure OpenAI Service,直到最近才达到了10亿美元的年化收入(ARR)。(这里的“年化收入”是指取前一个月的收入数字,然后…

    2024-06-28
    985
  • 赛道Hyper | 荣耀平板即将发布:探索护眼新玩法

    6月26日,在2024上海世界移动通信大会(以下简称“2024 MWC 上海”)上,荣耀CEO赵明在发表《AI共生时代,智能终端终将以人为中心赋能》的主题演讲中,首次向外界展示了两大突破性端侧AI创新:AI离焦视力舒缓技术和AI换脸检测技术,对智能终端厂商如何用AI赋能个人展示了新思路。 赵明将荣耀平板、笔电和手机相提并论,并向华尔街见闻透露:荣耀Magic…

    2024-06-27
    3.8K
  • 十年前的AI?大摩:为何VC圈一半会议都聊到量子计算

    近期,量子计算技术频繁出现在投资者的讨论中,成为继人工智能之后备受关注的前沿科技领域。摩根士丹利分析师Edward Stanley、Matias Ovrum在最新发布的研究报告深入分析了量子计算的发展现状及其对金融市场的潜在影响,为投资者提供了宝贵的洞察。 他们认为,量子计算目前仍然处于非常早期的阶段,在技术和政策上都不够成熟,企业、投资者、社会公众对量子计…

    2024-06-26
    1.8K
  • 突发!OpenAI停止不支持国家API,7月9日开始执行

    6月25日凌晨,有部分开发者收到了OpenAI的信,“根据数据显示,你的组织有来自OpenAl目前不支持的地区的API流量。从7月9日起,将采取额外措施,停止来自不在OpenAI支持的国家、地区名单上的API使用。” 但这位网友表示,他只在美国和乌克兰的第聂伯罗两个地方使用,都是在白名单上的,还是被无理由禁止。 并且当他试图去联系OpenAI的真人客服时,得…

    2024-06-25
    627
  • 还不到6个月,GPTs黄了

    上周,不少人发现微软官网忽然更新了一条“GPT Builder 即将停用”的通知。宣布将从7月10日起终止对Copilot GPT的支持,并会在四天内把平台上所有已创建的GPT连同相关数据全部删除。 如此猝不及防,因为就在仅仅3个月前, GPT Builder 才被微软打包进Copilot Pro服务正式推出。每月付费20美元的订阅用户可以根据特定需求,创建…

    2024-06-24
    1.7K
  • GPT-4o不香了?OpenAI竞争对手Anthropic发布最强大AI模型Claude 3.5

    6月20日周四,OpenAI竞争对手Anthropic发布了公司迄今为止性能最强大的AI模型Claude 3.5 Sonnet。 在覆盖阅读、编程、数学和视觉等领域的多项性能测试中,Claude 3.5 Sonnet的性能略胜一筹,吊打GPT-4o等一众竞争对手的AI模型,且优于自家旗舰模型Claude 3 Opus。当然,也有些测试不能完全反映AI在现实运…

    2024-06-21
    1.5K
  • “科八条”为资本市场带来哪些变化?

    值此五周年之际,科创板改革再出发 6月19日,陆家嘴论坛正式开幕,证监会主席吴清阐述了当前资本市场建设的三个着力点:一是积极主动拥抱新质生产力发展,二是大力推动上市公司提升投资价值,三是保护投资者。我们认为论坛延续了新“国九条”及资本市场“1+N”系列政策文件的表述,增量举措或在于新质生产力:继5年的“科创”耕耘后,科创板改革再出发,证监会于今日发布《关于深…

    2024-06-20
    1.5K
  • 英伟达高管和董事上半年卖股套现超7亿美元,黄仁勋本人也在其列

    市场对芯片的狂热需求令英伟达股价迭创新高,数据显示,该公司内部人士今年迄今已经卖股套现逾7亿美元,首席执行官黄仁勋也在套现之列。自从5月22日英伟达第一财季业绩公布以来,今年已有超过三分之一的内部人士减持股票。 根据Washington Service汇编的数据,剔除6月10日10股拆1股的影响,英伟达高管和董事迄今已卖掉约77万股英伟达股票,创2023年上…

    2024-06-19
    1.4K
  • 疑加密货币挖矿收入误导投资者遭起诉,英伟达上诉,美国最高法院受理

    美国最高法院周一同意受理英伟达的一项诉讼,该公司申请法庭撤销一项此前针对其的证券欺诈诉讼。此前,在营收中有多少来自波动较大的加密货币行业这个问题上,英伟达被指误导投资者。 此前,由瑞典斯德哥尔摩的投资管理公司E. Ohman J:or Fonder AB领衔一众英伟达股东,对英伟达和该公司首席执行官黄仁勋提起集体诉讼,指英伟达及其公司高层违反了1934年的《…

    2024-06-18
    966
  • 大模型下一步在哪里?王小川、杨植麟等给出回答

    AI大模型是正在进行的新一轮技术革命,它最终能否通向AGI,在技术研发和商业落地之间该如何权衡,这是当下需要厘清的核心议题。 6月14日,在2024北京智源大会上,百川智能CEO王小川、智谱AI CEO张鹏、月之暗面CEO杨植麟、面壁智能CEO李大海等给出了最新的思考和判断。从理论研究层面来看,业内的共识是大模型可以通向AGI。 杨植麟认为,大模型是第一性原…

    2024-06-17
    949