人形机器人,用大模型「唤醒」钢筋铁骨

在创业尤为艰难的2023年,ChatGPT的爆火,为不少行业带去了新的可能性,人形机器人就是其中之一。

2月初,华为天才少年“稚晖君”离职创业,成立智元机器人,不到半年便完成三轮融资。有行业人士告诉36氪,目前智元新一轮融资的估值已经叫到数十亿元估值。

5月底,北京大学助理教授王鹤成立机器人公司银河通用,3个月时间估值已达过亿美元;据36氪独家获悉,目前一位字节系的高管,也打算联合高校教授进行机器人创业。

大模型加持下,人形机器人公司有了新的生命力,资本关注度也水涨船高,一位机器人公司近期就拒绝了36氪的采访,理由是“问询过于密集,暂时不曝光了”。

据高盛预测,到2035年,人形机器人市场或将达到1540亿美元,成为继智能驾驶电动车后的又一AI落地场景。

和热闹的创投景象形成鲜明对比的是,人形机器人的产业发展依然有其难以解开的桎梏。

学界和产业界研究了50余年人形机器人,进展一直很缓慢——很长时间内,“如何平稳走路”仍是核心议题之一。近期,美国人形机器人公司Agility Robotics的首席技术官Jonathan Hurst在采访中表示:“它现在只是一个两岁半的孩子。”

2020年,软银Pepper机器人宣布停产,原因是“库存太多”卖不动。Pepper能通过面部表情和语调读懂人类情绪,但它只有20个电机,很难做出细致的动作,对话功能来自事先设定的指令,相处体验更像是一款玩具而非智能机器人。

直到2022年底ChatGPT爆火,人形机器人赛道才有了希望的苗头——先不论机器人能否像人一样行动,它至少有了变聪明的可能,可以像人一样进行多轮对话。

通用足式机器人创业公司逐际动力成立于2022年,公司同时研究四足机器人和双足人形机器人。在创始人张巍看来,大模型让人形机器人行业有看到了希望。“大模型让大家看到了从1-100的阶段没那么难了,我们解决好0-1阶段机器人本体的问题,人形机器人商业落地的闭环也可以预知了。”

大公司更不会放弃人形机器人领域的机会。小米早在2022年8月便亮相了“铁大”人形机器人,到2023年又投资5000万元人民币,成立机器人公司;华为更是斥资8.7亿元,全资成立机器人公司极目科技。

今年3月,广义机器人公司追觅科技推出通用人形机器人和仿生四足机器狗Dreame Dog;四个月后,追觅科技通过视频发布了人形机器人的研发进展——视频显示,追觅通用人形机器人已经可以脱离实验室环境,在办公室、林荫道等室内室外场景中行走;还学会了冲制咖啡,在经历了重力拍打、拳击之后,仍能稳定行走。追觅科技人形机器人负责人喻超对36氪谈到,机器人是公司从未动摇的战略,公司在扫地机器人和四足机器狗上的AI算法积累,能在人形机器人上复用。

今天行业看到的大模型,都是通过搜索、对话等软件能力实现,要想将AI落在看得见、摸得着的实体应用,机器人是个可预见的方向,这也是行业为之振奋的原因。

热钱再次涌动,巨头信心百倍,可机器人赛道并不是能够投机的风口,新的机会来了,但旧的问题仍然在。

一、  大模型——人形机器人的嘴和大脑

距离软银集团转卖人形机器人行业鼻祖波士顿动力不过2年,人形机器人能够再次火热,要得益于大模型。

很长一段时间,人形机器人的一大问题是它无法和人正常交流,如同停产的Pepper,只能回答设定好的问题。

大模型给出了解法。

大语言模型拥有对话能力,可以赋予人形机器人通识大脑,从而顺畅和外界对话,还可以增加任务理解、拆分和逻辑推理等“决策”能力。

AI带来的技术红利,也让现有的机器人本体焕发生机。不久前,谷歌DeepMind发布了Robotics Transformer 2(RT-2)大模型,它是一个融合了视觉、语言、动作能力的多模态大模型。

谷歌展示了一个演示视频,加载RT-2后,机器人听到“把草莓放入碗里”的指令,会从苹果、橘子等水果中选择出草莓,并且放入碗中。

在这个动作背后,大模型先获得语言指令,再完成了判断信息、拆解任务、感知外部环境、执行任务等功能。

将人形机器人和大模型结合并不容易。机器人执行基于语言模型生成的动作时,会有安全性风险;如果没有足够机器人决策数据做训练,输出的结果会容易漂移,成功率也会受影响。

国内目前也出现了研究类似方向的团队,如李飞飞团队在研究VoxPoser大模型,他们希望通过将外部观察到的数据生成为3D数值图,再搜索出机器人的运动路径的方式,减少直接基于语言大模型生成决策的不确定性。

机器人大模型公司千诀科技也是其中之一,他们希望研究出具有通用性的机器人大脑和应用系统,让不同类型的机器人变得“聪明”。

千诀科技创始人兼CEO高海川向36氪分享了在语言大模型生成机器人运动轨迹上的经验,“为了更好地控制算法,行业可以通过微调、预训练、人工打分等方式,加强对模型决策的自我评估,当机器人判断到失败率会很较高时,可以让人类接管。”

而除了大模型,通用人形机器人还可以和行业模型结合,如质检模型、分拣模型、金融模型等。通过行业模型和专业数据,人形机器人可以了解不同场景的行业knowhow,成为熟练的技工。

一个有趣的现象是,从AI出发的大模型创业者,都希望研究出具有通用性的机器人,而从机器人硬件和运动控制能力出发的创业者,更期待将人形机器人与行业模型的能力结合,承担技工功能。

“我们最初就是想开发能适应不同场景的通用人形机器人。目前,我们已经在机器人的电机、结构、关节集成、运动控制算法等方面都形成了全链条自研能力。下一步,我们会去解决整个批量化的问题,争取明年能看到机器人在部分场景里的落地应用。”谈及追觅对人形机器人未来发展阶段的规划,喻超对36氪表示。

在更远的畅想里,机器人可以和人对话,并能感知、识别人类的情绪,可以帮助人类完成简单的工作,甚至可以和人类谈恋爱,电影《her》中的梦幻场景,或许将在不远的将来照进现实。

二、“你需要10年还是30年?”

“你需要10年还是30年”,这是投资人关于“人形机器人落地”的问题,可见还很漫长。

“人形机器人太难了”,这是很多从业者发出的感慨。行业鼻祖波士顿动力研究了30多年,也逃不过在7年内被3次转卖的命运。

人形机器人本质上是通用 AI 决策能力加上通用的物理运动能力的产物。研制人形机器人需要做好硬件本体、机器人大脑和运动控制上的研发,但到目前为止,这三件事都处于起步阶段。

曾主导过擎朗智能和大模型Minimax第一轮融资的云启资本合伙人陈昱表示,“大模型的应用目前已逐渐落地展开,人形机器人同时涉及到软件和硬件层面,技术成熟度尚不高,落地时间会更久,但这是终极梦想。”

大模型能帮助机器人拥有“大脑”,但移动能力还需机器人本体来执行,它无法帮助企业设计机器人本体。张巍认为,这个难度相当于让大模型能直接设计波音空客飞机或火箭的控制器。

大模型对于物理运动能力的帮助是有限的,AI代替人决策,机器人代替人劳动,不过大模型能做的是把成熟的物理运动能力拼接起来,完成复杂的任务。

人形机器人的操作能力和移动能力需要借助硬件本体的硬件和算法来实现,但在过去50年的人形机器人研究历程中,这个难关一直没有被攻克。

扫地机器人能通过底盘滑动前行,四足机器狗可以靠四肢保持稳定和平衡,人形机器人只有两条腿,行动时只能依赖一条腿保证整个身体的稳定和平衡。

人形机器人需要保持平衡,这也是张巍眼中人形机器人最核心的壁垒——基于感知的运动控制能力Perceptive Locomotion,将感知和控制结合起来, 这让机器人能与环境进行不需要预先设定的自由交互。

国内关于运动控制的研究并不成熟。一个好消息是,2018年,MIT仿生实验室的两位成员分别开源了他们人形机器人的本体设计方案和运动控制代码。他们采用的是准直驱电机给了行业方向,这种电机能通过电流准确反应输出端或输入端的力,降低运动控制的难度。

追觅科技对于跨越这个难题充满信心,喻超表示,“我们在运动控制方面一直持续研发;同时,整个行业的火热也会推动这一难题的研究进度。”

喻超以AI导航算法举例:“像我们应用于扫地机器人上的算法,以及四足的导航算法,都有一些不错的积累和实践,这块能力应该会比市面上大多数的公司略强一些。”

在AI识别算法的种类上,追觅的扫地机器人通过学习超过405万组大数据,迭代超过35个版本,可识别环境、物品、人形及宠物四种类型,这样的AI识别算法能力能够完全迁移复用到人形机器人上,并在此基础上训练其理解能力。

在执行能力上,叠被子、擦玻璃、洗杯子、切土豆丝,铺平沙发上的褶皱,这些人类能轻松完成的动作,对机器人来说非常难。

人形机器人需要在零部件上整体性的升级——更灵活的关节,更高功率的电机,更精确的执行器,更灵敏的传感器等,才能即时响应地执行简单如从地面拿起物品的动作。

它还需要执行工具,人类的手拥有22个关节,可以灵活、稳定又力度适中地完成各类动作,但机器人很难实现。灵巧手是和人形机器人身体一样难的事情。腾讯研究院便在研究灵巧手,其“TRX-Hand” ,目前拥有3根手指、8个可独立控制关节。

机器人硬件和大模型成熟后,机器人企业需要将大模型和人形机器人结合。大模型的语言和机器人所使用的代码是两套语言,输入多模态信息后,再输出决策指令,需要很长时间训练,且需要大量的数据。

“机器人的泛语义任务是一件很难的事情,大模型的出现给事情带来了希望,追觅科技也在这个方向做了相应的布局”喻超告诉36氪。

大模型的训练需要很多的数据,当机器人运用到细分场景时,需要收集足够的环境内习惯数据。机器人要想完成丰富的动作,也需要在场景里一步步迭代。

高海川告诉36氪:“大模型生成行动决策需要考虑很多信息和数据,比如物品的种类、物品的型号、房间之间的类型和连接关系,人是否会变动等。”

机器人是个软硬结合的事情,哪怕硬件做好了,没有软件,也无法检验硬件效果。

三、真的需要人形吗?

在与36氪交流的大多数投资人眼中,人形机器人赛道太早了,且存在公司估值过高的问题。

激进的投资人选择下注,保守的投资人选择远远观望。

人形机器人还处于非常早期的阶段,行业对于未来期待的落地场景并未形成共识。人形机器人未来的落地场景并不明朗。

“波士顿动力每年都要发一个不同造型的机器人,恰恰说明了探索商业场景上的困境。人形机器人的可能落地场景包括工业场景,复合清洁和家庭陪伴。”陈昱表示。

人形机器人在环境相对封闭、简单的环境更容易落地。封闭的工厂是一个首选。特斯拉便希望将人形机器人用于工厂,自家的超级工厂是试验田。但人形机器人很难和专机比性价比,尤其是对节拍性、稳定性要求高的场景。

张巍表示:“人形机器人可以替换目前专业机器无法解决的问题,但它需要具有替换至少2、3个不同工种工人的能力,如既能搬箱子,又可以做质检,它最终是一个通用的物理运动平台。”

在商业世界,畅想中,人形机器人可以做大量的简单工作——在银行、博物馆等地承担迎宾工作,在商场当导游,在办公室中处理打印资料等。

人形机器人公司看到的是替代三维清洁场景。目前的清洁机器人只能做地面的清洁,无法处理墙面、马桶等竖状墙面和异形体的清洁问题。这就是人形机器人成本和清洁工人力成本的较量了。

而真正让人形机器人充满幻想的,是走入千家万户。人形机器人具有与人相似的身体结构,能很好地适应家居环境,承担如打扫卫生、家庭陪伴等功能。

不过,环境狭小、复杂的家居环境,以及如叠被子、洗碗、刷鞋等充满柔性化的工作,远超当下人形机器人的能力边界。

做不做得出来,是企业的问题。买不买得起,也是企业的问题。

日本本田ASIMO的单台成本达到250万美元,波士顿动力Atlas的成本为200万美元,这样高昂的成本距离落地非常遥远。行业预估特斯拉2024年的造价将达到2万美元;而小米机器人的成本会大约在60、70万元人民币。

如果,人形机器人的价格能降低到一台电脑、一部手机的价格,只要能做饭和能打扫卫生,想来就会有大批人买单。

2020年,人形机器人赛道还处于一片萧瑟。不过3年时间,大模型已经让人形机器人重现生机。行业从业者用50余年的时间等来了机器人“大脑”的升级,让人形机器人在技术有了跨越,而未来的路,需要的是跨越成本和场景的屏障。

内容链接:https://www.hpaper.cn/11207.html

(0)
上一篇 2023-08-11 上午10:14
下一篇 2023-08-12 上午10:26

相关推荐

  • 大UP质问平台为什么视频越来越糊,答案比问题要复杂得多

    文|王毓婵 编辑|乔芊 10月8日,在全网拥有超千万粉丝的视频创作者@影视飓风发布了一条视频,标题为《清晰度不如4年前!视频变糊是你的错觉吗?》。这条视频揭示了视频平台为降低流量费用支出,通过降低码率和调整编码格式压缩视频画质的现象。 “2024年,4K视频你应该已经司空见惯。各家平台争先恐后在画质上做文章,我们也在不断更新设备,提升节目的质量。但我们在平台…

    11小时前
    9
  • 特斯拉“命运日”即将到来:Robotaxi能否帮马斯克“翻身”?

    财联社10月10日讯(编辑 刘蕊)不到24小时之后,特斯拉将成为全球瞩目的焦点:特斯拉将在加利福尼亚州伯班克华纳兄弟工作室举行“Robotaxi Day”活动。届时,众多投资者和分析师们将看到期待已久的自动驾驶出租车Cybercab及其他产品的发布。 随着“Robotaxi Day”活动的逐步临近,特斯拉股价也在过去几周持续上涨,几乎抹平了年内跌幅——这也表…

    1天前
    8
  • 又发布两款新车的富士康还没在全新领域找到获胜之道

    致力于在电动汽车领域开辟新增长曲线的富士康发布两款全新电动汽车,将其乘用车产品阵容扩充至MPV领域。 10月8日,在一年一度的鸿海科技日上,富士康推出MPV车型Model D和中型电动巴士Model U。该MPV新车强调宽敞的内部空间,轴距达到3.2米。在800V电子电气架构的支持下,预计WLTP续航里程约为660公里。 富士康依然与意大利车身制造商宾尼法利…

    2天前
    7
  • 33亿增资,合肥为什么再次“抄底”蔚来?

    作为中国第一家在美国上市的电动车企,蔚来一度面临崩溃的边缘。 2019年年底,蔚来的股价触及1.32美元的低点,市值距离高点蒸发80%以上。 高瓴清空了蔚来股票,红杉也选择了减仓。 当时的李斌四处奔走请客吃饭,想为蔚来寻求融资输血。 一个故事是,一家国资的老总在席间直斥李斌”乱花钱”。 所谓的乱花钱,是指当时的新能源车企几乎都依赖补贴…

    3天前
    9
  • 跨国车企销量都跌了,为何仅欧美“狂”裁员?

    自今年以来,欧美汽车企业掀起了一股裁员浪潮。 福特、特斯拉、通用汽车、大众集团、Stellantis集团等跨国车企相继宣布裁员计划。车企本次裁员人数大多在千人以上,其中大众集团(正在与工会谈判中)和特斯拉更是超过万人规模。 这股寒流已经蔓延至零部件供应链。芯片制造商英飞凌、充电设备制造商Blink Charging、瑞典电池制造商Northvolt等零部件企…

    2024-09-30
    6
  • 7.99万就能提车的Model Y,还顶得住新势力的围攻吗

    9月27日,特斯拉上海超级工厂迎来第100万辆车下线。 从一片泥洼地到变成全球电动汽车巨头最大的海外基地,特斯拉上海工厂在不到4年时间里实现了产能和制造工艺的双双飞跃。 而随着特斯拉副总裁陶琳在社交媒体上写下“感谢每一位新老车主的爱和支持”的同时,这家电动车公司正在被它从前的一众门徒视为必须要跨越的门槛,9月集中上市的新车乐道L60、极氪7X等尤为雄心勃勃。…

    2024-09-29
    28
  • 逼退张大奕的退货率,让丰巢一年狂揽9个亿

    9月19日,曾经的“淘宝女装第一人”张大奕用小号发微博称,她将无限期延迟十年老店“吾欢喜的衣橱”的上新,宣告了这个曾经最火的淘宝女装店将关店。她称闭店是因为女装毛利微薄支撑不了各项运营成本,以及,电商越来越高的退货率。 就在张大奕宣布关店的三周前,丰巢刚刚向港交所提交招股书,寻求以250亿元的估值上市。招股书显示,连亏八年的丰巢终于在2024年前5个月有了7…

    2024-09-27
    963
  • OpenAI高层再震荡:CTO官宣离职,Sora恐长期停滞?| 最前线

    文|袁滢靓 编辑|邓咏仪 北京时间9月26日凌晨3点,OpenAI 首席技术官(CTO)Mira Murati在X上官宣辞职。那张成就了ChatGPT时代的四人合照,如今两个离职,一人休假,只剩下Altman一人扮演独角戏了。 △图源:X网友 @brewmarkets OpenAI的腥风血雨体质,也在另一方面体现了什么是“明星”公司。前脚GPT-4o高级语音…

    2024-09-26
    32
  • TikTok Shop鏖战美区,内容电商的蛰伏与加速

    TikTok Shop的内容电商,能给全球商家带来新一个增长奇迹吗? 文 | 华商韬略 梁梁 跨境电商正在重新定义全球电商格局。 过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以核心电商平台为节点链接的全球商业网络。 这是一张史无前例的商业大网,它已经而且还在加速改变全球贸易和消费的格局,并且这张网还在不断进化与分化…

    2024-09-25
    1.4K
  • 华为三折叠黄牛价雪崩:从加近十万到仅加四千,黄牛气懵了

    正式发售不到48小时,华为三折叠屏手机Mate XT非凡大师黄牛价就崩了。 9月22日,很多数码博主在社交平台上发视频称,Mate XT三折叠手机价格雪崩,从加价六七万甚至十几万,暴跌至加价四千、两千。 甚至到了“每小时一个价”、“你要买我肯定有货;但你要卖我打死不收”的地步。 官方途径购买线上每天要“蹲点”抢‍‍‍‍‍‍‍‍线下无现货需排队几万人等待 ‍‍…

    2024-09-24
    2.2K
  • 马斯克终于“投降”,“我们的主权不容出售!”

    【文/观察者网专栏作者 蒂亚戈·诺加拉,翻译/ 陈佳芮】 在无视巴西最高法院的命令三周之后,马斯克终于“投降”,作出重大让步。 当地时间9月20日,在一份法庭文件中,社交平台X(原推特)公司的律师表示,X平台已遵守巴西最高法院的相关命令,希望法院能解除对其X平台在巴西境内的禁令。 有意思的是,在这次“X事件”中,一度曾是削弱国家主权和民主机构国际干预堡垒的巴…

    2024-09-23
    7.5K
  • 李斌的“县县通”,蔚来的新未来

    出品|网易科技《态度》栏目 作者|定西 这个中秋假期,李斌有点忙。 为了推进充电县县通和换电县县通计划的落地,他来到该计划最难的地方之一新疆进行实地考察。 时间紧迫。蔚来计划在2025年6月30日前,完成除台湾地区、香港特别行政区外,全国所有县级行政区充电桩全覆盖。今年10月前完成新疆14个地级行政区充电全覆盖,包框乌鲁木齐、克拉玛依、哈密、吐鲁番、昌吉、伊…

    2024-09-20
    1.3K
  • 小鹏回应MONA M03自动泊车撞上奥迪:不排除光线等因素致弱势场景

    IT之家 9 月 18 日消息,近期一起“小鹏 MONA M03 自动泊车撞上奥迪汽车”的事故,引起了IT之家网友的关注。据每日经济新闻今天下午报道,小鹏汽车相关负责人就此事回应称,“公司售后同学已经联系上客户,在积极处理解决中。” 关于自动泊车状态下发生剐蹭的原因,该负责人表示,目前不排除因光线及其他因素导致的弱势场景,具体原因还要结合具体的数据进行分析。…

    2024-09-18
    3.5K
  • 华为三折叠,炸出570万「黄牛」

    「核心提示」人人争当黄牛背后,是三折叠手机备受追捧。沉积的手机市场,太需要这样的“王炸”来唤醒了。 作者 | 陈法善 编辑 | 刘杨 备货量100万台,发布四天就有近570万人预约,华为三折叠手机Mate XT注定是今年最难抢的手机。 要知道,根据IDC的统计,2023年中国折叠屏手机总出货量约700.7万台。也就是说,华为这一个单品,就…

    2024-09-14
    1.1K
  • 比亚迪员工总数突破 90 万,技术研发人员近 11 万全球车企第一

    IT之家 9 月 13 日消息,比亚迪集团品牌及公关处总经理李云飞今日在微博上透露,今天,比亚迪员工总数突破 90 万,是 5300 多家 A 股上市公司里员工人数最多的,比第二名还要多 40 多万人。 李云飞还表示:“比亚迪 90 万员工中,技术研发人员近 11 万,是全球研发人员最多的车企。过去两年还招聘了近 5 万名优秀应届大学生,持续助力大学生就业。…

    2024-09-13
    531
  • 从Vertu到8848,奢侈品手机为何全军覆没

    华为三折叠终于发布了,19999元起售。 主要噱头是比折叠还多一折,但也引起了互联网的广泛争论。 在争论之中,黄牛早已率先抢购。 据网上消息,黄牛把三折叠已经炒到了一台65万。 一台38万,有人为了提升销量,黄牛给出的利好是全国可飞。 大家都知道这个溢价不可持续。可大家的疑惑点在于,华为三折叠的受众是谁? 为何有种魔幻的吸引力? 如果堆科技参数。 我可以告诉…

    2024-09-12
    781
  • 苹果谷歌的合作关系正在升级?苹果新推视觉搜索功能

    财联社9月11日讯(编辑 周子意)苹果在9月9日的发布会上推出了视觉搜索功能——“视觉智能(Visual Intelligence)”,这一功能提供了一种与软件和服务交互的新范式,也为其搜索引入了新的模式。 苹果将“视觉智能”描述为一种即时了解你所看到的一切的方式。发布会上,苹果解释称,“视觉智能”功能可以被用来做更多的事情,它不仅仅是一种帮助用户了解相机视…

    2024-09-11
    2.4K
  • 外媒评苹果新品发布会:AI或助苹果在中国保持竞争力

    9月10日消息,美国时间周一,苹果在2024秋季新品发布会上推出了最新款iPhone、Watch和AirPods等硬件产品。iPhone 16系列毫无疑问再次成为焦点。苹果押注,人工智能支持的iPhone将有助于提振销量,保持在中国市场的竞争力。以下是主流媒体对苹果发布会的点评: 路透社:AI助力苹果在中国市场保持竞争力 苹果最新发布的iPhone 16系列…

    2024-09-10
    2.2K
  • 华为Mate XT震撼发布:余承东宣布全球首款三折叠手机引领行业新潮流

    9月10日,华为在“见非凡品牌盛典及鸿蒙智行新品发布会”上正式推出了其备受瞩目的全球首款三折叠手机——华为Mate XT。华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东在发布会上发表演讲,详细介绍了这款集前沿科技与创新设计于一体的旗舰产品,并展望了其对行业未来的深远影响。 余承东激动地表示:“华为团队历经五年奋斗,终于将科幻变成现实,今天发布…

    2024-09-10
    518
  • 苹果与华为发布会“正面交锋”:iPhone 16 AI功能在中国大陆受限,华为Mate XT引领三折叠手机新风潮

    2024年9月10日,全球科技界迎来了一场前所未有的盛宴。苹果与华为两大科技巨头在这一天几乎同时举行了年度新品发布会,吸引了全球消费者的目光。然而,在这场科技盛宴中,iPhone 16系列与华为Mate XT三折叠手机的发布,不仅展示了各自品牌的最新技术创新,也揭示了科技行业竞争的新格局。 iPhone 16 AI功能在中国大陆受限 当地时间9月9日上午(北…

    2024-09-10
    181