马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

北京时间4月13日上午,X平台的xAI官方账号发布了“Grok-1.5 Vison”版本的预告,并同时宣告,公司正在湾区招募设计师、工程师、产品、数据、架构和标注师等职位。马斯克也呼吁:“请加入xAI公司!”

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

xAI的招聘页面:构建人工智能,推动人类进步 [1]

从预告页面的介绍和秀肌肉的七个例子能看出来,Grok-1.5V版本主打多模态视觉信息处理,对标GPT-4,强调“理解物理世界的能力”。

以下为xAI官方的介绍,瓦砾粗译。[2]

一 官方介绍

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

介绍Grok-1.5V,我们的第一代多模态模型。除了强大的文本功能外,Grok现在还能处理各种视觉信息,包括文档、框图、图表和照片。Grok-1.5V即将向我们的早期测试者和现有的Grok用户推出。

能力

从多学科推理到理解文档、科学框图、图表、截图和照片,Grok-1.5V在多个领域都能与现有的前沿多模态模型相媲美。Grok在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的RealWorldQA基准测试中,Grok的表现优于同类产品。对于下面所有的数据集,我们都是在没有思维链提示的情况下,对Grok进行了评估。

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

例子1 从框图生成代码

用户:你能把这个转化为Python代码吗?

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

Grok:当然!你提供的流程图描述了一个简单的猜谜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的Python代码:

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

这段代码将运行流程图中描述的猜谜游戏。用户将被提示输入他们的猜测,直到他们猜出正确的数字为止。

例子2 计算卡路里

用户:5片这个东西含有多少卡路里? 

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

Grok:如果一份是3片,含有60卡路里,那么5片大约含有100卡路里。计算方法是首先确定每片的热量:60卡路里 / 3片=每片20卡路里。然后,将每片的卡路里乘以片数:每片20卡路里 * 5片 = 100卡路里。

例子3 从手绘到睡前故事

用户:这是我儿子画的,你能根据他的画讲一个睡前小故事吗?

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

Grok:很久很久以前,在一个充满冒险和奇迹的国度里,有一个勇敢的小男孩,名叫提米。提米和家人住在舒适的小房子里,他最喜欢的事情就是探索周围的世界。

在一个阳光明媚的日子里,提米决定去附近的森林探险。他带上了自己最喜欢的零食、指南针和他最信任的笔记本,准备把看到的所有令人兴奋的事物都画下来。

当提米走进森林深处时,他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人,以至于提米决定做一艘小纸船,顺流而下,作为给森林精灵的特别讯息。

提米小心翼翼地折好纸船,在上面画了一个笑脸,希望能给森林精灵带来欢乐。然后,他把小船放在河面上,看着小船载着他的友谊和对大自然的爱漂走了。

夕阳西下,提米知道是时候回家了。他为自己在森林里度过这神奇的一天感到庆幸,他知道自己将永远铭记这次探险。

回到家后,提米和家人分享了他的故事,家人听到他在森林里度过的神奇一天都非常高兴。他们一致认为,提米勇敢、善良的精神是一种真正的激励,他们知道,提米今后还会有更多精彩的冒险经历。

就这样,带着满心的爱和满脑子的梦想,提米渐渐进入了梦乡,他渴望发现,在他的想象世界里还有什么新的冒险在等着他。

例子4 解释梗图(meme)

用户:我不理解,请解释一下。

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

Grok:这幅图幽默地将初创公司和大公司作了对比。在标有“初创公司”的左侧,有一群人在一起挖洞。他们都在积极参与,洞已经挖得很深了。

在标有“大公司”的右侧,有一群人围着一个洞站着。然而,与初创公司不同的是,只有一个人在真正挖洞,其他人都在围观或干别的事。

这幅图的幽默感来自于对初创公司和大公司之间差异的夸大。在初创公司,人们往往有一种紧迫感,希望每个人都能直接为手头的任务做出贡献。相比之下,大公司往往被描绘为官僚主义更严重,所有团队成员对每个项目的直接参与更少。

例子5 把一个表格转为CSV文件

用户:请把这个表格转成csv文件

 Grok:图片中的表格可转换为CSV格式,如下所示:

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”
马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

例子6 帮助处理露台上的朽木

用户:我露台上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

Grok:看来你的露台上的木材已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。

为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止露台受到进一步损坏,并保持其结构的完整性。

如果你不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就露台的最佳行动方案向你提供专家建议。

例子7 解决编程问题

用户:你能编写Python代码解决这个问题吗?

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

Grok:

马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”

真实世界理解能力

为了开发有用的真实世界的人工智能助手,提高模型对物理世界的理解能力至关重要。为此,我们推出了一个新的基准——RealWorldQA。该基准旨在评估多模态模型基本的真实世界空间理解能力。虽然当前基准中的许多示例对人类来说相对容易,但它们往往对前沿模型构成挑战。

初版发布的RealWorldQA包含700多张图片,每张图片都有一个问题和易于验证的答案。除其他真实世界的图像外,该数据集还包括从车辆上拍摄经匿名化处理后的图像。我们很高兴能向社区发布RealWorldQA,并打算随着多模态模型的改进而不断扩展。RealWorldQA根据CC BY-ND 4.0协议发布。单击此处可下载677MB的数据集。[3]

展望未来

推进我们的多模态理解和生成能力,是构建能够理解宇宙的有益通用人工智能(AGI)的重要步骤。在接下来的几个月中,我们预计将在图像、音频和视频等各种模式上显著提高这两种能力。

内容链接:https://www.hpaper.cn/17953.html

(0)
上一篇 2024-04-15 上午9:17
下一篇 2024-04-15 上午9:22

相关推荐

  • 中国AI独角兽资本大冒险

    成立不过一年多时间,月之暗面已然成为中国大模型赛道上,最炙手可热的明星公司。 5月21日,华尔街见闻获悉,月之暗面将按照投前估值30亿美元(合217.3亿人民币)进行融资,完成后依然会是当前中国估值最高的AI创业公司。 过去一年,月之暗面已进行三轮融资,累计金额超百亿。在它身后,站着阿里、腾讯、真格基金等庞然大物。 这样的投资盛况,已经很久没有出现了。在产业…

    8小时前
    399
  • 又一次超预期后,英伟达财报电话会说了什么?(附全文)

    黄仁勋在当地时间周三召开的英伟达财报电话会上表示,Blackwell芯片产品将在今年二季度发货、三季度增产、四季度投放到数据中心,今年就会看到“Blackwell芯片营收显著增长”,并且在Blackwell芯片之后会有另一款芯片推出,实现“一年一代”。 关于网络收入,英伟达首次将网络收入单拆出来。黄仁勋表示公司将致力于三条网络链路,从用于单计算域的NVLin…

    1天前
    498
  • 50万亿美元目标市场!这片蓝海让微软和英伟达盯上了

    5月21日周二,在微软年度Build开发者大会上,来自微软和英伟达的团队展示了两家公司合作正在如何带领近50万亿美元的全球制造业迈入数字化新时代。 基于英伟达的Omniverse(全宇宙)虚拟现实和仿真平台以及微软Azure云服务可以开发先进的数字孪生工具(digital twin),方便重工业的工程师和开发人员于精确模拟物理世界的3D虚拟环境中,在一间工厂…

    2天前
    899
  • 微软AI PC全面“亮剑”!Copilot融入Windows 11,GPT 4o“很快”加持

    本周二举行Build年度全球开发者大会前,微软先举行了重磅新品发布会。继3月首次推出将人工智能(AI)功能结合到个人电脑(PC)的首批AI PC后,微软又将旗下AI助手Copilot全面融入Windows系统,AI PC全面“亮剑”。 美东时间5月20日周一在微软位于华盛顿的新园区举行的这场发布会上,微软CEO Satya Nadella率先登台。他将今天的…

    3天前
    500
  • 时隔近两年,贝索斯的蓝色起源商业航天项目重启,将六名游客送入太空

    因发动机故障停飞近两年后,亚马逊创始人、亿万富翁贝索斯旗下蓝色起源公司重启载人太空旅行服务。当地时间周日,蓝色起源用火箭把6名乘客送上了100km的高空,短暂停留后返回地面。 发射曾被推迟一小时,最终于当地时间周日上午9:35分左右在蓝色起源的西德克萨斯州发射场升空。发射后,航天器超越了国际公认的太空高度(100km)。随后,火箭和舱室相继返回地球。其中舱室…

    4天前
    746
  • “索罗斯战友”到底猛砍了多少英伟达?答案来了:至少70%!

    前索罗斯副手、亿万富翁Stanley Druckenmiller上周表示,人工智能热潮可能被过度炒作了,他削减了许多英伟达持仓,不过减持规模并没有透露。最新的13F文件给出了相关重要线索。 本周公布的13F文件显示,Druckenmiller的家族办公室在今年第一季度出售了超过44.1万股的英伟达股票,将其英伟达持仓减少至仅17.6万股,这意味着仅截至一季度…

    2024-05-17
    796
  • 大摩看好AI服务器成吸金利器!戴尔大涨11%

    人工智能(AI)概念股又飚了,被投资者看好AI服务器强劲需求打动的戴尔就是其中佼佼者。 美东时间5月15日周三,戴尔(DELL)午盘涨至150.28美元,日内涨约12%,收涨11.2%,创盘中和收盘历史新高,今年内累计涨近95%。 虽然戴尔自身周三并未发布任何利好消息,但摩根士丹利的分析师Erik Woodring当天发布了看涨戴尔的报告,预计市场对AI服务…

    2024-05-16
    428
  • 价格战开卷!字节发布豆包大模型,比行业便宜99.3%

    5月15日,在2024春季火山引擎Force原动力大会上,字节跳动正式发布豆包大模型。 据火山引擎总裁谭待介绍,目前,豆包日均处理1200亿Tokens文本,生成3000万张图片。经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一。 “大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的…

    2024-05-15
    386
  • GPT 4o意味着什么?OpenAI加苹果,AI手机势不可挡!

    ChatGPT带飞Siri? 当地时间5月13日上午10点,OpenAI在春季发布会上发布了GPT-4的迭代版本——GPT-4o。据悉,GPT-4o的速度是上一代的两倍,并且对用户更友好:语音唤起、实时对话、无需注册、免费使用。 OpenAI表示,GPT-4o及其文本和图像能力即日起将开始向API和用户推出,语音和视频能力即将推出。 从定位来看,全新的旗舰版…

    2024-05-14
    471
  • “微软-OpenAI”模式!中国“AI独角兽”投了个遍,阿里是中国AI最大金主

    “微软-OpenAI”模式作为AI行业最成功投资案例,近些年成为众多公司争相学习的模板。如今阿里便走在相似的道路上,通过云计算入股人工智能,成为了中国AI领域的投资翘楚,有望在全球AI发展浪潮中占据一席之地。 不同于传统的现金投资方式,阿里提供云计算额度,让这些初创企业能够使用训练AI模型所需的宝贵网络资源。 目前阿里已投资多家国内AI初创公司,包括月之暗面…

    2024-05-13
    214
  • 更专注AI和半导体,甚至有意PK英伟达!软银出售部分“愿景基金”资产

    孙正义投资重心转为半导体和人工智能行业了? 5月10日,据媒体报道,软银集团旗下有一个叫做“愿景基金”的旗舰投资基金,它是全球最大的风险投资基金之一,这个基金曾经很喜欢投资初创公司,特别是那些有潜力的科技公司。此前,软银的创始人孙正义对风险投资交易情有独钟,但最近,孙正义改变了策略,他开始减少传统的风险投资,并转向对高科技行业如半导体和人工智能的战略性投资。…

    2024-05-11
    197
  • 报道:OpenAI计划下周一宣布人工智能搜索引擎

    周四,据报道,OpenAI计划于下周一5月13日宣布其基于AI的搜索产品,以期与谷歌搜索竞争。 上周就有多方位消息证实,OpenAI将发布备受瞩目的ChatGPT搜索引擎产品。OpenAI将会在当地时间5月9日上午10点公布该消息,大约是北京时间周五的凌晨2点。据悉,OpenAI将推出搜索网页,search.chatgpt.com域名和相关的SSL证书已经被…

    2024-05-10
    198
  • 谷歌AI药物研发模型AlphaFold重磅升级:预测所有生命分子的结构和相互作用

    谷歌在生物医学领域的人工智能(AI)模型重磅升级,将为加快药物研发做出更大贡献。 美东时间5月8日周三,谷歌宣布,旗下AI研究实验室谷歌DeepMind以及致力于以AI方式提升药物发现的谷歌姊妹公司Isomorphic Labs联合开发了新的AI模型——AlphaFold 3,称是一种“革命性的模型”,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们…

    2024-05-09
    1.5K
  • 抢跑苹果甩平价AI手机王炸!谷歌开卖499美元Pixel 8a,AI功能加持不加价

    苹果的人工智能(AI)手机功能还“犹抱琵琶半遮面”,谷歌就已经抢在苹果前面甩出了自己的平价AI手机王炸。 美东时间5月7日周二,谷歌发布新一代平价智能手机Pixel 8a,并当天开始接受预订。虽然它配置了最先进的谷歌处理器,拥有了一批新的AI功能,但并未上调价格,起售价和前代一样仍为499美元。同时,谷歌还发布了新版平板电脑Pxel,不配支架的平板售价399…

    2024-05-08
    1.4K
  • 微软准备推出新款自研AI模型 硬刚谷歌、Anthropic以及OpenAI

    媒体报道,微软公司目前正在开发自家的人工智能模型,与谷歌、Anthropic以及OpenAI竞争。 据了解,这是自从微软向OpenAI投资超过100亿美元以重新获得后者人工智能模型的使用权以来,微软首次开始训练一个规模足够大的内部AI模型。这个新模型在内部被称为MAI-1,由Mustafa Suleyman负责,他曾是谷歌AI的负责人,此前也担任AI初创公司…

    2024-05-07
    1.5K
  • 高盛:上周对冲基金科技股买入力度为一年多以来最大

    高盛的大宗经纪业务数据显示,从上周情况来看,被认为是“聪明钱”的对冲基金对科技股的风险偏好并没有丧失,这一群体以一年多以来最快的速度抢购科技股,对科技股的净买入创下2022年12月以来最大,主要是由于多头仓位增加和空头回补推动。这也是对冲基金连续第四周净买入科技股。 事实上,标普500信息科技指数在上周之前的时间里表现疲软,4月的大部分时间都在下跌,主要是由…

    2024-04-30
    1
  • 禾赛发起一场“科技平权”

    作者 | 郑巧 编辑 | 周智宇 北京国际汽车展览会上,比亚迪董事长王传福来到了小米汽车展台,小米董事长雷军指着自家SU7问王传福,“您没看过这么好看的激光雷达吧?”引得现场一片哄笑。 随后雷军解释,这是禾赛科技为小米SU7定做的激光雷达。在北京车展上,从百万级的路特斯EMEYA,到25-45万的理想L系列,在智驾上都离不开禾赛科技的激光雷达。甚至16万出头…

    2024-04-29
    4
  • 深蓝要和华为联手挑战特斯拉

    华为造车军团正以势不可挡之势,极速扩张。 4月25日,深蓝汽车在北京车展上宣布,将携手华为打造比特斯拉更好的智能电动汽车。这一宣言预示着深蓝汽车在智能电动出行领域的雄心壮志。此前一天,深蓝汽车 CEO 邓承浩还现身华为发布会。这意味着在阿维塔之外,长安汽车和华为的合作正更加深入。 邓承浩自信地表示,深蓝+华为,一定能超越特斯拉。 华尔街见闻了解到,双方的合作…

    2024-04-28
    3
  • “每季度100亿美元”成为AI大战入场券!三巨头电话会总结:“撒钱”极为坚决!

    世界上排名靠前的几个科技公司已斥资数十亿美金投入AI革命。现在,他们计划再投入数百亿资金。 在本周的季度财报电话会上,Meta、谷歌和微软都强调了他们对AI的投资规模。周三,Meta将其今年的资本支出预测上调了100亿美金,全年上升至350亿到400亿美金。周四,谷歌首席财务官Ruth Porat表示,该公司今年每个季度将在资本支出上花费约120亿美金或更多…

    2024-04-26
    7
  • OpenAI“尝鲜”:收到英伟达全球首部DGX H200 AI超算

    英伟达号称开创先河的人工智能(AI)超级计算机DGX H200正式交付,OpenAI喝到了“头啖汤”。 美东时间4月24日周三,OpenAI总裁兼联合创始人Greg Brockman在社交媒体X透露,英伟达向OpenAI移交全球第一部DGX H200,并附上在交付现场他和OpenAI CEO 奥特曼以及英伟达CEO黄仁勋的合照。Brockman称,这部黄仁勋…

    2024-04-25
    4