全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

新智元报道

编辑:编辑部

【新智元导读】两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经超过OpenAI了,还给员工承诺了价值2亿期权,这是要上天?

马斯克的xAI一路狂飙突进,把Sam Altman都整怕了!

就在9月3日,马斯克在推上得意自曝:

团队仅仅用了122天时间,就建成了有10万张H100的Colossus集群,是世界上最强大的AI训练系统。

而且,未来几个月规模还要翻一倍,扩展到15万张H100+5万张H200。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

最后,马斯克感谢了英伟达和许多其他合作伙伴、供应商。据悉,是戴尔开发、组装了Colossus系统。

马斯克的xAI,已经让几大AI巨头感受到了强烈的威胁。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

根据内幕消息,Sam Altman就曾表示,自己是怕了马斯克了!

如今的xAI,不光算力有超越OpenAI之势,还对员工十分大方。有说法指出,对于xAI的研究者,马老板曾承诺过价值2亿美元的期权。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

马斯克,全力进军超算

相信大家都已经发现:马斯克的超算野心,是愈发藏不住了!

隔三岔五的,就会有劲爆消息曝出。

7月底,xAI启动了位于孟菲斯的超级AI集群的训练,该集群由十万个液冷H100 GPU组成。

十万个H100 GPU消耗的电力大约在70兆瓦,因此这个超算至少会消耗150兆瓦的电力。

8月底,特斯拉宣布了Cortex AI集群,包括5万个英伟达H100 GPU,和2万个特斯拉的Dojo AI晶圆级芯片。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

如今看来,这些集群很可能都正式投入运行,甚至已经在训练AI模型了。

不过,马斯克真的有能力让它们全部在线吗?

首要问题是,要调试和优化这些集群的设置,需要一定时间。

其次,xAI还得确保它们获得足够的电力。

我们知道,虽然马斯克的公司一直在用14台独立发电机为其供电,但要为十万块H100 GPU供电,这些电力显然不够。

训练xAI的Grok 2,需要两万块H100;而马斯克预测,要训练Grok 3,可能会需要十万块H100。

所以,xAI的数据中心,建得怎么庞大都不过分。

建设速度太快,推测是「部分上线」

122天,也就是4个月的时间,建成10万张H100组成的超算集群,这是个什么速度?

有业内人士表示,通常完成这样一个集群可能需要一年时间。

这个速度,这个规模,很马斯克。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

但也有人猜测,他可能有夸大其词的倾向,高估了在单一集群中实际运行的GPU数量。

囤足10万张芯片、放在一起共同运行,并不意味着就是单一集群。

论GPU数量,Meta在今年1月就已经计划采购35万张H100,但实际运行时是分成了不同集群。

之所以还没有其他公司能造出10万GPU规模的集群,很难说是因为缺钱,更重要的因素是网络解决方案。

串联起所有GPU的网络,需要保证足够的高带宽、低延迟和可靠性,才能让10万张芯片协同起来像一台计算机一样工作。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

Colossus是二战期间第一台可编程计算机,也曾在科幻电影里登场

除了网络,还有电力问题。

马斯克此前表示,Colossus在6月底已经启动运行,当时,电力公司供应的最高功率只有几兆瓦,仅能供应数千个GPU同时运行。

电力公司表示,到8月,xAI将获得大约50兆瓦的电力,但这只能供应大约5万个芯片。

与此同时,现场即将建成的另一个发电站将提供另外150兆瓦,可以满足10万个或更多芯片的电力需求,但要到明年才能实现。

马斯克似乎找到了一个短期解决方案:引入化石能源发电机。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

Colossus所在地,田纳西州孟菲斯的环保组织前几天刚刚写信控诉马斯克,指责他在没有许可的情况下安装了至少18台涡轮机(可能更多),加剧了当地的空气污染。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

出于网络和电力两方面的限制因素,The Information指出,马斯克的这个集群可能只是「部分完成」

除了Colossus和微软在凤凰城为OpenAI建造的超算集群,多个类似的集群也正处在研发和建设过程中。

奥特曼:微软爸爸,我们的算力不够了

尽管如此,马斯克这个超大集群的进展,还是让一些竞争对手极度担心!

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

其中一位,就是OpenAI的CEO Sam Altman。

根据内部消息,奥特曼已经向一些微软高管透露了自己的担忧——

他十分担心,xAI很快就拥有比OpenAI更多的算力!

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

虽然为OpenAI提供算力的微软老大哥,资金实力非常雄厚,但作为上市公司,微软在花费资金时,还需要对公众股东负责。

但马斯克则完全没有这样的限制,尽管他的资金不如微软。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

甭管马斯克有多少吹牛的成分,即使能部分完成Colossus集群的建成,也是一件令人印象深刻的事。

外媒The Information猜测,马斯克这种神奇的赶工速度,是否放弃了传统的例行安全检查?

毕竟,如果按例检查的话,可能会让数据中心项目的竣工延迟数月。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

而且,The Information还发现了一个「华点」:Colossus位于以前的制造工厂内,这可不是适合高性能计算的理想场所。

微软和英伟达的高管透露,这是他们最不愿意放置昂贵硬件的地点之一。

因为这些地方很难改造,来适应服务器耗费的巨大电量,和数据中心设备需要的冷却技术。

咱们都知道,马老板一向喜欢突破边界,而在质疑声纷至沓来时,他又经常被证明是正确的。

最近在xAI的姊妹公司X,马斯克又有了一个惊人之举:关闭了一个数据中心。

当时大家都担心,X会因此而崩溃。结果谁也没想到,X运行得很好,马斯克居然有如此先见之明。

而这次,马斯克在田纳西州的超算,也同样可能会对AI开发者振聋发聩——

或许他们会发现,传统的做事方式如今已经过时了。

两家神秘AI巨头,正计划打造1250亿美元超算

如今,数据中心之战,竞争还在火热加剧!至少有六大巨头,已经下场了。

根据北达科他州官员的披露,除了微软、OpenAI和xAI,还有两家AI巨头也正在酝酿建造「巨型AI数据中心」。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

这两家公司找到了商务专员Josh Teigen和州长Doug Burgum,商讨建立巨型AI数据中心。

除了技术研发,这类数据中心也对资源和基础设施提出了很高的要求。

不仅需要采购足够的芯片和相关设备,还要留出数万英亩的土地、建设新的发电设施。

马斯克的Colossus要自建发电站才能弄出200兆瓦,而这两家公司可能是因为直接找上了州长,他们的初始电力就能达到500~1000兆瓦,并计划在几年内扩增至5k~1w兆瓦。

这些项目的规模将比现有的任何数据中心,包括Colossus都扩大几个数量级。

100兆瓦可以为7万至10万个家庭供电;去年微软Azure的全球数据中心总共使用了大约5吉瓦(5k兆瓦)的电力。

这就意味着,一个数据中心,可能和整个Azure云服务平台的耗电量相当。

根据会议的音频记录,这类规模的项目耗资可能超过1250亿美元。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

在对外会议上,商务专员Teigen没有透露这两家神秘AI巨头的名字,但他表示市值达到了「一万亿美元」。

这就将潜在名单缩小到了美国的大约6家公司,七巨头之六——英伟达、亚马逊、微软、谷歌、Meta和苹果。

微软此前就和OpenAI讨论过建造价值1000亿美元的「星际之门」(Stargate),而且北达科他州长Doug Burgum曾是微软的高管,在2001年以11亿美元向微软出售过自己的一家软件公司。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

但我们也知道,谷歌和亚马逊等其他公司也在积极提升其AI计算能力。

揭开美国AI超算的神秘面纱

AI巨头一向对尖端技术严格保密,但他们对开发数据中心所需的技术,保密程度有过之而无不及。

The Information列出了在美国7个州运营或计划中的17个超算数据中心,涉及微软、OpenAI、Meta和xAI等公司。

总的来说,仍在开发或计划阶段的设施建设成本可能超过500亿美元,其中包括约350亿美元的英伟达芯片,以及运营所需的额外数十亿美元。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

这些超算估计在数年时间内落成,并需要大量的芯片、土地和电力。

在ChatGPT问世前,GPU集群通常只包含几千个芯片。如今,一些最大的GPU集群拥有超过3万个芯片,上面提到的这些超算更是达到了前所未有的规模。

要为所有计划中的数据中心供电,美国能源部预计会出现电力不足的情况,因此最近提出了一些解决方案,例如资助研究使AI计算更高效。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

争夺「下一个高地」

现在,数据中心竞赛的焦点,集中到了英伟达CEO黄仁勋的身上。

就在上周,老黄发表了以下言论,宛如在业内投入一颗炸弹。

率先达到超算集群下一个高地的人,将实现革命性的AI水平。

此言一出,英伟达的GPU,谁敢不买?

即使已经和博通共同设计出了TPU的谷歌,最近也为英伟达即将推出的Blackwell下了大单。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

对GPU的争夺,已经引发了AI开发者及其云供应商之间的紧张局势,甚至,有时还会引发它们和英伟达的摩擦。

比如,马斯克就曾考虑和甲骨文达成一项大规模协议,根据他的计划,xAI将在未来几年内,花费超过100亿美元租赁英伟达的GPU。

而这项谈判最终破裂了,部分原因在于,马斯克认为甲骨文无法足够快地建起超算,而甲骨文则担心,他会把GPU集群放在一个供电不足的地方。

芯片多多,问题多多

很多超大的GPU集群都位于土地辽阔、空间充裕且电力充足的地区。例如,马斯克的Colossus特意选址在田纳西州孟菲斯,亚马逊、Meta和微软都在亚利桑那州的凤凰城地区运营AI服务器。

但随着更大的GPU集群需要更多的电力,AI巨头们正计划在非传统数据中心枢纽的地区建造这些集群。

例如,亚马逊最近在宾夕法尼亚州中部的一座核电站旁边购置了土地,计划供应约一吉瓦(1000兆瓦)的电力。

这足以为整个旧金山供电,或者构建多达100万张GPU的集群。

另一个挑战是如何进行设备冷却。

传统上,数据中心一般采用风冷,但GPU服务器产生的热量远远超过传统服务器。

为了更佳的冷却效果,微软在威斯康星州为OpenAI建设的数据中心预计将使用液冷而非风冷。

毕竟,竞家都All In了,你能不上吗?

六巨头割据,群雄逐鹿,谁将夺得下一个超算高地?

内容链接:https://www.hpaper.cn/20669.html

(0)
上一篇 2024-09-05 下午2:53
下一篇 2024-09-05 下午3:00

相关推荐

  • AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎

    “超越人类智慧的AI可以用语言操纵我们,或许会试图说服我们不要关掉开关。” 今年3月,由ChatGPT掀起的AI(人工智能)技术革命背后的奠基性科学家、被誉为“AI教父”的杰弗里·辛顿(Geoffrey E. Hinton),曾对媒体提及他对AI“反噬人类”的担忧。如今,在他心中“危险和机遇并存”的AI,为他带来了诺贝尔物理学奖的荣誉。 当地时间10月8日,…

    12小时前
    1.9K
  • 苹果自动驾驶汽车项目画上句号:加州测试许可被取消

    IT之家 10 月 12 日消息,就在彭博社的马克・古尔曼报道苹果放弃了发布电动汽车的计划六个月后,据 macReports 报道,加州机动车辆管理局(DMV)取消了苹果的自动驾驶车辆测试许可证。 据悉,DMV 于 9 月 25 日收到苹果的确认,同意取消该许可证,该许可证于 9 月 27 日被取消。这意味着苹果公司持续了十年之久的电动汽车项目被彻底终结,没…

    3天前
    1.1K
  • 大UP质问平台为什么视频越来越糊,答案比问题要复杂得多

    文|王毓婵 编辑|乔芊 10月8日,在全网拥有超千万粉丝的视频创作者@影视飓风发布了一条视频,标题为《清晰度不如4年前!视频变糊是你的错觉吗?》。这条视频揭示了视频平台为降低流量费用支出,通过降低码率和调整编码格式压缩视频画质的现象。 “2024年,4K视频你应该已经司空见惯。各家平台争先恐后在画质上做文章,我们也在不断更新设备,提升节目的质量。但我们在平台…

    4天前
    1.5K
  • 特斯拉“命运日”即将到来:Robotaxi能否帮马斯克“翻身”?

    财联社10月10日讯(编辑 刘蕊)不到24小时之后,特斯拉将成为全球瞩目的焦点:特斯拉将在加利福尼亚州伯班克华纳兄弟工作室举行“Robotaxi Day”活动。届时,众多投资者和分析师们将看到期待已久的自动驾驶出租车Cybercab及其他产品的发布。 随着“Robotaxi Day”活动的逐步临近,特斯拉股价也在过去几周持续上涨,几乎抹平了年内跌幅——这也表…

    5天前
    2.7K
  • 又发布两款新车的富士康还没在全新领域找到获胜之道

    致力于在电动汽车领域开辟新增长曲线的富士康发布两款全新电动汽车,将其乘用车产品阵容扩充至MPV领域。 10月8日,在一年一度的鸿海科技日上,富士康推出MPV车型Model D和中型电动巴士Model U。该MPV新车强调宽敞的内部空间,轴距达到3.2米。在800V电子电气架构的支持下,预计WLTP续航里程约为660公里。 富士康依然与意大利车身制造商宾尼法利…

    6天前
    1.6K
  • 33亿增资,合肥为什么再次“抄底”蔚来?

    作为中国第一家在美国上市的电动车企,蔚来一度面临崩溃的边缘。 2019年年底,蔚来的股价触及1.32美元的低点,市值距离高点蒸发80%以上。 高瓴清空了蔚来股票,红杉也选择了减仓。 当时的李斌四处奔走请客吃饭,想为蔚来寻求融资输血。 一个故事是,一家国资的老总在席间直斥李斌”乱花钱”。 所谓的乱花钱,是指当时的新能源车企几乎都依赖补贴…

    2024-10-08
    16
  • 跨国车企销量都跌了,为何仅欧美“狂”裁员?

    自今年以来,欧美汽车企业掀起了一股裁员浪潮。 福特、特斯拉、通用汽车、大众集团、Stellantis集团等跨国车企相继宣布裁员计划。车企本次裁员人数大多在千人以上,其中大众集团(正在与工会谈判中)和特斯拉更是超过万人规模。 这股寒流已经蔓延至零部件供应链。芯片制造商英飞凌、充电设备制造商Blink Charging、瑞典电池制造商Northvolt等零部件企…

    2024-09-30
    10
  • 7.99万就能提车的Model Y,还顶得住新势力的围攻吗

    9月27日,特斯拉上海超级工厂迎来第100万辆车下线。 从一片泥洼地到变成全球电动汽车巨头最大的海外基地,特斯拉上海工厂在不到4年时间里实现了产能和制造工艺的双双飞跃。 而随着特斯拉副总裁陶琳在社交媒体上写下“感谢每一位新老车主的爱和支持”的同时,这家电动车公司正在被它从前的一众门徒视为必须要跨越的门槛,9月集中上市的新车乐道L60、极氪7X等尤为雄心勃勃。…

    2024-09-29
    31
  • 逼退张大奕的退货率,让丰巢一年狂揽9个亿

    9月19日,曾经的“淘宝女装第一人”张大奕用小号发微博称,她将无限期延迟十年老店“吾欢喜的衣橱”的上新,宣告了这个曾经最火的淘宝女装店将关店。她称闭店是因为女装毛利微薄支撑不了各项运营成本,以及,电商越来越高的退货率。 就在张大奕宣布关店的三周前,丰巢刚刚向港交所提交招股书,寻求以250亿元的估值上市。招股书显示,连亏八年的丰巢终于在2024年前5个月有了7…

    2024-09-27
    964
  • OpenAI高层再震荡:CTO官宣离职,Sora恐长期停滞?| 最前线

    文|袁滢靓 编辑|邓咏仪 北京时间9月26日凌晨3点,OpenAI 首席技术官(CTO)Mira Murati在X上官宣辞职。那张成就了ChatGPT时代的四人合照,如今两个离职,一人休假,只剩下Altman一人扮演独角戏了。 △图源:X网友 @brewmarkets OpenAI的腥风血雨体质,也在另一方面体现了什么是“明星”公司。前脚GPT-4o高级语音…

    2024-09-26
    35
  • TikTok Shop鏖战美区,内容电商的蛰伏与加速

    TikTok Shop的内容电商,能给全球商家带来新一个增长奇迹吗? 文 | 华商韬略 梁梁 跨境电商正在重新定义全球电商格局。 过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以核心电商平台为节点链接的全球商业网络。 这是一张史无前例的商业大网,它已经而且还在加速改变全球贸易和消费的格局,并且这张网还在不断进化与分化…

    2024-09-25
    1.4K
  • 华为三折叠黄牛价雪崩:从加近十万到仅加四千,黄牛气懵了

    正式发售不到48小时,华为三折叠屏手机Mate XT非凡大师黄牛价就崩了。 9月22日,很多数码博主在社交平台上发视频称,Mate XT三折叠手机价格雪崩,从加价六七万甚至十几万,暴跌至加价四千、两千。 甚至到了“每小时一个价”、“你要买我肯定有货;但你要卖我打死不收”的地步。 官方途径购买线上每天要“蹲点”抢‍‍‍‍‍‍‍‍线下无现货需排队几万人等待 ‍‍…

    2024-09-24
    2.2K
  • 马斯克终于“投降”,“我们的主权不容出售!”

    【文/观察者网专栏作者 蒂亚戈·诺加拉,翻译/ 陈佳芮】 在无视巴西最高法院的命令三周之后,马斯克终于“投降”,作出重大让步。 当地时间9月20日,在一份法庭文件中,社交平台X(原推特)公司的律师表示,X平台已遵守巴西最高法院的相关命令,希望法院能解除对其X平台在巴西境内的禁令。 有意思的是,在这次“X事件”中,一度曾是削弱国家主权和民主机构国际干预堡垒的巴…

    2024-09-23
    7.5K
  • 李斌的“县县通”,蔚来的新未来

    出品|网易科技《态度》栏目 作者|定西 这个中秋假期,李斌有点忙。 为了推进充电县县通和换电县县通计划的落地,他来到该计划最难的地方之一新疆进行实地考察。 时间紧迫。蔚来计划在2025年6月30日前,完成除台湾地区、香港特别行政区外,全国所有县级行政区充电桩全覆盖。今年10月前完成新疆14个地级行政区充电全覆盖,包框乌鲁木齐、克拉玛依、哈密、吐鲁番、昌吉、伊…

    2024-09-20
    1.3K
  • 小鹏回应MONA M03自动泊车撞上奥迪:不排除光线等因素致弱势场景

    IT之家 9 月 18 日消息,近期一起“小鹏 MONA M03 自动泊车撞上奥迪汽车”的事故,引起了IT之家网友的关注。据每日经济新闻今天下午报道,小鹏汽车相关负责人就此事回应称,“公司售后同学已经联系上客户,在积极处理解决中。” 关于自动泊车状态下发生剐蹭的原因,该负责人表示,目前不排除因光线及其他因素导致的弱势场景,具体原因还要结合具体的数据进行分析。…

    2024-09-18
    3.5K
  • 华为三折叠,炸出570万「黄牛」

    「核心提示」人人争当黄牛背后,是三折叠手机备受追捧。沉积的手机市场,太需要这样的“王炸”来唤醒了。 作者 | 陈法善 编辑 | 刘杨 备货量100万台,发布四天就有近570万人预约,华为三折叠手机Mate XT注定是今年最难抢的手机。 要知道,根据IDC的统计,2023年中国折叠屏手机总出货量约700.7万台。也就是说,华为这一个单品,就…

    2024-09-14
    1.1K
  • 比亚迪员工总数突破 90 万,技术研发人员近 11 万全球车企第一

    IT之家 9 月 13 日消息,比亚迪集团品牌及公关处总经理李云飞今日在微博上透露,今天,比亚迪员工总数突破 90 万,是 5300 多家 A 股上市公司里员工人数最多的,比第二名还要多 40 多万人。 李云飞还表示:“比亚迪 90 万员工中,技术研发人员近 11 万,是全球研发人员最多的车企。过去两年还招聘了近 5 万名优秀应届大学生,持续助力大学生就业。…

    2024-09-13
    531
  • 从Vertu到8848,奢侈品手机为何全军覆没

    华为三折叠终于发布了,19999元起售。 主要噱头是比折叠还多一折,但也引起了互联网的广泛争论。 在争论之中,黄牛早已率先抢购。 据网上消息,黄牛把三折叠已经炒到了一台65万。 一台38万,有人为了提升销量,黄牛给出的利好是全国可飞。 大家都知道这个溢价不可持续。可大家的疑惑点在于,华为三折叠的受众是谁? 为何有种魔幻的吸引力? 如果堆科技参数。 我可以告诉…

    2024-09-12
    784
  • 苹果谷歌的合作关系正在升级?苹果新推视觉搜索功能

    财联社9月11日讯(编辑 周子意)苹果在9月9日的发布会上推出了视觉搜索功能——“视觉智能(Visual Intelligence)”,这一功能提供了一种与软件和服务交互的新范式,也为其搜索引入了新的模式。 苹果将“视觉智能”描述为一种即时了解你所看到的一切的方式。发布会上,苹果解释称,“视觉智能”功能可以被用来做更多的事情,它不仅仅是一种帮助用户了解相机视…

    2024-09-11
    2.4K
  • 外媒评苹果新品发布会:AI或助苹果在中国保持竞争力

    9月10日消息,美国时间周一,苹果在2024秋季新品发布会上推出了最新款iPhone、Watch和AirPods等硬件产品。iPhone 16系列毫无疑问再次成为焦点。苹果押注,人工智能支持的iPhone将有助于提振销量,保持在中国市场的竞争力。以下是主流媒体对苹果发布会的点评: 路透社:AI助力苹果在中国市场保持竞争力 苹果最新发布的iPhone 16系列…

    2024-09-10
    2.2K