就在埃隆·馬斯克xAI集群首次曝光后,小扎也迫不及待在Meta的業(yè)績(jī)發(fā)布會(huì)上表示,Llama 4背后服務(wù)器集群的實(shí)力“比我見(jiàn)過(guò)的任何報(bào)道中其他人正在做的(規(guī)模)要大”。這番言論無(wú)疑是對(duì)埃隆·馬斯克“地表最強(qiáng)的AI集群”的正面回應(yīng)。
在科技巨頭們開(kāi)啟算力競(jìng)賽時(shí)代,英偉達(dá)的GPU成為巨頭們的“糧草”。本文就來(lái)看看英偉達(dá)的大客戶們AI之戰(zhàn)的囤糧情況。
巨頭血拼H100
“前”地表最強(qiáng)——AI
2023年7月14日,馬斯克在個(gè)人推特賬號(hào)宣布新公司定名為xAI,并于同日舉行Twitter空間會(huì)議。新成立的xAI公司會(huì)與Twitter和特斯拉緊密合作 ,其中一個(gè)目標(biāo)是打造能進(jìn)行高階邏輯推理的人工智能模型,并超越市面上其他模型。
四個(gè)月后,xAI宣布推出Grok,稱此模型“最大限度地造福全人類,并將是任何人的強(qiáng)大的研究助理?!?/p>
2024年9月xAI推出Colossus 100k H100 訓(xùn)練集群。馬斯克在 X 上稱,它是“世界上最強(qiáng)大的人工智能訓(xùn)練系統(tǒng)。此外,它的規(guī)模將在幾個(gè)月內(nèi)翻一番,達(dá)到 200k(50k H200x)。”
2024年10月,埃隆·馬斯克的新項(xiàng)目 Colossus AI超級(jí)計(jì)算機(jī)第一次被詳細(xì)介紹。一則視頻展示了其包含10萬(wàn)臺(tái)GPU集群的內(nèi)部結(jié)構(gòu)。Colossus 的基本構(gòu)建模塊是 Supermicro 液冷機(jī)架。它由 8 臺(tái) 4U 服務(wù)器組成,每臺(tái)服務(wù)器配備 8 個(gè) NVIDIA H100,每臺(tái)機(jī)架總共有 64 個(gè) GPU。8 臺(tái)這樣的 GPU 服務(wù)器加上一臺(tái)Supermicro 冷卻液分配單元 (CDU)和相關(guān)硬件構(gòu)成了一個(gè) GPU 計(jì)算機(jī)架。每個(gè)HGX H100之間都夾有1U歧管,為服務(wù)器提供所需的液體冷卻。每個(gè)機(jī)架底部還有另一個(gè)Supermicro 4U單元,配備的是冗余泵系統(tǒng)和機(jī)架監(jiān)控系統(tǒng)。
Meta:購(gòu)買35萬(wàn)個(gè)H100
正如前文所說(shuō),在Colossus AI計(jì)算機(jī)視頻流出后,埃隆·馬斯克的“死對(duì)頭”扎克伯格在Meta的業(yè)績(jī)發(fā)布會(huì)上表示自己家的GPU比目前公開(kāi)的數(shù)量都多。
年初,扎克伯格在Instagram上發(fā)表文章稱,計(jì)劃在今年年底前向芯片設(shè)計(jì)商英偉達(dá)購(gòu)買35萬(wàn)個(gè)H100 GPU芯片。Meta首席科學(xué)家楊立昆(Yann LeCun)上個(gè)月在舊金山舉行的一次活動(dòng)中強(qiáng)調(diào)了GPU對(duì)于構(gòu)建通用人工智能(AGI)的重要性。他說(shuō):“如果你認(rèn)為AGI時(shí)代正在到來(lái),你就必須購(gòu)買更多的GPU。這是一場(chǎng)人工智能戰(zhàn)爭(zhēng),而英偉達(dá)正在提供武器?!?/p>