英偉達(dá)cuda的優(yōu)勢及挑戰(zhàn)

作者：網(wǎng)絡(luò) 時(shí)間：2025-02-10 14:40 點(diǎn)擊：次

導(dǎo)讀：wangdizheds對(duì)英偉達(dá)的挑戰(zhàn)，并不是簡單的“算法平權(quán)”,。,。還有開源對(duì)閉源的挑戰(zhàn),。。,。如果只是了解ah100或者gb200這種東西,，意義不大，英偉達(dá)的護(hù)城河主要是cuda,。,。cuda的故事起步于2006年11月份發(fā)布的gefo...

wangdizhe

ds對(duì)英偉達(dá)的挑戰(zhàn)，并不是簡單的“算法平權(quán)”,。,。還有開源對(duì)閉源的挑戰(zhàn)。,。,。如果只是了解ah100或者gb200這種東西，意義不大,，英偉達(dá)的護(hù)城河主要是cuda,。。

cuda的故事起步于2006年11月份發(fā)布的geforce8800gtx,。,。。19年前了,，那是一個(gè)起點(diǎn)。,。,。。2007年6月份發(fā)布了nv的gpgpu,，cuda出世,。。這個(gè)跳躍是讓顯卡不僅能用在圖像繪制了,，也能用在其他方面了

ai的本質(zhì),，其實(shí)和btc的哈希算法類似，都是大量的數(shù)學(xué)計(jì)算,。,。。這也可以解釋為啥近10年金融越來越“數(shù)學(xué)化”,，包括做對(duì)沖的幻方能弄出ds,，也是因?yàn)樗亲罹摺敖鹑跀?shù)學(xué)化底蘊(yùn)的對(duì)沖私募”。,。,。

主要就是transformer那套,，也就是比如從一維的向量到二維的矩陣。,。然后再到三位或高位的張量,。。核心不在于算的多難,，而在于算的題量很大,。。

gpu更像一個(gè)“事業(yè)部經(jīng)理”,，而cpu類似于一個(gè)“ceo”,。。,。it世界一開始,，ceo比較重要，因?yàn)闄C(jī)會(huì)多多,，需要面面俱到,，就像80-90年代做生意，壓對(duì)方向很重要,。,。。但隨著時(shí)間發(fā)展,，需要不斷“細(xì)分而深化”,，尤其是顯卡計(jì)算部分，這部分其實(shí)初期是游戲推進(jìn)的,，但后期科學(xué)計(jì)算的需求上來了,，把控機(jī)會(huì)需要更好的“項(xiàng)目經(jīng)理”。,。

Gpu內(nèi)部有很多邏輯計(jì)算單位,，每個(gè)單元基本上只做簡單的加減乘除，靠著分工協(xié)同完成龐大的計(jì)算任務(wù),。,。。cuda就是gpu這個(gè)項(xiàng)目部經(jīng)理手下的“調(diào)度總管”(類似于常務(wù)主管),。,。比如計(jì)算張量這個(gè)活，就具體分派誰誰來做,。,。。也就是cuda的作用，其實(shí)就是“算力調(diào)度者”,，它優(yōu)化算法效率,。。,。

這個(gè)作用類似于斯隆對(duì)通用汽車的管理,，也就是在具體的“算力事業(yè)部內(nèi)”，cuda這個(gè)算力調(diào)度者,，甚至有比肩整個(gè)事業(yè)部經(jīng)理的實(shí)力,。。,。因?yàn)樗^的算力,，amd也有，也就是經(jīng)理不稀罕,，調(diào)度總管那套管理方法,，卻是稀缺的。,。,。

算力管理的優(yōu)化，也是ds之所以引人矚目的地方,，因?yàn)槿藗冋J(rèn)為“算力調(diào)度工作”應(yīng)該在cuda邏輯下優(yōu)化,。。,。但沒想到ds,，用了一些方法，似乎實(shí)現(xiàn)了更大的優(yōu)化,，人們好奇的就是它是如何實(shí)現(xiàn)的,？以及優(yōu)化算力之后，對(duì)于未來算力需求是不是降低,？以及這對(duì)于“算力優(yōu)化”世界，意味著什么,？

cuda的好處,，是如果研究者，只會(huì)ai模型的訓(xùn)練及推理方法,，而不會(huì)任務(wù)分類的話,，也沒事，nv有cudnn程序庫,，這樣玩ai的,，只需要專注于訓(xùn)練或推論就行了。,。,。因?yàn)槟Ｐ椭兴行枰蝿?wù)分類的地方,，cudnn都會(huì)自動(dòng)配置好。,。,。。,。就是cuda不僅配合nv硬件可以發(fā)揮更高更快的算法優(yōu)勢,，而且也幫你做好了“算力分配套件”(也就是任務(wù)翻譯)，降低了項(xiàng)目開發(fā)的門檻,，等于是一個(gè)特殊的“懶人包”,。。,。所以開發(fā)人員都喜歡用,，然后20年過去了，用的人越來越多,，產(chǎn)生生態(tài)影響力和開發(fā)依賴度,。。,。

未來英偉達(dá)還要推行量子計(jì)算,，比如2023年就推出了cuda quantun平臺(tái)，這部分也是為未來布局,。,。其實(shí)邏輯核心依然是“并行計(jì)算”，也就是用多個(gè)處理單元,，同時(shí)推進(jìn),。。,。計(jì)算量越大,，越快，就越容易“大力超快出奇跡”,。,。。從一定程度上,，可以理解cuda在gpu領(lǐng)域,，是類似于x86在cpu領(lǐng)域的那種“專利優(yōu)勢”。,。,。

cuda未來就沒有挑戰(zhàn)么？當(dāng)然有的，大概4個(gè)維度

1,、硬件挑戰(zhàn)

首先基本上,，每個(gè)做cpu的，其實(shí)都看著做gpu的這么火眼饞,。,。。amd的mi300x使用cpu+gpu的異構(gòu)結(jié)構(gòu),，擁有192gbhbm3內(nèi)存和5.3TB/s帶寬,，直接對(duì)標(biāo)英偉達(dá)的H100，價(jià)格基本是其三分之一,。,。。然后amd還通過ROCm平臺(tái)通過兼容CUDA代碼吸引開發(fā)者,，弱化CUDA生態(tài),。。,。英特爾雖然遇到困境,，但有美國政府撐腰，也沒閑著,，其GPU加速器結(jié)合了Xe架構(gòu)和開放標(biāo)準(zhǔn)SYCL,，通過OneAPI實(shí)現(xiàn)跨硬件(CPU/GPU/FPGA)統(tǒng)一編程，降低對(duì)CUDA的依賴,。

然后就是科技巨頭的自研芯片,，比如谷歌TPU通過專用張量核心和軟件棧在AI訓(xùn)練中實(shí)現(xiàn)更高能效比。,。,。AWS的自研芯片直接與CUDA生態(tài)脫鉤，挑戰(zhàn)英偉達(dá)的云市場份額,。

以及中國勢力的挑戰(zhàn),，主要就是華為昇騰、寒武紀(jì)等國產(chǎn)芯片在政策驅(qū)動(dòng)下?lián)屨急就潦袌?，通過兼容PyTorch等框架繞過CUDA綁定,。

最后是硬件架構(gòu)方面的挑戰(zhàn)，尤其是RISC-V與開源硬件架構(gòu),，比如Ventana的Veyron正在催生新的開源加速器架構(gòu)，進(jìn)一步分化CUDA的硬件依賴,。

2,、軟件挑戰(zhàn)

英偉達(dá)的閉源屬具，讓其必然引來開源的挑戰(zhàn)，ds事件其實(shí)就是代表之一,。。,。

首先就是開源編譯器的性能逼近,，比如OpenAI Triton，支持Python編寫GPU內(nèi)核,，在NVIDIA GPU上性能接近CUDA,，同時(shí)兼容AMD和英特爾硬件，成為CUDA的“平替”,。,。。再比如MLIR和LLVM生態(tài),，MLIR允許跨硬件優(yōu)化,，開發(fā)者可通過單一代碼庫生成CUDA、ROCm或SYCL后端,，削弱CUDA的工具鏈壟斷,。

然后就是AI框架的硬件抽象化:比如PyTorch 2.0與TorchDynamo，PyTorch通過編譯器技術(shù)自動(dòng)優(yōu)化計(jì)算圖,，無需手動(dòng)編寫CUDA內(nèi)核即可實(shí)現(xiàn)高性能,，降低開發(fā)者對(duì)CUDA的依賴。再比如JAX和XLA編譯器,，谷歌JAX的自動(dòng)并行化和XLA編譯技術(shù)可在TPU/GPU間無縫遷移代碼,，形成獨(dú)立于CUDA的生態(tài)。

最后是跨平臺(tái)標(biāo)準(zhǔn):比如Vulkan Compute和SYCL等開放標(biāo)準(zhǔn)支持多廠商硬件,，未來可能擠壓CUDA的生存空間

3,、cuda本身存在的技術(shù)瓶頸

內(nèi)存墻與通信瓶頸:GPU顯存容量和帶寬增長放緩，而大模型訓(xùn)練需要TB級(jí)內(nèi)存,，迫使開發(fā)者轉(zhuǎn)向分布式計(jì)算或多芯片方案,，CUDA的單卡優(yōu)化優(yōu)勢被稀釋。 ,。,。其次是NVLink和InfiniBand的私有協(xié)議面臨UCIe(通用芯粒互聯(lián))等開放標(biāo)準(zhǔn)的競爭,，可能削弱NVIDIA全棧技術(shù)的協(xié)同效應(yīng)。

能效比挑戰(zhàn): 隨著摩爾定律放緩,，單純依靠制程升級(jí)提升算力的模式不可持續(xù),。CUDA需在稀疏計(jì)算,、混合精度等算法層創(chuàng)新，但競爭對(duì)手通過架構(gòu)革新實(shí)現(xiàn)更高能效,。

量子計(jì)算與神經(jīng)形態(tài)計(jì)算的長期威脅:量子計(jì)算在特定領(lǐng)域的突破可能分流HPC需求,。。,。神經(jīng)形態(tài)芯片(如Intel Loihi)更適合脈沖神經(jīng)網(wǎng)絡(luò)，這些新型計(jì)算范式與CUDA的SIMT模型不兼容,。

4,、市場及政策挑戰(zhàn)

地緣政治與供應(yīng)鏈風(fēng)險(xiǎn):美國對(duì)華高端GPU出口限制迫使中國廠商加速去CUDA化,，華為昇騰的CANN和百度的PaddlePaddle正在逐漸強(qiáng)化替代性生態(tài),。。未來美國對(duì)從香港和新加坡渠道都會(huì)加強(qiáng)管理,，對(duì)華ai芯片營收占到英偉達(dá)總量的20-25%,，這部分如果管制加強(qiáng)，英偉達(dá)業(yè)績會(huì)受到影響,。。,。

云廠商的“去NVIDIA化”策略:AWS,、Azure等云服務(wù)商通過自研芯片和多元化硬件方案降低對(duì)NVIDIA GPU的采購比例，CUDA在云端的統(tǒng)治力可能被削弱,。

開發(fā)者社區(qū)的遷移成本降低:工具鏈可將CUDA代碼自動(dòng)轉(zhuǎn)換為HIP(AMD)或SYCL(Intel)，遷移成本從“月級(jí)”降至“天級(jí)”,，CUDA的生態(tài)鎖定效應(yīng)減弱,。

英偉達(dá)也不傻,，早就看到了這些威脅,，因此也在cuda護(hù)城河上做出應(yīng)對(duì)，大概做了4點(diǎn)應(yīng)對(duì):

1,、強(qiáng)化全棧優(yōu)勢:首先是軟硬件協(xié)同設(shè)計(jì),，通過Grace Hopper超級(jí)芯片通過NVLink-C2C實(shí)現(xiàn)CPU/GPU內(nèi)存一致性，提升CUDA在異構(gòu)計(jì)算中的競爭力,。,。。,。然后是,，CUDA-X生態(tài)擴(kuò)展,，集成更多加速庫，覆蓋量子計(jì)算和科學(xué)計(jì)算等新領(lǐng)域,。

2、擁抱開放標(biāo)準(zhǔn):有限支持開源編譯器,，同時(shí)推動(dòng)NVIDIA貢獻(xiàn)標(biāo)準(zhǔn)組織(如參與MLIR開發(fā)),，避免被邊緣化。

3,、搶占新興場景:首先是重視“邊緣計(jì)算”,，通過Jetson平臺(tái)和CUDA-on-ARM支持邊緣AI，應(yīng)對(duì)ROS 2等機(jī)器人框架的異構(gòu)計(jì)算需求,。,。。,。然后是打造數(shù)字孿生與元宇宙，Omniverse平臺(tái)依賴CUDA實(shí)現(xiàn)實(shí)時(shí)物理仿真,，構(gòu)建新的技術(shù)護(hù)城河,。

4、商業(yè)模式創(chuàng)新:打造CUDA-as-a-Service,，通過NGC提供預(yù)訓(xùn)練模型和優(yōu)化容器,，增加用戶粘性。

整體來看,，由于20年技術(shù)積累,，開發(fā)者的生態(tài)黏性，以及巨大的遷移成本,。,。。導(dǎo)致cuda護(hù)城河當(dāng)下還比較強(qiáng)大,，追的最快的就是amd,，但至少3年內(nèi)英偉達(dá)cuda還是優(yōu)勢明顯。,。,。。但從seekingalpha等文章反饋來看,，如果cuda被超越或者被追上,。。,。大概有2個(gè)臨界預(yù)警值:

1,、技術(shù)臨界點(diǎn):當(dāng)競爭對(duì)手的硬件性能超越NVIDIA且軟件生態(tài)成熟度達(dá)到80%以上,。

2、經(jīng)濟(jì)臨界點(diǎn):云廠商自研芯片成本低于采購NVIDIA GPU的30%,。

所以要想投資互聯(lián)網(wǎng)或者芯片產(chǎn)業(yè),，需要對(duì)于技術(shù)趨勢有深度了解，閱讀大量的資料和文獻(xiàn),。,。。對(duì)于“強(qiáng)科技成長”的估值尤其難,，這也是巴菲特基本不碰強(qiáng)成長科技股的原因 ,。。,。美股這么貴,，我旁觀。,。,。先積累一些知識(shí)和資料，等回調(diào)時(shí)候方便下手,。,。

今日話題雪球創(chuàng)作者中心

$納斯達(dá)克綜合指數(shù)$ $英偉達(dá)(NVDA)$ $AMD(AMD)$

打賞

感謝您的支持,，我會(huì)繼續(xù)努力的!

掃碼打賞,，你說多少就多少

打開支付寶掃一掃，即可進(jìn)行掃碼打賞哦

上一篇：崇啟公鐵長江大橋最新進(jìn)展,！
下一篇：兩部門深化新能源上網(wǎng)電價(jià)市場化改革

隨便看看：

相關(guān)推薦：

網(wǎng)友評(píng)論：

推薦使用友言,、多說、暢言(需備案后使用)等社會(huì)化評(píng)論插件

欄目分類