英偉達cuda的優(yōu)勢及挑戰(zhàn)
wangdizhe
ds對英偉達的挑戰(zhàn),,并不是簡單的“算法平權”,。。還有開源對閉源的挑戰(zhàn),。,。。如果只是了解ah100或者gb200這種東西,,意義不大,,英偉達的護城河主要是cuda。,。
cuda的故事起步于2006年11月份發(fā)布的geforce8800gtx,。。,。19年前了,,那是一個起點。,。,。。2007年6月份發(fā)布了nv的gpgpu,,cuda出世,。,。這個跳躍是讓顯卡不僅能用在圖像繪制了,也能用在其他方面了
ai的本質,,其實和btc的哈希算法類似,,都是大量的數(shù)學計算。,。,。這也可以解釋為啥近10年金融越來越“數(shù)學化”,包括做對沖的幻方能弄出ds,,也是因為它是最具“金融數(shù)學化底蘊的對沖私募”,。。,。
主要就是transformer那套,,也就是比如從一維的向量到二維的矩陣。,。然后再到三位或高位的張量,。。核心不在于算的多難,,而在于算的題量很大,。。
gpu更像一個“事業(yè)部經(jīng)理”,,而cpu類似于一個“ceo”,。。,。it世界一開始,,ceo比較重要 ,因為機會多多,,需要面面俱到,,就像80-90年代做生意,壓對方向很重要,。,。。但隨著時間發(fā)展,,需要不斷“細分而深化”,,尤其是顯卡計算部分,這部分其實初期是游戲推進的,,但后期科學計算的需求上來了,,把控機會需要更好的“項目經(jīng)理”。,。
Gpu內部有很多邏輯計算單位,,每個單元基本上只做簡單的加減乘除,,靠著分工協(xié)同完成龐大的計算任務。,。,。cuda就是gpu這個項目部經(jīng)理手下的“調度總管”(類似于常務主管)。,。比如計算張量這個活,,就具體分派誰誰來做。,。,。也就是cuda的作用,其實就是“算力調度者”,,它優(yōu)化算法效率。,。,。
這個作用類似于斯隆對通用汽車的管理,也就是在具體的“算力事業(yè)部內”,,cuda這個算力調度者,,甚至有比肩整個事業(yè)部經(jīng)理的實力。,。,。因為所謂的算力,amd也有,,也就是經(jīng)理不稀罕,,調度總管那套管理方法,卻是稀缺的,。,。。
算力管理的優(yōu)化,,也是ds之所以引人矚目的地方,,因為人們認為“算力調度工作”應該在cuda邏輯下優(yōu)化。,。,。但沒想到ds,用了一些方法,,似乎實現(xiàn)了更大的優(yōu)化,,人們好奇的就是它是如何實現(xiàn)的?以及優(yōu)化算力之后,,對于未來算力需求是不是降低,?以及這對于“算力優(yōu)化”世界,,意味著什么?
cuda的好處,,是如果研究者,,只會ai模型的訓練及推理方法,而不會任務分類的話,,也沒事,,nv有cudnn程序庫,這樣玩ai的,,只需要專注于訓練或推論就行了,。。,。因為模型中所有需要任務分類的地方,,cudnn都會自動配置好。,。,。。,。就是cuda不僅配合nv硬件可以發(fā)揮更高更快的算法優(yōu)勢,,而且也幫你做好了“算力分配套件”(也就是任務翻譯),降低了項目開發(fā)的門檻,,等于是一個特殊的“懶人包”,。。,。所以開發(fā)人員都喜歡用,,然后20年過去了,用的人越來越多,,產(chǎn)生生態(tài)影響力和開發(fā)依賴度,。。,。
未來英偉達還要推行量子計算,,比如2023年就推出了cuda quantun平臺,這部分也是為未來布局,。,。其實邏輯核心依然是“并行計算”,也就是用多個處理單元,,同時推進,。。。計算量越大,,越快,,就越容易“大力超快出奇跡”。,。,。從一定程度上,可以理解cuda在gpu領域,,是類似于x86在cpu領域的那種“專利優(yōu)勢”,。。,。
cuda未來就沒有挑戰(zhàn)么,?當然有的,大概4個維度
1,、硬件挑戰(zhàn)
首先基本上,,每個做cpu的,其實都看著做gpu的這么火眼饞,。,。。amd的mi300x使用cpu+gpu的異構結構,,擁有192gbhbm3內存和5.3TB/s帶寬,直接對標英偉達的H100,,價格基本是其三分之一,。。,。然后amd還通過ROCm平臺通過兼容CUDA代碼吸引開發(fā)者,,弱化CUDA生態(tài)。,。,。英特爾雖然遇到困境,但有美國政府撐腰,,也沒閑著,,其GPU加速器結合了Xe架構和開放標準SYCL,通過OneAPI實現(xiàn)跨硬件(CPU/GPU/FPGA)統(tǒng)一編程,,降低對CUDA的依賴,。
然后就是科技巨頭的自研芯片,比如谷歌TPU通過專用張量核心和軟件棧在AI訓練中實現(xiàn)更高能效比,。,。。AWS的自研芯片直接與CUDA生態(tài)脫鉤,挑戰(zhàn)英偉達的云市場份額,。
以及中國勢力的挑戰(zhàn),,主要就是華為昇騰、寒武紀等國產(chǎn)芯片在政策驅動下?lián)屨急就潦袌?,通過兼容PyTorch等框架繞過CUDA綁定,。
最后是硬件架構方面的挑戰(zhàn),尤其是RISC-V與開源硬件架構,,比如Ventana的Veyron正在催生新的開源加速器架構,,進一步分化CUDA的硬件依賴。
2,、軟件挑戰(zhàn)
英偉達的閉源屬具,,讓其必然引來開源的挑戰(zhàn),ds事件其實就是代表之一,。,。。
首先就是開源編譯器的性能逼近,,比如OpenAI Triton,,支持Python編寫GPU內核,在NVIDIA GPU上性能接近CUDA,,同時兼容AMD和英特爾硬件,,成為CUDA的“平替”。,。,。再比如MLIR和LLVM生態(tài),MLIR允許跨硬件優(yōu)化,,開發(fā)者可通過單一代碼庫生成CUDA,、ROCm或SYCL后端,削弱CUDA的工具鏈壟斷,。
然后就是AI框架的硬件抽象化:比如PyTorch 2.0與TorchDynamo,,PyTorch通過編譯器技術自動優(yōu)化計算圖,無需手動編寫CUDA內核即可實現(xiàn)高性能,,降低開發(fā)者對CUDA的依賴,。再比如JAX和XLA編譯器,谷歌JAX的自動并行化和XLA編譯技術可在TPU/GPU間無縫遷移代碼,,形成獨立于CUDA的生態(tài),。
最后是跨平臺標準:比如Vulkan Compute和SYCL等開放標準支持多廠商硬件,未來可能擠壓CUDA的生存空間
3,、cuda本身存在的技術瓶頸
內存墻與通信瓶頸:GPU顯存容量和帶寬增長放緩,,而大模型訓練需要TB級內存,,迫使開發(fā)者轉向分布式計算或多芯片方案,CUDA的單卡優(yōu)化優(yōu)勢被稀釋,。 ,。。其次是NVLink和InfiniBand的私有協(xié)議面臨UCIe(通用芯?;ヂ?lián))等開放標準的競爭,,可能削弱NVIDIA全棧技術的協(xié)同效應。
能效比挑戰(zhàn): 隨著摩爾定律放緩,,單純依靠制程升級提升算力的模式不可持續(xù),。CUDA需在稀疏計算、混合精度等算法層創(chuàng)新,,但競爭對手通過架構革新實現(xiàn)更高能效,。
量子計算與神經(jīng)形態(tài)計算的長期威脅:量子計算在特定領域的突破可能分流HPC需求。,。,。神經(jīng)形態(tài)芯片(如Intel Loihi)更適合脈沖神經(jīng)網(wǎng)絡,這些新型計算范式與CUDA的SIMT模型不兼容,。
4,、市場及政策挑戰(zhàn)
地緣政治與供應鏈風險:美國對華高端GPU出口限制迫使中國廠商加速去CUDA化,華為昇騰的CANN和百度的PaddlePaddle正在逐漸強化替代性生態(tài),。,。未來美國對從香港和新加坡渠道都會加強管理,對華ai芯片營收占到英偉達總量的20-25%,,這部分如果管制加強,,英偉達業(yè)績會受到影響。,。。
云廠商的“去NVIDIA化”策略:AWS,、Azure等云服務商通過自研芯片和多元化硬件方案降低對NVIDIA GPU的采購比例,,CUDA在云端的統(tǒng)治力可能被削弱。
開發(fā)者社區(qū)的遷移成本降低:工具鏈可將CUDA代碼自動轉換為HIP(AMD)或SYCL(Intel),,遷移成本從“月級”降至“天級”,,CUDA的生態(tài)鎖定效應減弱。
英偉達也不傻,,早就看到了這些威脅,,因此也在cuda護城河上做出應對, 大概做了4點應對:
1,、強化全棧優(yōu)勢:首先是軟硬件協(xié)同設計,,通過Grace Hopper超級芯片通過NVLink-C2C實現(xiàn)CPU/GPU內存一致性,提升CUDA在異構計算中的競爭力。,。,。。然后是,,CUDA-X生態(tài)擴展,,集成更多加速庫,覆蓋量子計算和科學計算等新領域,。
2,、擁抱開放標準:有限支持開源編譯器,同時推動NVIDIA貢獻標準組織(如參與MLIR開發(fā)),,避免被邊緣化,。
3、搶占新興場景:首先是重視“邊緣計算”,,通過Jetson平臺和CUDA-on-ARM支持邊緣AI,,應對ROS 2等機器人框架的異構計算需求。,。,。。然后是打造數(shù)字孿生與元宇宙,,Omniverse平臺依賴CUDA實現(xiàn)實時物理仿真,,構建新的技術護城河。
4,、商業(yè)模式創(chuàng)新:打造CUDA-as-a-Service,,通過NGC提供預訓練模型和優(yōu)化容器,增加用戶粘性,。
整體來看,,由于20年技術積累,開發(fā)者的生態(tài)黏性,,以及巨大的遷移成本,。。,。導致cuda護城河當下還比較強大,,追的最快的就是amd,但至少3年內英偉達cuda還是優(yōu)勢明顯,。,。。,。但從seekingalpha等文章反饋來看,,如果cuda被超越或者被追上,。。,。大概有2個臨界預警值:
1,、技術臨界點:當競爭對手的硬件性能超越NVIDIA且軟件生態(tài)成熟度達到80%以上。
2,、經(jīng)濟臨界點:云廠商自研芯片成本低于采購NVIDIA GPU的30%,。
所以要想投資互聯(lián)網(wǎng)或者芯片產(chǎn)業(yè),需要對于技術趨勢有深度了解,,閱讀大量的資料和文獻,。。,。對于“強科技成長”的估值尤其難,,這也是巴菲特基本不碰強成長科技股的原因 。,。,。美股這么貴,我旁觀,。,。。先積累一些知識和資料,,等回調時候方便下手,。。
今日話題 雪球創(chuàng)作者中心
$納斯達克綜合指數(shù)$ $英偉達(NVDA)$ $AMD(AMD)$
隨便看看:
- [熱點]連云港海州區(qū):創(chuàng)新“一老一小”特色養(yǎng)老模式,,持續(xù)擦亮幸福民生
- [熱點]私域運營賦能生鮮行業(yè),,奇麟鮮品探索可持續(xù)發(fā)展之路
- [熱點]想實現(xiàn)快速成長變現(xiàn)?抖鑫官方交付手冊為興趣電商達人賦能
- [熱點]中汽股份301215.SZ:在數(shù)字試驗場建設方面,,已建立數(shù)字
- [熱點]中信、中信建投新任總經(jīng)理行將落定
- [熱點]DeepSeek交易爆火,,AI概念還能不能追高,?丨智氪
- [熱點]CBN丨2024CIIEadvancesglobalopen
- [熱點]低空經(jīng)濟再迎利好,工信部會議要求大力發(fā)展無人化,、電動化,、智能
- [熱點]中國人壽壽險長期保障和服務逾6億人
- [熱點]中金投集團:成都惠信小貸同意向借款人授出本金金額為1500萬
相關推薦:
網(wǎng)友評論:
推薦使用友言,、多說、暢言(需備案后使用)等社會化評論插件