超星未來梁爽:軟硬件協(xié)同優(yōu)化,賦能AI 2.0新時代
近日,第三屆清華大學(xué)汽車芯片設(shè)計及產(chǎn)業(yè)應(yīng)用研討會暨校友論壇在蕪湖成功舉行。作為本次活動的特邀嘉賓,超星未來聯(lián)合創(chuàng)始人,、CEO梁爽博士出席并發(fā)表主題演講《軟硬件協(xié)同優(yōu)化,賦能AI 2.0新時代》,。
大模型是AI 2.0時代的“蒸汽機”
AI+X應(yīng)用落地及邊緣計算將成為關(guān)鍵
自ChatGPT發(fā)布以來,,大模型引爆“第四次工業(yè)革命”,,成為AI 2.0時代的“蒸汽機”,驅(qū)動著千行百業(yè)智能化變革,。保爾·芒圖曾說:“蒸汽機并不創(chuàng)造大工業(yè),,但是它卻為大工業(yè)提供了動力”,大模型也是如此,,本身不會直接創(chuàng)造新的產(chǎn)業(yè),,而是與已有的行業(yè)應(yīng)用場景及數(shù)據(jù)結(jié)合創(chuàng)造價值,。
WAIC 2024落幕后,,有媒體評論:大模型再無新玩家,AGI下半場是計算與應(yīng)用,。梁爽認(rèn)為,,AGI下半場將是AI+X應(yīng)用落地和邊緣計算。AI 1.0時代,,服務(wù)器側(cè)的神經(jīng)網(wǎng)絡(luò)模型,,在安防、智能駕駛等應(yīng)用領(lǐng)域里逐步下沉到邊緣端,,這一趨勢也一定會在AI 2.0的時代再演繹一次,,并且將在智慧城市、汽車,、機器人,、消費電子等領(lǐng)域創(chuàng)造出更為廣闊的增量市場。
回顧AI的演進歷史,可以看到,,AI 1.0時代的主要模式是通過單一模型完成單一任務(wù),,例如安防、人臉識別、語音識別,,以及基于感知-決策-控制分模塊的智能輔助駕駛方案,。梁爽認(rèn)為,現(xiàn)在正進入一個“AI 1.5時代”,,在智能駕駛,、機器人等復(fù)雜系統(tǒng)中,統(tǒng)一用神經(jīng)網(wǎng)絡(luò)完成各個模塊功能的實現(xiàn),,盡量減少人工規(guī)則,,并通過數(shù)據(jù)驅(qū)動的范式提升性能,大幅降低人工處理各種長尾問題的難度,。在AI 2.0時代,,系統(tǒng)將由一個統(tǒng)一的通用基礎(chǔ)大模型來應(yīng)對多源數(shù)據(jù)輸入,完成多種復(fù)雜任務(wù),,這一基礎(chǔ)模型應(yīng)該具備感知萬物,、知曉常識和理解推理的能力,智能駕駛,、機器人的基礎(chǔ)模型本質(zhì)上是同一類基礎(chǔ)模型,。
端到端與大模型上車進行時
智能汽車是邁向通用機器人的必要階段
近年來,智駕系統(tǒng)正在從傳統(tǒng)的單傳感器CNN感知,,逐步升級到多傳感器CNN BEV,,基于Transformer的BEV和Occupancy方案,并正在向端到端大模型演進,。隨著規(guī)控部分逐步模型化,,中間沒有規(guī)則介入,因而在海量高質(zhì)量數(shù)據(jù)驅(qū)動下,,性能天花板會大幅提升,,并大幅降低了應(yīng)對長尾問題的人工參與度,使得軟件工程量最多可下降99%,。此外,,視覺大模型的上車,幫助智駕系統(tǒng)進一步增加了對物理世界復(fù)雜語義的理解,,使駕駛的行為更接近于人,,提升了對未知場景的泛化處理能力。
梁爽指出,智能汽車將是未來邁向通用機器人的一個必要階段,,例如TESLA的Optimus機器人和智能汽車采用了同樣的FSD平臺,,并且在系統(tǒng)配置、功能任務(wù)上相同。雖然兩者的系統(tǒng)組成和迭代升級高度相似,,但機器人的維度更高,、任務(wù)更復(fù)雜,大模型下沉部署到邊緣側(cè)的設(shè)備里,,形成一個“Robot-Brain”,,會成為行業(yè)發(fā)展的關(guān)鍵。
大模型落地邊緣側(cè)存在較大挑戰(zhàn)
軟硬件協(xié)同優(yōu)化是現(xiàn)實可行的落地路徑
過去十年被稱為AI加速器的黃金十年,,CNN加速器的能效已經(jīng)提升到了100TOPS/W級別,。大模型的規(guī)模以及參數(shù)增長速度遠超CNN時代,大幅超出了傳統(tǒng)計算硬件的增長速度,。而當(dāng)前大模型的處理器能效仍小于1TOPS/W,,與邊緣側(cè)應(yīng)用需求存在兩個數(shù)量級的差距,嚴(yán)重限制了大模型的落地,。
(摘選自汪玉教授發(fā)表于2024年1月的報告《端側(cè)大模型推理,,智能芯片的現(xiàn)狀與展望》)
目前很多手機端本地部署的2B以內(nèi)的“小”模型,,在應(yīng)用到邊緣側(cè)場景時,通常會出現(xiàn)歷史信息遺忘等能力限制,,而需求量更大,、效果顯著提升的7B量級以上的大模型,通常難以部署到現(xiàn)有的邊緣側(cè)芯片上,,主要原因包括:(1)傳統(tǒng)架構(gòu)矩陣算力缺口明顯,,大模型中50-80%算力需求在Attention層中的各類矩陣計算,,并且KV矩陣有明顯稀疏性,,需要專項支持;(2)大模型的參數(shù)量和帶寬需求巨大,,單7B級別的浮點模型就需要28GByte的存儲空間,,且權(quán)重的局域性比較低,所以大模型計算處理的過程需要頻繁地對外存進行讀取,,每個Token的帶寬需求都會大于10GB/s,;(3)當(dāng)前架構(gòu)精度類型不足,計算精度傳統(tǒng)的CNN網(wǎng)絡(luò)通??梢杂肐NT8實現(xiàn)較好的處理效果,,而大模型中的各類算子會需要諸如INT4/FP8/BF16等不同精度的計算支持,并且像激活層,、Norm層等的數(shù)據(jù)動態(tài)范圍大,,導(dǎo)致很多已有的量化算法也不能很好地支持。
從提升大模型在邊緣側(cè)處理能效的方法來看,,一種是通過提升工藝水平scaling down,但受摩爾定律和國際形勢的影響,,很難再繼續(xù)持續(xù),;另一種是通過新器件和新系統(tǒng),但應(yīng)用的成熟度還有待技術(shù)上的進一步提升與完善,。但在當(dāng)下來看最為現(xiàn)實的實現(xiàn)手段,,就是針對大模型應(yīng)用來做軟硬件協(xié)同優(yōu)化,軟件上通過新的混合量化方法以及稀疏化處理,,硬件上則針對大模型中常見的算法結(jié)構(gòu)進行加速設(shè)計,,從而整體上實現(xiàn)2-3個數(shù)量級的能效提升。
針對大模型任務(wù)新需求深度優(yōu)化
超星未來實現(xiàn)邊緣側(cè)AGI計算行業(yè)領(lǐng)先
超星未來主要面向各類邊緣智能場景,,提供以AI計算芯片為核心,、軟硬件協(xié)同的高能效計算方案,致力于成為邊緣側(cè)AGI計算的引領(lǐng)者,。
「平湖/高峽」NPU:團隊十年磨一劍,,實現(xiàn)性能行業(yè)天花板
針對智能駕駛及大模型所需要的神經(jīng)網(wǎng)絡(luò)計算任務(wù),超星未來自研了高性能AI處理核心「平湖」和「高峽」,?!钙胶筃PU主要針對以CNN和少量Transformer的感知類任務(wù)提供高效的計算,「高峽」NPU則是面向高階智駕以及大模型的實時處理專門設(shè)計的加速核心,。
其中「平湖」NPU針對主流CNN/Transformer模型的推理延遲以及幀率均為行業(yè)最領(lǐng)先水平,,與某款市場上被廣泛認(rèn)可的競品相比,單位算力的推理幀率在CNN任務(wù)上提高10倍,,Transformer任務(wù)提高25倍,。
「高峽」NPU架構(gòu)采用了混合粒度的指令集設(shè)計,單Cluster可實現(xiàn)40TOPS算力,,支持INT4/INT8/FP8/BF16多種不同計算精度,,并且在內(nèi)部緩存設(shè)計上做了優(yōu)化設(shè)計,另外針對Sparse Attention和三維稀疏卷積,,設(shè)計了專用的加速結(jié)構(gòu),。通過這些優(yōu)化設(shè)計,「高峽」NPU實現(xiàn)了對典型的生成式大模型的實時計算支持,,LLaMA3-8B生成速度最高可達60tokens/s,。此外,「高峽」NPU可以用相較NVIDIA Orin芯片1%的計算邏輯面積,,來實現(xiàn)近乎等同的三維稀疏卷積處理速率,。
「驚蟄」系列芯片:已于多領(lǐng)域批量落地,,最新產(chǎn)品實現(xiàn)大模型邊緣側(cè)實時計算
基于自研的NPU核心,超星未來在2022年底發(fā)布了邊緣側(cè)AI計算芯片「驚蟄R1」,,NPU算力為16TOPS@INT8,,典型功耗僅7-8W,從而可以支撐起各類系統(tǒng)方案的自然散熱設(shè)計,。「驚蟄R1」目前已在汽車,、電力、煤礦以及機器人等領(lǐng)域?qū)崿F(xiàn)了批量落地,。
超星未來也即將發(fā)布「驚蟄」系列下一代芯片,,可實現(xiàn)對大模型的實時處理,,在12nm制程下將等同于驍龍8Gen3、天璣9300等SOTA手機芯片的處理效果,。按照超星未來的芯片產(chǎn)品發(fā)展路徑圖,,公司將繼續(xù)保持產(chǎn)品矩陣的可擴展性,從邊緣感知到智駕升級,,逐步邁向“Robot-Brain”,。
「魯班」模型部署工具鏈:集成大模型優(yōu)化新方法,軟件協(xié)同實現(xiàn)40倍性能提升
在高效硬件架構(gòu)的基礎(chǔ)上,,超星未來面向神經(jīng)網(wǎng)絡(luò)應(yīng)用打造深度優(yōu)化的「魯班」工具鏈,,可使邊緣側(cè)推理速度提高40倍以上,具體包括:
(1)業(yè)內(nèi)領(lǐng)先的混合精度量化工具,,支持PTQ/QAT/AWQ功能,,支持INT4/INT8/FP8/BF16精度,量化損失小于1%,;
(2)高效模型優(yōu)化工具,,支持敏感度分析、蒸餾,、Lora,,在精度損失小于1%的情況下,模型壓縮率超10倍,;
(3)高性能編譯工具,提供豐富的計算圖優(yōu)化技術(shù)及面向異構(gòu)核心的高效指令調(diào)度,,推理效率可提高4-5倍以上,。
特別針對大模型任務(wù),「魯班」通過特有的稀疏離群點保持和混合位寬量化的方法,,可將權(quán)重位寬下探到平均2.8bit,?;谙∈柩谀さ姆椒ǎ蓪崿F(xiàn)在模型處理能力相當(dāng)?shù)那闆r下,,將LLaMA3-8B壓縮90%以上,,大幅縮減了模型的參數(shù)和計算量。
「倉頡」數(shù)據(jù)閉環(huán)平臺:實現(xiàn)數(shù)據(jù)自動化生產(chǎn),,構(gòu)建應(yīng)用迭代閉環(huán)
在大模型時代,,高質(zhì)量算法迭代需要功能強大的數(shù)據(jù)閉環(huán)工具。因此超星未來打造了「倉頡」平臺,,包括數(shù)據(jù)管理,、數(shù)據(jù)挖掘、數(shù)據(jù)增強,、真值生產(chǎn),、模型生產(chǎn)和算法評測等功能,并且在多個環(huán)節(jié)都應(yīng)用了大模型來提供功能上的增強,。
基于該平臺,,通過構(gòu)建完整流程,客戶可以從環(huán)境中獲取有效數(shù)據(jù),,并盡可能降低人工的參與程度,,實現(xiàn)自動的數(shù)據(jù)挖掘和標(biāo)注,從而助力客戶實現(xiàn)數(shù)據(jù)驅(qū)動算法的迭代,。目前「倉頡」平臺已為車企,、Tier1等客戶提供了服務(wù),同時也在延伸為機器人客戶提供支持的能力,。
腳踏實地,,快步向前
為客戶提供高效的“AI+”
基于團隊在AI領(lǐng)域十余年的研發(fā)與實踐經(jīng)歷,超星未來緊跟AI 1.0到AI 2.0的發(fā)展路徑,,不斷打磨核心產(chǎn)品,,實現(xiàn)AI+X應(yīng)用落地。
在邊緣側(cè)場景,,超星未來已在電力,、煤礦等泛安防領(lǐng)域?qū)崿F(xiàn)了芯片產(chǎn)品的批量落地,實現(xiàn)了規(guī)?;臓I收回報,,并通過落地,持續(xù)迭代產(chǎn)品相關(guān)生態(tài),,形成對智能駕駛與AGI等長周期方向的反哺,。“在當(dāng)前惡劣的市場環(huán)境下,,實現(xiàn)快速的落地才是生存的王道,?!?/p>
在智能駕駛場景,,「驚蟄」系列芯片可支持多維智駕解決方案,如智能前視一體機,、雙目前視方案,、5-7V高性價比行泊一體、11V1L高性能行泊一體等,,并涵蓋主流的行車,、泊車以及智能駕駛和機器人通用的雙目功能。相關(guān)產(chǎn)品的參考解決方案已基于實車完成了打通和工程優(yōu)化,。目前,,超星未來已與某行業(yè)頭部商用車OEM合作上車,同時與多家乘用車OEM客戶達成業(yè)務(wù)合作,,預(yù)計最早于2025年實現(xiàn)批量上車,。
在邊緣側(cè)大模型推理場景,基于「魯班」工具鏈的軟硬件協(xié)同優(yōu)化能力,,超星未來最新芯片產(chǎn)品在驗證平臺上實測ChatGLM-6B可以達到超過15tokens/s的生成速度,,10W量級的芯片即可支持高性能大模型的邊緣落地;「高峽」NPU平臺Stable Diffusion 1.5版本可以在3.5s內(nèi)完成圖片生成,?;谝陨夏芰Γ俏磥硪雅c行業(yè)頭部的機器人客戶,、大模型廠商等達成合作,。
道阻且長,行則將至
共同構(gòu)建AI 2.0新時代
“我們對技術(shù)發(fā)展的預(yù)估和意識通常是低估和滯后的,,技術(shù)的發(fā)展一旦突破某個閾值,,就會爆炸式地增長、覆蓋,,比如從ChatGPT的發(fā)布到現(xiàn)如今的‘千模大戰(zhàn)’,。不論是高階的智能駕駛,還是通用機器人應(yīng)用,,只要技術(shù)范式是正確的,,人員與資金持續(xù)投入,‘ChatGPT時刻’就一定會到來,,而且這個時刻或許會比我們想象得來得更快,。”梁爽表示,,“超星未來期待與各位合作伙伴攜手,,從AI 1.0時代逐步邁進,共建AI 2.0的新時代,?!?/p>
下一篇:智合生物亮相In-cosmetics Korea 2024,,展現(xiàn)前沿神經(jīng)酰胺技術(shù)與應(yīng)用解決方案
隨便看看:
- [業(yè)內(nèi)]挑戰(zhàn)微軟 + GitHub!谷歌聯(lián)手 Replit,,升級 A
- [業(yè)內(nèi)]弱電to什么意思,,弱電圖里TC 和 TO 分別表示什么意思
- [業(yè)內(nèi)]北京:66家企業(yè)入駐中關(guān)村科幻產(chǎn)業(yè)創(chuàng)新中心
- [業(yè)內(nèi)]中國工程院:2023年全球工程前沿呈現(xiàn)三大特征
- [業(yè)內(nèi)]2022年我國研發(fā)經(jīng)費投入突破3萬億元
- [業(yè)內(nèi)]智慧農(nóng)業(yè)助力移民增收
- [業(yè)內(nèi)]2022年中國科幻產(chǎn)業(yè)總營收達877.5億元
- [業(yè)內(nèi)]歐洲第二大港口將使用氫動力拖船
- [業(yè)內(nèi)]芯片仍是明年美對華科技競爭焦點
- [業(yè)內(nèi)]天目一號氣象星座11―14星成功發(fā)射
相關(guān)推薦:
網(wǎng)友評論:
推薦使用友言、多說,、暢言(需備案后使用)等社會化評論插件
- 光伏電池技術(shù)從P型到N型,,拉普拉斯(688726.
- 冷王VP Truck高頂系列重磅升級:強勁制冷,價
- 高性能 CPU:Arm Cortex-X925 實
- 項老師App:內(nèi)容極為精細(xì)化設(shè)計的教育典范
- “未來科技領(lǐng)袖”青少年“科創(chuàng)+”專場論壇倒計時1周
- 巨量千川推出兩大勢能,,商家乘勢而起實現(xiàn)生意增長
- TCL實業(yè)硬核科技產(chǎn)品亮相2024 ChinaJo
- 為行業(yè)規(guī)范化發(fā)展賦能,,天翼云獲頒智算工程平臺標(biāo)準(zhǔn)參
- 弘揚奧運精神 綻放國云力量,天翼云科技賦能體育產(chǎn)業(yè)
- 智合生物亮相In-cosmetics Korea
- 熱點搶先看|2024南方網(wǎng)通第二十五屆渠道商交流會
- 《大數(shù)據(jù)平臺云化改造實踐指南(2024)》發(fā)布,,天
- 覺卿諦語智能科技在全國12355心理健康大會上展示
- 當(dāng)好“兩個稀土基地”建設(shè)主力軍,,北方嘉軒永磁電機大
- 大模型助力工業(yè)智能化發(fā)展
- 工商業(yè)光伏發(fā)電施工指南-太陽庫光伏
- 科技賦能,避震嬰兒車或成為行業(yè)硬通貨
- 龍旗科技進軍AI PC市場,,激發(fā)行業(yè)創(chuàng)新活力
- 科技賦能教育:核桃編程亮相“科創(chuàng)中國·北京創(chuàng)新薈”
- 英偉達搶占高位,,市場急需尋求新機遇,這三支AI股值