人工智能系統(tǒng)亟待跨越的下一道難關(guān)
人工智能的發(fā)展之路并非一帆風(fēng)順。媒體與華爾街對(duì)人工智能行業(yè)情緒的任何細(xì)微變化,都會(huì)表現(xiàn)出極端且劇烈的反應(yīng)。狄更斯早已預(yù)見這般光景:“那是最美好的時(shí)代,那是最糟糕的時(shí)代;那是智慧的年頭,那是愚昧的年頭;那是信仰的時(shí)期,那是懷疑的時(shí)期;那是光明的季節(jié),那是黑暗的季節(jié);那是希望的春天,那是失望的冬天。” 在這些喧囂的頭條背后,人工智能推理的規(guī)模化發(fā)展正面臨一個(gè)關(guān)鍵難題:芯片的理論峰值性能與系統(tǒng)廠商能實(shí)際保障的性能之間,差距正不斷擴(kuò)大。這一差距對(duì)算力的功耗需求和系統(tǒng)安全性,都產(chǎn)生了重大影響。
這一性能差距究竟從何而來(lái)?
大型半導(dǎo)體系統(tǒng)會(huì)大量采用預(yù)先設(shè)計(jì)的子系統(tǒng),這些子系統(tǒng)要么是企業(yè)為前代產(chǎn)品自研的,要么是從外部采購(gòu)的。如今數(shù)據(jù)中心和汽車領(lǐng)域普遍采用的芯粒架構(gòu)設(shè)計(jì),更是如此。行業(yè)頭部企業(yè)能提供各類頂尖的芯粒子系統(tǒng),包括服務(wù)器 CPU 子系統(tǒng)、人工智能加速器子系統(tǒng)、高帶寬內(nèi)存子系統(tǒng)等,而其他芯粒則由半導(dǎo)體系統(tǒng)主設(shè)計(jì)商自主研發(fā)。芯粒之間的連接通過(guò)行業(yè)標(biāo)準(zhǔn)的 UCIe 接口實(shí)現(xiàn)。
由這些組件搭建的系統(tǒng),每個(gè)組件都經(jīng)過(guò)獨(dú)立認(rèn)證、具備高性能,且通過(guò)行業(yè)標(biāo)準(zhǔn)接口互連,按理說(shuō)理應(yīng)實(shí)現(xiàn)接近最優(yōu)的吞吐效率,可事實(shí)并非如此。究其原因,是半導(dǎo)體產(chǎn)品的商業(yè)屬性決定了,這類造價(jià)高昂的大型產(chǎn)品必須同時(shí)處理多項(xiàng)推理任務(wù)。單顆芯粒的設(shè)計(jì)初衷本就包含多任務(wù)處理能力,但沒有任何一顆芯粒負(fù)責(zé)管控芯粒之間的通信流量性能。UCIe 接口的設(shè)計(jì)僅為實(shí)現(xiàn)基礎(chǔ)的互連功能,而非系統(tǒng)級(jí)的流量管理,這一管理工作則由芯粒之間的網(wǎng)絡(luò)子系統(tǒng)承擔(dān) —— 這一系統(tǒng)層的架構(gòu)與互聯(lián)網(wǎng)類似,卻是針對(duì)芯片內(nèi) / 封裝內(nèi)的性能需求做了專項(xiàng)優(yōu)化。
多租戶推理平臺(tái)面臨著獨(dú)特的流量管理挑戰(zhàn)。為兼顧成本與功耗效率,所有流量都通過(guò)一個(gè)公共網(wǎng)絡(luò)進(jìn)行管理,這與現(xiàn)代電子系統(tǒng)的設(shè)計(jì)邏輯一致。但 CPU 控制單元、高帶寬內(nèi)存與人工智能加速器之間的 AI 業(yè)務(wù)流量具有極強(qiáng)的突發(fā)性:部分流量突發(fā)且需要高帶寬支撐,部分流量對(duì)延遲極為敏感,還有部分流量(尤其是控制類數(shù)據(jù),如有效信號(hào)、就緒信號(hào)、信用值等)是保障系統(tǒng)持續(xù)運(yùn)行的關(guān)鍵。
這類突發(fā)性流量會(huì)搶占總線帶寬,雖非永久性占用,卻會(huì)持續(xù)至整個(gè)事務(wù)處理完成。而人工智能處理的大規(guī)模并行特性,進(jìn)一步加劇了問(wèn)題:某個(gè)計(jì)算步驟必須等所需數(shù)據(jù)全部到位后才能啟動(dòng),否則只能陷入停滯。當(dāng)平臺(tái)同時(shí)運(yùn)行多項(xiàng)推理任務(wù)時(shí),此類停滯現(xiàn)象極易頻繁發(fā)生,推理進(jìn)程會(huì)陷入空閑,直至數(shù)據(jù)全部就緒才能進(jìn)入下一階段。
至此,看似一切都在情理之中:流量增加,單任務(wù)推理的性能就會(huì)下降。但令人意外的是,系統(tǒng)性能并非平穩(wěn)衰減。當(dāng)各推理任務(wù)間的流量競(jìng)爭(zhēng)加劇時(shí),就像城市交通的早高峰,進(jìn)程停滯會(huì)不斷累積,達(dá)到臨界點(diǎn)后,系統(tǒng)性能會(huì)出現(xiàn)斷崖式下跌,整體利用率可能從 80% 驟降至 45%。
有人會(huì)問(wèn),為何不直接提升網(wǎng)絡(luò)帶寬?遺憾的是,僅靠提升帶寬遠(yuǎn)遠(yuǎn)不夠。在突發(fā)性流量和同步停滯的雙重影響下,用于保障各推理任務(wù)公平性的關(guān)鍵控制信息,會(huì)被不斷擠壓,最終導(dǎo)致任務(wù)間的公平性徹底喪失。有效的多租戶管理,需要的不僅是更高的帶寬,更重要的是實(shí)現(xiàn)性能的可預(yù)測(cè)性。
彌合性能差距的解決之道
高性能的人工智能加速器、CPU 子系統(tǒng)、高帶寬內(nèi)存和 UCIe 接口,是打造芯粒架構(gòu) AI 產(chǎn)品的必要條件,卻并非充分條件。這類產(chǎn)品還必須搭建一套專屬的流量管理網(wǎng)絡(luò),以應(yīng)對(duì)多租戶 AI 推理的獨(dú)特挑戰(zhàn) —— 這些需求,遠(yuǎn)非 “盡力而為” 的普通網(wǎng)絡(luò)所能滿足。我們必須重新設(shè)計(jì)互連架構(gòu),讓 AI 工作負(fù)載的性能具備可預(yù)測(cè)性。
Arteris公司產(chǎn)品管理與營(yíng)銷副總裁安迪?奈廷格爾,分享了實(shí)現(xiàn)性能可預(yù)測(cè)性的幾項(xiàng)核心要求:
網(wǎng)絡(luò)必須支持不同租戶的流量隔離,確保單個(gè)推理任務(wù)不會(huì)阻塞其他任務(wù);
系統(tǒng)負(fù)載增加時(shí),吞吐效率自然下降,但必須實(shí)現(xiàn)平穩(wěn)衰減;
即便在高負(fù)載下,也必須保障緩存一致性;
高負(fù)載下的系統(tǒng)行為需具備確定性,這樣才能保障服務(wù)等級(jí)協(xié)議的兌現(xiàn)。
基于能實(shí)現(xiàn)上述保障的網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)核,設(shè)計(jì)人員就能打造出適配目標(biāo)應(yīng)用場(chǎng)景的網(wǎng)絡(luò)架構(gòu)。
超大型數(shù)據(jù)中心無(wú)法基于不可預(yù)測(cè)的性能制定定價(jià)模型。如果芯粒間的互連架構(gòu)并非為多租戶 AI 推理設(shè)計(jì),企業(yè)要想兌現(xiàn)服務(wù)等級(jí)協(xié)議,就只能增加服務(wù)器部署數(shù)量和供電容量。顯然,更優(yōu)的解決方案是,采用專為 AI 場(chǎng)景設(shè)計(jì)了網(wǎng)絡(luò)架構(gòu)的系統(tǒng),讓已規(guī)劃部署的服務(wù)器和供電資源發(fā)揮穩(wěn)定的效用。
本文開篇曾提及系統(tǒng)安全性,如今芯粒架構(gòu)因諸多優(yōu)勢(shì),在汽車系統(tǒng)中得到了廣泛應(yīng)用。在汽車領(lǐng)域,功耗的可預(yù)測(cè)性固然重要,但安全層面的性能可預(yù)測(cè)性更為關(guān)鍵。在轎車、卡車等各類車輛中,系統(tǒng)響應(yīng)的可預(yù)測(cè)性并非單純的性能優(yōu)化需求,而是產(chǎn)品認(rèn)證的硬性指標(biāo),而前文所述的網(wǎng)絡(luò)流量管理問(wèn)題,在汽車系統(tǒng)中同樣存在。












評(píng)論