久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 網絡與存儲 > 設計應用 > 數據中心的縱向擴展與橫向擴展驗證

數據中心的縱向擴展與橫向擴展驗證

—— 在機柜內部及機柜之間的海量標準與方案中探尋出路
作者: 時間:2026-02-27 來源: 收藏

《半導體工程》雜志邀請西門子 EDA 驗證知識產權總監戈登?艾倫、邁威爾科技網絡交換產品營銷副總裁里希?丘格、阿斯特拉實驗室專用集成電路設計與驗證高級總監薩拉瓦南?卡利納加斯瓦米,以及西門子 EDA 產品工程負責人賈拉杰?古普塔,共同探討擴容(縱向擴展)與擴展(橫向擴展)過程中的挑戰與解決方案。以下是本次小組討論的精華摘要。

1772156973143725.png

(左起:西門子戈登?艾倫、邁威爾科技里希?丘格、阿斯特拉實驗室薩拉瓦南?卡利納加斯瓦米、西門子賈拉杰?古普塔)

半導體工程(SE):對于架構而言,縱向擴展和橫向擴展哪種驗證難度更低?會遇到哪些類型的問題?

古普塔:縱向擴展更多涉及內存語義,有其獨特性。在驗證過程中觀察交換拓撲時,會發現它包含管理層和軟件層,核心關注點是低延遲和高帶寬,需要對不同層級的數據包進行驗證。橫向擴展則更多與封裝相關,重點關注數據包的完整性而非內部內容。

卡利納加斯瓦米:兩者各有挑戰??v向擴展可能涉及數百個 GPU 或加速器,且需在縱向擴展網絡中協同工作;橫向擴展采用點對點模式,橫向擴展交換機無法提供如此多的端口。縱向擴展交換機可支持數百個端口,因此其驗證難度高于橫向擴展。

半導體工程(SE):隨著節點、服務器數量的增加以及服務器功能的拓展,系統復雜度不斷提升,這對驗證工作意味著什么?

艾倫:我是通用驗證方法學(UVM)的使用者,傾向于采用序列化和約束隨機驗證。但如今我們面臨的挑戰日益凸顯:需要在架構的各個層級、以恰當的粒度施加合適的激勵,并實現全局層面的激勵驗證。我們正大力投入軟件驅動的工作流研發,以便將驗證知識產權(IP)和測試平臺與軟件對接,模擬真實場景中的業務流量。從縱向擴展轉向橫向擴展時,語義邏輯會發生變化,需要考慮系統層面多種正交激勵的并發運行。

丘格:縱向擴展和橫向擴展都在經歷不同類型的變革。即便對于橫向擴展,驗證也至關重要 —— 超以太網聯盟(UEC)的出現就是重要因素。當前橫向擴展正進入人工智能驅動階段,引入了動態負載均衡、鏈路層重試(LLR)和基于信用的流量控制(CBFC)等技術。這些協議影響深遠,尤其是動態負載均衡和數據包分發功能,給驗證工作帶來了巨大壓力。人工智能對橫向擴展的影響如同章魚的觸手般廣泛:高基數交換機需以高帶寬運行,端口密度達 1.6G,且部署數量龐大,導致系統極為復雜。另一方面,橫向擴展技術應用已久,相對更為成熟穩定,終端設備和參與方明確(如網絡接口卡、專用處理器卡),但系統仍在持續演進,且升級幅度顯著。而縱向擴展的終端設備目前尚未完全成型,嚴重依賴現有模型進行驗證 —— 這相當于與一個 “不存在的終端” 賽跑,難度極大。目前尚無統一的合規性檢查清單可參考,無法明確判定 “完全合規”,因此縱向擴展的驗證挑戰更大。此外,縱向擴展還涉及內存語義的復雜驗證。

半導體工程(SE):目前涌現出眾多數據傳輸相關的新型接口標準,如 UCIe、Bunch of Wires(BoW)、UALink、UEC、開放計算項目()的 ESUN,以及 、華為 UB-Mesh 等專有標準。開放標準與專有標準之間存在哪些權衡?

古普塔:這更多取決于應用場景,核心考量因素是帶寬、功耗和延遲,這些因素將決定接口的選擇。縱向擴展場景中常見 UALink 和 ,其中 GPU 的專有標準,UALink 為開源標準并獲得超威半導體(AMD)支持 —— 這些特性直接影響接口選型。UCIe 主要用于(chiplet)領域,最終的接口選擇需根據具體流程和上述核心因素綜合判定。

卡利納加斯瓦米:NVLink 和 UALink 差異顯著。NVLink 為專有標準,采用該標準意味著將自身綁定至單一客戶;UALink 作為開放標準,能匯聚全行業的技術積累。NVLink 的優勢在于技術成熟、經過實踐驗證,但行業領軍企業正聯合推動 UALink 的發展,助力其實現技術升級。

半導體工程(SE):EDA 行業長期存在標準競爭的歷史,且并非總能達成理想結果。如何梳理這些繁雜的標準?

艾倫:這需要時間積累。在競爭環境中,我們歷來秉持耐心,通過漸進式方式推動技術發展。以 CXL 為例(其應用領域與 UALink、以太網不同),該標準歷經三次完整的版本迭代,才成為可投入量產的成熟標準,且在演進過程中整合了其他相關標準。UALink 和 NVLink 的發展可能也會遵循類似路徑。在 EDA 領域,我們有能力為所有標準投入資源,為客戶(無論其是同行還是競爭對手)提供全面支持。驗證集成了不同來源的多核處理器、多種網絡基礎設施的系統,是一項極具挑戰性的工作,但核心在于完善的標準規范和可靠的驗證知識產權。

半導體工程(SE):這一趨勢在領域如何體現?

丘格:市場上既有定制化設計產品,也有標準產品。定制化設計中諸多技術為專有屬性。UCIe 由英特爾提出,但英特爾并未涉足網絡或交換機領域。UCIe 更像是一個基準參考 —— 我們并非生產 CPU,而是構建網絡架構,并非任何標準推出后都必須強制采用。當我們為系統廠商或超大規模云計算廠商等終端客戶提供專用處理器(xPU)時,這些客戶因需搭建自有系統,會提出專屬需求(其產品不會標注 “Intel Inside”)。UCIe 對英特爾而言完全適配其自身需求,將其公開并允許行業使用是一項積極舉措。但從我們的角度來看,特定客戶會根據自身系統、應用場景和成本預算,選擇最優方案。若某些標準特性不符合需求,他們不會因 “行業標準” 而盲目采納,而是會汲取其優勢部分,進行修改或定制化調整后,再推向主流市場。

半導體工程(SE):部分標準(如以太網)已存在 35 年,而 UALink 自 2025 年才問世。驗證新型標準會面臨哪些獨特問題?

古普塔:不同標準面臨的挑戰各異,并非簡單的 “難易之分”。以太網應用已久,我們在長期實踐中積累了豐富經驗,也遭遇并解決了諸多問題。UALink 作為新興標準,得到了超威半導體的支持并由其內部研發,最終以開放標準的形式面向全行業。但 UALink 存在獨特挑戰:它包含以太網所不具備的內存語義,盡管二者采用相同的以太網物理層(PHY)。UALink 的驗證難度在于,其構建的生態系統中將涉及數百甚至數千個互聯端口,驗證復雜度極高。

半導體工程(SE):所有標準的共同目標都是實現更大量、更快速、更安全的數據傳輸。(CPO)技術在此中扮演何種角色?

艾倫:我們正與眾多采用光學連接的客戶合作。以 PCIe 標準為例,下一代標準的吞吐量和速度通常會翻倍,但即便如此,推出后仍可能迅速落后于市場需求。市場對更高帶寬和更低延遲的需求永無止境,因此在這些數據傳輸標準之上,光學技術始終是重要的優化選項 —— 但這一目標始終處于動態變化中。銅基標準與光學系統的連接涉及大量硅基器件,且光學技術在專有交換應用中已形成專屬基礎設施,其開放性相對較低,但我們發現已有多家客戶在領域推動標準邊界的拓展。

半導體工程(SE):現有工具是否適用于(CPO)的驗證?

丘格:現有工具可用于 CPO 驗證,但挑戰不止于此。CPO 面臨的核心瓶頸在于封裝技術。根本問題是 “為何需要 CPO”,背后存在多重原因:首先,200G 之后的技術演進(400G)催生了 CPO 需求,400G 場景中光學側采用 PAM4 調制,主機側采用 PAM6 和 PAM8 調制,導致調制方式無法統一;其次,主機端的封裝損耗超過 12 分貝(發射端 12-15 分貝,接收端 12-15 分貝),剩余的性能余量需覆蓋印刷電路板(PCB)和連接器的損耗,400G 長距離傳輸易形成瓶頸。目前銅基傳輸已難以滿足需求,共封裝光學已成為網絡和交換領域所有企業必須考量的技術方向。

半導體工程(SE):共封裝光學(CPO)的驗證工作有何特點?

艾倫:CPO 的驗證涉及多種物理領域,我們的團隊和產品已覆蓋流體力學、熱學、機械應力等各類物理特性的驗證,這些技術可應用于多個領域。例如,間的連接不僅需要功能驗證,還需考慮熱量、熱 / 機械光學(作為橫向擴展或縱向擴展介質)等因素。盡管存在挑戰,但機柜制造商已在積極應對 —— 他們正通過液冷技術、物理約束優化、熱約束控制等方式解決相關問題。

半導體工程(SE):驗證工作中最重要的指標是什么?這些指標是否發生了變化?

丘格:熱性能是首要指標,這與機柜的功耗和散熱直接相關,當前這些平臺的冷卻面臨巨大挑戰;其次,需確保設備與終端連接時鏈路的穩定性(涉及不同廠商的服務器和交換機);第三是網絡協議,相對而言更為簡單。

卡利納加斯瓦米:系統 uptime(運行時間)也至關重要。高功耗狀態持續多久會觸發冷卻需求?系統穩定性和連續運行能力是核心考量因素。

艾倫:經濟性和安全性,以及所有技術層面的指標都不可或缺。從底層到接口協議,將安全性融入設計全過程至關重要。

古普塔:指標優先級取決于應用場景。流媒體應用更看重高帶寬;近距離連接場景中涉及緩存機制,低延遲成為核心需求;縱向擴展網絡需同時兼顧低延遲和高帶寬,但會犧牲系統的一致性 —— 這本質上是一種權衡,追求某一方面的優勢可能需要放棄其他特性。


評論


相關推薦

技術專區

關閉