基于大規模并行GPU光柵化器加速計算光刻技術

作者：時間：2026-03-20 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

隨著半導體制造工藝不斷向更先進的納米制程邁進，計算光刻已從芯片設計的輔助環節，發展成為先進芯片設計的核心支柱。如今，掩模合成、光刻仿真以及光學鄰近效應校正（OPC）對計算精度和數據處理吞吐量提出了前所未有的要求。而這些工作流程的核心環節便是光柵化—— 將復雜的幾何版圖轉換為超高分辨率像素網格的過程。

西門子EDA部門近期發布了一份白皮書，提出了應對該問題的創新方案。書中深入剖析了光柵化成為技術瓶頸的原因，以及基于大規模并行 GPU 架構的創新光柵化算法如何破解相關難題，并通過實際性能測試結果，展現了這一創新技術對下一代半導體制造的重要影響。

光刻領域中光柵化的重要性空前提升

光柵化常被與計算機圖形學關聯，但在電子設計自動化（EDA）領域，它的作用遠為關鍵。在計算光刻中，光柵化后的版圖被用于模擬光線透過掩模的傳播路徑，以及光刻膠在納米尺度下的反應效果。與圖形學應用中僅將像素簡單判定為 “開啟” 或 “關閉” 不同，光刻領域要求精準的像素部分覆蓋率計算，且需嚴格保留超精細圖形之間的連接性。光柵化過程中產生的微小誤差，會在仿真和光學鄰近效應校正的循環過程中不斷放大，最終影響芯片的良率和可制造性。

隨著半導體工藝節點向數納米以下演進，光柵化所需的分辨率呈爆炸式增長，且在迭代式光學鄰近效應校正流程中，相同的光柵化操作需要重復執行多次。即便是經過高度優化的基于 CPU 的光柵化器，也難以滿足算力需求，光柵化因此成為制約整體運行效率的主要瓶頸。

傳統光柵化方法的局限性

多數傳統光柵化技術采用二進制覆蓋模型，該模型在圖形可視化場景中表現良好，但在光刻領域則難以適用。這類方法無法捕捉細微的光強變化，在處理細線條或緊密排布的圖形時，還極易產生連接性失真問題。同時，現代芯片版圖包含數十億個多邊形，像素評估次數更是高達萬億級，其龐大的數據規模對內存帶寬和計算資源造成了巨大壓力。

正是在這一背景下，GPU 的優勢開始凸顯。GPU 的大規模并行處理能力非常適配數據密集型工作負載，但同時也帶來了不規則內存訪問模式、對數值精度高度敏感等挑戰。要將 GPU 成功應用于光刻光柵化，必須設計出以精度優先為核心、適配大規模并行執行的專屬算法。

為 GPU 重構光柵化技術邏輯

面向計算光刻的 GPU 優化光柵化器，從設計理念上便與傳統方案截然不同。該技術不再對多邊形進行串行處理，而是將版圖按空間維度分解為多個可并行光柵化的獨立區域，每個區域對應映射至 GPU 的線程塊，使數千個線程能夠同時執行像素覆蓋率評估。

像素覆蓋率的計算采用浮點運算而非近似算法，確保邊界相互作用的計算精度達到納米級別。技術研發中還特別注重保留亞像素級的連接性，避免細線條圖形在光柵化過程中發生非預期的斷裂。對于曼哈頓幾何圖形，技術通過簡化評估流程提升效率；對于曲線圖形，則采用兼具通用性和并行友好性的處理方法。

GPU 光柵化流水線的工作原理

GPU 光柵化流水線的處理始于 CPU 端的預處理階段：先對版圖數據進行解析，并按空間分塊歸類，再將這些數據塊以優化的內存布局傳輸至 GPU，實現合并式內存訪問。在 GPU 端，各數據塊被獨立處理：幾何數據被緩存至共享內存，線程被分配至單個像素或小型像素組，每個線程獨立計算其負責的像素處于多邊形內部、外部還是邊界位置。

處于邊界的像素會得到特殊處理：通過解析算法計算與像素相交的多邊形邊緣，精準求解像素被多邊形覆蓋的面積比例。當多個多邊形作用于同一像素時，通過原子操作實現覆蓋率的準確累加。這一設計方案同時實現了高性能和確定性精度 —— 這兩大特性在大規模并行系統中通常難以兼得。

該技術基于 CUDA 編程模型開發，在英偉達新一代數據中心 GPU 上運行時表現尤為優異，這類 GPU 能為超高分辨率光柵化提供所需的內存帶寬和并發處理能力。

Rasterization of L shape using block of threads

基于英偉達 H100 GPU 的實際性能測試結果

性能基準測試得出了極具說服力的結論：與高度優化的 CPU 光柵化器相比，基于 GPU 的光柵化方案在各類版圖處理中均實現了性能的大幅提升。針對以曼哈頓幾何圖形為主的芯片設計，性能提升最高達 290 倍；即便是處理難度更高的曲線版圖，GPU 光柵化器也實現了最高 45 倍的性能提升。

至關重要的是，性能的提升并未以犧牲精度為代價。在所有測試場景中，該方案的計算絕對誤差相較于 CPU 基準計算結果均低于 1%。這一精度水平滿足了計算光刻領域的嚴苛要求，也印證了大規模并行處理與納米級計算精度能夠實現兼容。

對電子設計自動化與半導體制造領域的重要意義

GPU 加速光柵化技術的價值，遠不止體現在單純的性能指標提升上。更快的光柵化處理速度能夠縮短光學鄰近效應校正和掩模合成的周期，讓工程師在相同的設計窗口期內完成更多次迭代優化，進而提升校正質量、提高芯片良率、縮短產品上市周期。而高精度的計算能力和圖形連接性保留能力，確保了性能提升不會為制造流程引入新的風險。

隨著芯片設計中復雜的非曼哈頓幾何圖形越來越多，且光刻仿真的保真度要求持續提高，基于 GPU 的光柵化技術的可擴展性展現出更高的價值。這一曾經的技術瓶頸，如今已成為光刻流水線中具備可擴展性、面向未來的核心組件。

總結

基于大規模并行 GPU 的光柵化技術，標志著計算光刻工作負載處理方式的重大變革。隨著 GPU 架構的持續演進，核心數量不斷增加、內存帶寬持續提升，該技術的性能優勢將進一步擴大。未來的研發工作將聚焦于三大方向：與現有電子設計自動化平臺的深度集成、對 CPU-GPU 異構工作流程的支持，以及向更先進光刻模型和三維效應仿真場景的技術拓展。