久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 大語言模型生成的測試平臺(tái)可編譯卻無法完成驗(yàn)證?解密驗(yàn)證鴻溝問題

大語言模型生成的測試平臺(tái)可編譯卻無法完成驗(yàn)證?解密驗(yàn)證鴻溝問題

作者: 時(shí)間:2026-03-11 來源: 收藏

所有工程師都深有體會(huì)的難題:

你讓)生成一個(gè) UVM ,它輸出了 25 個(gè)文件,所有文件均可正常。可運(yùn)行仿真后卻毫無反應(yīng) —— 計(jì)分板顯示零校驗(yàn)結(jié)果,從機(jī)驅(qū)動(dòng)程序處理 10 筆事務(wù)后便停止運(yùn)行,仿真直接卡死。

這并非假設(shè)場景。在一項(xiàng)對(duì)照實(shí)驗(yàn)中,研究人員使用當(dāng)前主流的商用為 AHB2APB 橋設(shè)計(jì)生成 UVM ,即便經(jīng)過自動(dòng)化智能修復(fù)循環(huán)、分 4 次迭代解決了 37 個(gè)錯(cuò)誤,最終還是出現(xiàn)了上述問題。

問題核心在于:成功與協(xié)議層的功能正確性幾乎無關(guān),但在硬件領(lǐng)域的研究中,編譯成功卻成了最主要的評(píng)估指標(biāo)。本文將闡釋為何該指標(biāo)并不適用、何為合理的評(píng)估指標(biāo),以及這一結(jié)論對(duì)計(jì)劃在實(shí)際生產(chǎn)中應(yīng)用大語言模型的團(tuán)隊(duì)具有何種意義。

編譯成功究竟能說明什么

編譯器僅能類型一致性、作用域解析和語法有效性,無法驗(yàn)證協(xié)議時(shí)序、握手序列、接口角色語義或事務(wù)計(jì)數(shù)是否正確。

在本次 AHB2APB 橋的案例研究中,出現(xiàn)了三起嚴(yán)重的驗(yàn)證失效問題,每一起都對(duì)驗(yàn)證工作造成致命影響,卻均未觸發(fā)編譯器報(bào)錯(cuò):

  1. 角色混淆:大語言模型生成的 APB 從機(jī)驅(qū)動(dòng)程序,竟驅(qū)動(dòng)了本該由主機(jī)輸出的 PADDR、PSEL 和 PENABLE 信號(hào)。而標(biāo)準(zhǔn)的 APB 從機(jī)僅需驅(qū)動(dòng) PRDATA、PREADY 和 PSLVERR 信號(hào)。仿真全程無報(bào)錯(cuò)提示,只是從機(jī)始終無任何響應(yīng)。

  2. 時(shí)序階段錯(cuò)誤:AHB 驅(qū)動(dòng)程序在發(fā)送 HADDR 地址信號(hào)的同一個(gè)時(shí)鐘周期,就輸出了 HWDATA 數(shù)據(jù)信號(hào)。而 AHB 協(xié)議要求兩者存在一個(gè)時(shí)鐘周期的偏移 ——HWDATA 需在 HADDR 發(fā)送后的下一個(gè)時(shí)鐘周期才生效。這導(dǎo)致在每一筆事務(wù)中都傳輸了錯(cuò)誤的數(shù)據(jù)。

  3. 響應(yīng)死鎖:主機(jī)序列調(diào)用 get_response () 函數(shù),等待驅(qū)動(dòng)程序調(diào)用      put_response () 函數(shù)返回響應(yīng),但驅(qū)動(dòng)程序始終未執(zhí)行該調(diào)用,仿真在處理第一筆事務(wù)時(shí)便無聲卡死。

本次案例研究歸納出八大失效模式,并按問題檢測階段分類:僅 1 種可在編譯階段發(fā)現(xiàn)(二級(jí)問題:虛構(gòu)的序列項(xiàng)字段名),1 種在精化階段的虛擬接口(VIF)端口解析時(shí)暴露(一級(jí)問題),其余 6 種均需通過仿真或波形分析才能診斷(三級(jí)至八級(jí)問題)。也就是說,編譯器僅能發(fā)現(xiàn)八分之一的問題。

1773197899501077.png

圖 1:大語言模型八大失效模式的檢測階段分布 —— 編譯階段 1 種、精化階段 1 種、仿真階段 6 種

  • 編譯階段(1/8):二級(jí)問題 —— 虛構(gòu)字段名

  • 精化階段(1/8):一級(jí)問題 —— 將虛擬接口端口設(shè)為時(shí)鐘塊成員

  • 仿真 / 波形分析階段(6/8):三級(jí)問題 —— 從機(jī)充當(dāng)發(fā)起端、四級(jí)問題 —— 響應(yīng)死鎖、五級(jí)問題 —— 分叉合并機(jī)制活性失效、六級(jí)問題 —— 時(shí)鐘塊偏移錯(cuò)誤(后兩種未列出)

衡量的三項(xiàng)核心指標(biāo)

修復(fù)效率評(píng)分(RES)

計(jì)算公式:修復(fù)效率評(píng)分 = 編譯錯(cuò)誤總數(shù) / 修復(fù)調(diào)用總次數(shù)。

本案例中,15 次修復(fù)調(diào)用解決了 37 個(gè)編譯錯(cuò)誤,修復(fù)效率評(píng)分為 2.47。其中一次修復(fù)調(diào)用修正了 “虛構(gòu)序列項(xiàng)字段名” 的問題,同時(shí)消除了后續(xù)衍生的 18 個(gè)錯(cuò)誤 —— 這一現(xiàn)象表明,當(dāng)大語言模型對(duì)核心抽象概念產(chǎn)生誤解時(shí),錯(cuò)誤會(huì)圍繞共同的根因集中出現(xiàn)。

(VG)

指通過全編譯測試的測試平臺(tái)中,仍存在的功能失效問題占比。

計(jì)算公式: = 未解決的功能失效數(shù) / 功能失效總數(shù)。

驗(yàn)證鴻溝為 0.00,代表測試平臺(tái)不僅可正常編譯,還具備完整的功能有效性;經(jīng)自動(dòng)化修復(fù)循環(huán)后驗(yàn)證鴻溝為 0.80,意味著自動(dòng)化流程結(jié)束后,仍有 80% 的功能失效問題未解決,且這些問題全程無法被編譯器識(shí)別。而這一指標(biāo),正是當(dāng)前行業(yè)尚未納入計(jì)算的關(guān)鍵指標(biāo)。

規(guī)范覆蓋比(SCR)

衡量測試平臺(tái)實(shí)際覆蓋的協(xié)議規(guī)范占比。

若某一測試平臺(tái)僅覆蓋了正常流程的事務(wù),卻未包含突發(fā)中斷終止、錯(cuò)誤重試、最大等待狀態(tài)等場景,其規(guī)范覆蓋比會(huì)遠(yuǎn)低于 1.0,即便在常規(guī)流量下通過所有仿真校驗(yàn),也無法完整驗(yàn)證協(xié)議功能。

表 1:不同流程配置下的指標(biāo)數(shù)值

配置方案

驗(yàn)證鴻溝(VG)

規(guī)范覆蓋比(SCR)

修復(fù)效率評(píng)分(RES)

單次生成(無修復(fù))

1.00

0.43

不適用

自動(dòng)化修復(fù)循環(huán)

0.80

0.61

2.47

自動(dòng)化修復(fù) + 專家人工介入

0.00

1.00

2.47

驗(yàn)證鴻溝數(shù)值從單次生成的 1.00,降至自動(dòng)化修復(fù)后的 0.80,再到人工介入后的 0.00,可見純自動(dòng)化手段仍會(huì)遺留 80% 的功能失效問題。

fig1 vg chart

圖 2:不同配置方案下驗(yàn)證鴻溝與規(guī)范覆蓋比的變化趨勢(驗(yàn)證鴻溝數(shù)值越低越好,規(guī)范覆蓋比數(shù)值越高越好)

(縱軸數(shù)值 0.0-1.0,單次生成:VG=1.00、SCR=0.43;自動(dòng)化修復(fù):VG=0.80、SCR=0.61;人工介入 + 修復(fù):VG=0.00、SCR=1.00)

解決問題的關(guān)鍵是更完善的規(guī)范,而非更龐大的模型

本研究最反直覺的發(fā)現(xiàn):要提升基于大語言模型的驗(yàn)證自動(dòng)化能力,最高效的投入并非打造性能更強(qiáng)的模型,而是設(shè)計(jì)更規(guī)范化的協(xié)議描述框架

時(shí)序階段錯(cuò)誤的根源,在于協(xié)議規(guī)范采用自然語言描述時(shí)序要求,例如 “HDATA 在 HADDR 后一個(gè)時(shí)鐘周期生效”。無論模型規(guī)模多大,都無法消除自然語言描述與仿真器中 @(posedge HCLK) 序列精確定義之間的歧義。

若在規(guī)范中以顯式字段標(biāo)注HWDATA_phase_offset: 1,就能為生成引擎提供無歧義的指令,從源頭避免此類錯(cuò)誤,而非事后調(diào)試;若在規(guī)范中對(duì)接口角色進(jìn)行明確分類,如apb_slave: {role: reactor, perpetual: true}(APB 從機(jī):角色為響應(yīng)端,持續(xù)工作),也能杜絕角色混淆類錯(cuò)誤。兩種情況均表明,解決問題的關(guān)鍵是上游的規(guī)范形式化,而非下游的錯(cuò)誤修復(fù)。

在大語言模型生成的 25 個(gè)文件中,有 8 個(gè)需要專家完全重寫才能實(shí)現(xiàn)功能正確性,而每一處重寫所解決的問題,都是編譯器從未標(biāo)記過的。

該測試平臺(tái)發(fā)現(xiàn)的真正硬件漏洞

在專家協(xié)作完成測試平臺(tái)的功能修正后,研究人員通過 30 筆隨機(jī) AHB 事務(wù)測試,發(fā)現(xiàn)了該橋接器 xfer_pending 清零邏輯中一個(gè)此前未被發(fā)現(xiàn)的 RTL 競爭冒險(xiǎn)問題。

該橋接器采用寄存器化清零方式,但清零操作的觸發(fā)延遲了一個(gè)時(shí)鐘周期。有限狀態(tài)機(jī)(FSM)讀取到的 xfer_pending 為失效的 1,進(jìn)而重新進(jìn)入 APB_SETUP 階段,基于上一筆事務(wù)鎖存的地址生成了一次虛假的 APB 傳輸。計(jì)分板檢測到:5 筆 AHB 傳輸觸發(fā)了 6 次 PSEL 信號(hào)斷言,這一結(jié)果違反了 AHB 與 APB 傳輸 1:1 的比例要求,而該問題在 IP 級(jí)仿真中始終未被發(fā)現(xiàn)。

這類集成級(jí)漏洞,正是協(xié)議層測試平臺(tái)建模的核心檢測目標(biāo),也是打造高可靠性測試平臺(tái)的意義所在。若使用驗(yàn)證鴻溝為 0.80、僅能正常編譯的測試平臺(tái),根本無法執(zhí)行相關(guān)校驗(yàn),自然也無法發(fā)現(xiàn)這一漏洞。

對(duì)實(shí)際驗(yàn)證流程的指導(dǎo)意義

  1. 評(píng)估大語言模型測試平臺(tái)生成工具時(shí):向供應(yīng)商提出核心問題 —— 該工具在實(shí)際協(xié)議設(shè)計(jì)中的驗(yàn)證鴻溝(VG)是多少?編譯成功絕非測試平臺(tái)可用的證據(jù),修復(fù)效率評(píng)分(RES)、驗(yàn)證鴻溝(VG)、規(guī)范覆蓋比(SCR) 才是關(guān)鍵評(píng)判標(biāo)準(zhǔn)。

  2. 將大語言模型融入驗(yàn)證流程時(shí):可將本次歸納的八大失效模式作為具體檢查清單 —— 檢查所有驅(qū)動(dòng)程序是否存在角色混淆,檢查所有 AHB 和 APB 接口是否存在時(shí)序階段錯(cuò)誤,檢查所有需持續(xù)運(yùn)行的序列是否存在活性失效問題,同時(shí)重點(diǎn)查看精化階段日志,而非僅關(guān)注編譯日志。

  3. 編寫供大語言模型使用的協(xié)議規(guī)范時(shí):將時(shí)序約束、接口角色、行為約定以結(jié)構(gòu)化字段的形式編碼,而非采用自然語言描述。編譯成功與實(shí)際驗(yàn)證通過之間的鴻溝,才是真正影響驗(yàn)證工作的核心問題,從現(xiàn)在開始,將其納入量化評(píng)估。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉