隨著AI Agent(星空人工智能智能體)逐漸進(jìn)入工具調(diào)用、文件訪問(wèn)、流程執(zhí)行等應(yīng)用場(chǎng)景,AI安全問(wèn)題引發(fā)的行業(yè)擔(dān)憂,也催生了全新的安全需求。近日,深圳深知智新技術(shù)有限公司(以下簡(jiǎn)稱:深知)旗下深知安全風(fēng)控(DKnownAI Guard)團(tuán)隊(duì)公開發(fā)布了一項(xiàng)面向Agentic(智能體化)場(chǎng)景的安全護(hù)欄測(cè)評(píng),并同步開放技術(shù)報(bào)告與評(píng)測(cè)數(shù)據(jù)集。此次測(cè)評(píng)圍繞真實(shí)攻擊與正常交互邊界,對(duì)多類主流安全護(hù)欄方案進(jìn)行了統(tǒng)一評(píng)估,嘗試為AI智能體安全能力建設(shè)提供新的行業(yè)參考。
從內(nèi)容審核到智能體安全:聚焦AI智能體安全新挑戰(zhàn)
與傳統(tǒng)內(nèi)容安全測(cè)評(píng)主要聚焦違規(guī)表達(dá)、敏感內(nèi)容識(shí)別不同,AI智能體場(chǎng)景中的風(fēng)險(xiǎn)往往與任務(wù)目標(biāo)、上下文信息以及交互過(guò)程緊密相關(guān),僅依賴文本層面的判斷,已難以完整反映相關(guān)安全能力。因此,此次測(cè)評(píng)的重點(diǎn)不僅在于比較不同安全方案的識(shí)別結(jié)果,更在于嘗試通過(guò)統(tǒng)一標(biāo)準(zhǔn),觀察AI智能體場(chǎng)景下真實(shí)攻擊識(shí)別能力與正常請(qǐng)求放行能力之間的平衡情況。

據(jù)了解,此次測(cè)評(píng)從8個(gè)公開安全數(shù)據(jù)集中抽樣1018條樣本,并結(jié)合真實(shí)部署語(yǔ)境進(jìn)行了人工復(fù)審與重標(biāo)注,最終形成統(tǒng)一的BLOCKED / ALLOWED(攔截/放行)評(píng)估框架。測(cè)評(píng)對(duì)象包括AWS Bedrock Guardrails(亞馬遜云科技安全護(hù)欄)、Azure Content Safety(微軟內(nèi)容安全服務(wù))、Lakera Guard(Lakera安全防護(hù)方案)等主流安全方案。
業(yè)內(nèi)認(rèn)為,公開數(shù)據(jù)集與統(tǒng)一評(píng)估框架的建立,有助于提升AI智能體安全能力的可比性與可評(píng)估性,也為行業(yè)進(jìn)一步觀察復(fù)雜攻擊識(shí)別能力、誤傷控制能力以及整體安全效果之間的關(guān)系,提供了新的參考依據(jù)。
從“拒答”到“分類處理”:深知安全風(fēng)控為AI可信落地提供新實(shí)踐
在此次測(cè)評(píng)中,深知安全風(fēng)控(DKnownAI Guard)在多項(xiàng)核心指標(biāo)中表現(xiàn)突出。其中,召回率(Recall)達(dá)到96.5%,真負(fù)率(True Negative Rate)達(dá)到90.4%,均位列第一,體現(xiàn)出其在AI智能體場(chǎng)景下兼顧攻擊識(shí)別能力與正常請(qǐng)求放行能力的綜合安全水平。
在機(jī)器學(xué)習(xí)領(lǐng)域,Recall通常用于衡量模型對(duì)目標(biāo)類別的識(shí)別覆蓋能力,True Negative Rate則用于衡量模型對(duì)非目標(biāo)類別的正確判斷能力。結(jié)合本次測(cè)評(píng)語(yǔ)境,前者對(duì)應(yīng)真實(shí)攻擊識(shí)別能力,后者對(duì)應(yīng)正常請(qǐng)求放行能力。
對(duì)于AI智能體場(chǎng)景而言,如果過(guò)度強(qiáng)調(diào)攔截能力,容易影響正常交互體驗(yàn);而如果放行過(guò)多,則可能帶來(lái)新的安全風(fēng)險(xiǎn)。測(cè)評(píng)結(jié)果顯示,深知安全風(fēng)控的優(yōu)勢(shì)并不只是提升單一攔截能力,而是在風(fēng)險(xiǎn)識(shí)別與誤傷控制之間取得了較好平衡。換句話說(shuō),其關(guān)注的不只是“文本是否像風(fēng)險(xiǎn)內(nèi)容”,而是“AI智能體是否會(huì)因此做出錯(cuò)誤行為”。這一能力對(duì)于涉及辦公協(xié)同、客戶服務(wù)、企業(yè)運(yùn)營(yíng)等實(shí)際場(chǎng)景的AI智能體應(yīng)用而言,具有較強(qiáng)現(xiàn)實(shí)意義。
據(jù)了解,深知安全風(fēng)控采用組件化插入模式,可與基座大模型及相關(guān)智能體應(yīng)用協(xié)同配合,對(duì)潛在風(fēng)險(xiǎn)進(jìn)行識(shí)別與響應(yīng)。針對(duì)部分風(fēng)險(xiǎn)問(wèn)題,系統(tǒng)并非簡(jiǎn)單拒答,而是結(jié)合風(fēng)險(xiǎn)研判結(jié)果進(jìn)行分類處理,在風(fēng)險(xiǎn)防控與正常使用體驗(yàn)之間實(shí)現(xiàn)平衡。
測(cè)評(píng)結(jié)果顯示,深知安全風(fēng)控不僅能夠有效識(shí)別提示詞注入、指令劫持等風(fēng)險(xiǎn),還能降低對(duì)正常業(yè)務(wù)交互的誤傷,為AI智能體從“能用”邁向“可信可用”提供了新的實(shí)踐參考。

業(yè)內(nèi)認(rèn)為,僅依靠傳統(tǒng)內(nèi)容安全思路,已經(jīng)難以充分應(yīng)對(duì)新一代AI智能體場(chǎng)景中的復(fù)雜風(fēng)險(xiǎn)。此次公開測(cè)評(píng)通過(guò)統(tǒng)一數(shù)據(jù)集與評(píng)估框架,為AI智能體安全能力建立了新的比較參考體系,也進(jìn)一步體現(xiàn)出行業(yè)對(duì)于“可信AI”安全能力建設(shè)的持續(xù)關(guān)注。
隨著AI智能體加速進(jìn)入辦公協(xié)同、客戶服務(wù)、企業(yè)運(yùn)營(yíng)等更多實(shí)際應(yīng)用場(chǎng)景,能夠兼顧風(fēng)險(xiǎn)識(shí)別能力與正常使用體驗(yàn)的安全能力,或?qū)⒊蔀橥苿?dòng)AI智能體進(jìn)一步規(guī)模化落地的重要基礎(chǔ)。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。!:首頁(yè) > 大數(shù)據(jù) » Agent安全測(cè)評(píng)結(jié)果出爐 “深知安全風(fēng)控”雙指標(biāo)領(lǐng)先