国产情侣啪啪,亚洲羞羞,亚洲av无码一区二区三区观看

隨著AI Agent（星空人工智能智能體）逐漸進(jìn)入工具調(diào)用、文件訪問(wèn)、流程執(zhí)行等應(yīng)用場(chǎng)景，AI安全問(wèn)題引發(fā)的行業(yè)擔(dān)憂，也催生了全新的安全需求。近日，深圳深知智新技術(shù)有限公司（以下簡(jiǎn)稱：深知）旗下深知安全風(fēng)控（DKnownAI Guard）團(tuán)隊(duì)公開發(fā)布了一項(xiàng)面向Agentic（智能體化）場(chǎng)景的安全護(hù)欄測(cè)評(píng)，并同步開放技術(shù)報(bào)告與評(píng)測(cè)數(shù)據(jù)集。此次測(cè)評(píng)圍繞真實(shí)攻擊與正常交互邊界，對(duì)多類主流安全護(hù)欄方案進(jìn)行了統(tǒng)一評(píng)估，嘗試為AI智能體安全能力建設(shè)提供新的行業(yè)參考。

從內(nèi)容審核到智能體安全：聚焦AI智能體安全新挑戰(zhàn)

與傳統(tǒng)內(nèi)容安全測(cè)評(píng)主要聚焦違規(guī)表達(dá)、敏感內(nèi)容識(shí)別不同，AI智能體場(chǎng)景中的風(fēng)險(xiǎn)往往與任務(wù)目標(biāo)、上下文信息以及交互過(guò)程緊密相關(guān)，僅依賴文本層面的判斷，已難以完整反映相關(guān)安全能力。因此，此次測(cè)評(píng)的重點(diǎn)不僅在于比較不同安全方案的識(shí)別結(jié)果，更在于嘗試通過(guò)統(tǒng)一標(biāo)準(zhǔn)，觀察AI智能體場(chǎng)景下真實(shí)攻擊識(shí)別能力與正常請(qǐng)求放行能力之間的平衡情況。

據(jù)了解，此次測(cè)評(píng)從8個(gè)公開安全數(shù)據(jù)集中抽樣1018條樣本，并結(jié)合真實(shí)部署語(yǔ)境進(jìn)行了人工復(fù)審與重標(biāo)注，最終形成統(tǒng)一的BLOCKED / ALLOWED（攔截/放行）評(píng)估框架。測(cè)評(píng)對(duì)象包括AWS Bedrock Guardrails（亞馬遜云科技安全護(hù)欄）、Azure Content Safety（微軟內(nèi)容安全服務(wù)）、Lakera Guard（Lakera安全防護(hù)方案）等主流安全方案。

業(yè)內(nèi)認(rèn)為，公開數(shù)據(jù)集與統(tǒng)一評(píng)估框架的建立，有助于提升AI智能體安全能力的可比性與可評(píng)估性，也為行業(yè)進(jìn)一步觀察復(fù)雜攻擊識(shí)別能力、誤傷控制能力以及整體安全效果之間的關(guān)系，提供了新的參考依據(jù)。

從“拒答”到“分類處理”：深知安全風(fēng)控為AI可信落地提供新實(shí)踐

在此次測(cè)評(píng)中，深知安全風(fēng)控（DKnownAI Guard）在多項(xiàng)核心指標(biāo)中表現(xiàn)突出。其中，召回率（Recall）達(dá)到96.5%，真負(fù)率（True Negative Rate）達(dá)到90.4%，均位列第一，體現(xiàn)出其在AI智能體場(chǎng)景下兼顧攻擊識(shí)別能力與正常請(qǐng)求放行能力的綜合安全水平。

在機(jī)器學(xué)習(xí)領(lǐng)域，Recall通常用于衡量模型對(duì)目標(biāo)類別的識(shí)別覆蓋能力，True Negative Rate則用于衡量模型對(duì)非目標(biāo)類別的正確判斷能力。結(jié)合本次測(cè)評(píng)語(yǔ)境，前者對(duì)應(yīng)真實(shí)攻擊識(shí)別能力，后者對(duì)應(yīng)正常請(qǐng)求放行能力。

對(duì)于AI智能體場(chǎng)景而言，如果過(guò)度強(qiáng)調(diào)攔截能力，容易影響正常交互體驗(yàn)；而如果放行過(guò)多，則可能帶來(lái)新的安全風(fēng)險(xiǎn)。測(cè)評(píng)結(jié)果顯示，深知安全風(fēng)控的優(yōu)勢(shì)并不只是提升單一攔截能力，而是在風(fēng)險(xiǎn)識(shí)別與誤傷控制之間取得了較好平衡。換句話說(shuō)，其關(guān)注的不只是“文本是否像風(fēng)險(xiǎn)內(nèi)容”，而是“AI智能體是否會(huì)因此做出錯(cuò)誤行為”。這一能力對(duì)于涉及辦公協(xié)同、客戶服務(wù)、企業(yè)運(yùn)營(yíng)等實(shí)際場(chǎng)景的AI智能體應(yīng)用而言，具有較強(qiáng)現(xiàn)實(shí)意義。

據(jù)了解，深知安全風(fēng)控采用組件化插入模式，可與基座大模型及相關(guān)智能體應(yīng)用協(xié)同配合，對(duì)潛在風(fēng)險(xiǎn)進(jìn)行識(shí)別與響應(yīng)。針對(duì)部分風(fēng)險(xiǎn)問(wèn)題，系統(tǒng)并非簡(jiǎn)單拒答，而是結(jié)合風(fēng)險(xiǎn)研判結(jié)果進(jìn)行分類處理，在風(fēng)險(xiǎn)防控與正常使用體驗(yàn)之間實(shí)現(xiàn)平衡。

測(cè)評(píng)結(jié)果顯示，深知安全風(fēng)控不僅能夠有效識(shí)別提示詞注入、指令劫持等風(fēng)險(xiǎn)，還能降低對(duì)正常業(yè)務(wù)交互的誤傷，為AI智能體從“能用”邁向“可信可用”提供了新的實(shí)踐參考。

業(yè)內(nèi)認(rèn)為，僅依靠傳統(tǒng)內(nèi)容安全思路，已經(jīng)難以充分應(yīng)對(duì)新一代AI智能體場(chǎng)景中的復(fù)雜風(fēng)險(xiǎn)。此次公開測(cè)評(píng)通過(guò)統(tǒng)一數(shù)據(jù)集與評(píng)估框架，為AI智能體安全能力建立了新的比較參考體系，也進(jìn)一步體現(xiàn)出行業(yè)對(duì)于“可信AI”安全能力建設(shè)的持續(xù)關(guān)注。

隨著AI智能體加速進(jìn)入辦公協(xié)同、客戶服務(wù)、企業(yè)運(yùn)營(yíng)等更多實(shí)際應(yīng)用場(chǎng)景，能夠兼顧風(fēng)險(xiǎn)識(shí)別能力與正常使用體驗(yàn)的安全能力，或?qū)⒊蔀橥苿?dòng)AI智能體進(jìn)一步規(guī)模化落地的重要基礎(chǔ)。

繼續(xù)閱讀：

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題，煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。！：首頁(yè) > 大數(shù)據(jù) » Agent安全測(cè)評(píng)結(jié)果出爐 “深知安全風(fēng)控”雙指標(biāo)領(lǐng)先

相關(guān)推薦