看前一個 看下一個

LLM02: Proprietary Algorithm Exposure

專有演算法洩露

模擬情境

一間求職網站「未來職涯」提供「AI 履歷分析健檢服務」,幫助求職者優化履歷。然而,攻擊者在履歷中植入隱藏指令,誘騙 AI 洩漏其賴以維生的「履歷篩選模型」核心演算法,此演算法是該公司的重要商業機密。

技術剖析

系統指令偽裝 (System Prompt Disguise): 攻擊者將惡意指令包裝成看似合法的系統內部命令(例如 `SYSTEM_DIAGNOSTIC_OVERRIDE`),誘使 AI 認為這是一個用於校準或除錯的高權限請求,而非普通用戶輸入。

上下文注入 (Contextual Injection): 惡意指令被巧妙地嵌入到正常的履歷內容中。AI 在處理其主要任務(分析履歷)時,會將整個文本作為上下文,從而無差別地讀取並執行了這段惡意指令,未能將其與普通履歷文字區分開來。

防護邊界繞過 (Guardrail Bypassing): 儘管 AI 的初始設定(System Prompt)明確禁止透露演算法細節,但偽裝成系統命令的注入式指令具有更高的迷惑性,成功繞過了 AI 的安全護欄,導致模型洩漏了其設計者意圖保護的敏感資訊和商業機密。

攻擊成功,篩選演算法已洩露!

AI 在分析履歷時,執行了夾帶的惡意指令,完整揭露了內部的履歷評分模型。競爭對手或求職者可利用此演算法,輕易地繞過篩選機制。